Arnold Moya

Newsletter

La IA degrada tus documentos

Los LLMs prometen revolucionar el trabajo delegado, pero una investigación de Microsoft demuestra que incluso los modelos frontera corrompen el 25% de documentos tras solo 20 interacciones. Los errores son fallos críticos esporádicos que se acumulan silenciosamente.

Suscríbete a mi boletín para recibir más contenido como este

Contexto

Microsoft Research (2026) presenta DELEGATE-52, un benchmark para evaluar si las IA son confiables para delegar tareas de edición de documentos en flujos de trabajo prolongados. Incluso los modelos más avanzados (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompen en promedio el 25% del contenido de documentos después de solo 20 interacciones, lo que cuestiona la confiabilidad para delegar trabajo real.

Para conocer los detalles

  • 52 dominios profesionales testeados: code/configuracion, ciencia/ingeniería, creative/media, structured records, everyday domains.
  • Round-trips para detectar degradación en +20 iteraciones de ediciones reversibles.
  • 19 modelos testeados: OpenAI GPT, Claude 4.6, Gemini 3, Mistral Large 3, Grok 4, Kimi K2.5.
  • Python tuvo sorprendentemente menos degradación.
  • Posibles soluciones: usar control de versiones, implementar validadores específicos por dominio, mantener contexto corto, filtrar información inteligentemente, ejecutar tests de regresión regulares.

Paper

Suscríbete a mi boletín para recibir más contenido como este