Arnold Moya
Newsletter
La IA degrada tus documentos
Los LLMs prometen revolucionar el trabajo delegado, pero una investigación de Microsoft demuestra que incluso los modelos frontera corrompen el 25% de documentos tras solo 20 interacciones. Los errores son fallos críticos esporádicos que se acumulan silenciosamente.
Contexto
Microsoft Research (2026) presenta DELEGATE-52, un benchmark para evaluar si las IA son confiables para delegar tareas de edición de documentos en flujos de trabajo prolongados. Incluso los modelos más avanzados (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompen en promedio el 25% del contenido de documentos después de solo 20 interacciones, lo que cuestiona la confiabilidad para delegar trabajo real.

Para conocer los detalles
- 52 dominios profesionales testeados: code/configuracion, ciencia/ingeniería, creative/media, structured records, everyday domains.
- Round-trips para detectar degradación en +20 iteraciones de ediciones reversibles.
- 19 modelos testeados: OpenAI GPT, Claude 4.6, Gemini 3, Mistral Large 3, Grok 4, Kimi K2.5.
- Python tuvo sorprendentemente menos degradación.
- Posibles soluciones: usar control de versiones, implementar validadores específicos por dominio, mantener contexto corto, filtrar información inteligentemente, ejecutar tests de regresión regulares.