Arnold Moya
Newsletter
La IA degrada tus documentos hasta un 25%.
Los LLMs prometen revolucionar el trabajo delegado, pero una investigación de Microsoft demuestra que incluso los modelos frontera corrompen el 25% de documentos tras solo 20 interacciones. Los errores son fallos críticos esporádicos que se acumulan silenciosamente.
Contexto
Microsoft Research (2026) presenta DELEGATE-52, un benchmark para evaluar si las IA son confiables para delegar tareas de edición de documentos en flujos de trabajo prolongados. Incluso los modelos más avanzados (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompen en promedio el 25% del contenido de documentos después de solo 20 interacciones, lo que cuestiona la confiabilidad para delegar trabajo real.

Para conocer los detalles
- El paper cubre 52 dominios profesiones: code/configuracion, ciencia/ingeniería, creative/media, structured records, and everyday domains.
- Round-trips son usado para detectar degradación midiendo si el LLM logra recuperar el documento original tras +20 iteraciones de ediciones reversibles: cualquier diferencia entre el final e inicial comprueba pérdida de información.
- Diesinueve modelos fueron testados incluyendo los top: OpenAI GPT-family models, Claude 4.6 Sonnet/Opus, Gemini 3 Flash/3.1 Pro, Mistral Large 3, Grok 4, and Kimi K2.5
- Sorprendentemente Python tuvo menos degradación
- Posibles soluciones: usar version de control, validadores especificos como ..., mantener el contexto corto, filtrar la informacióny test de regresión