Contexto

Microsoft Research (2026) presenta DELEGATE-52, un benchmark para evaluar si las IA son confiables para delegar tareas de edición de documentos en flujos de trabajo prolongados. Incluso los modelos más avanzados (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompen en promedio el 25% del contenido de documentos después de solo 20 interacciones, lo que cuestiona la confiabilidad para delegar trabajo real.

Para conocer los detalles

52 dominios profesionales testeados: code/configuracion, ciencia/ingeniería, creative/media, structured records, everyday domains.
Round-trips para detectar degradación en +20 iteraciones de ediciones reversibles.
19 modelos testeados: OpenAI GPT, Claude 4.6, Gemini 3, Mistral Large 3, Grok 4, Kimi K2.5.
Python tuvo sorprendentemente menos degradación.
Posibles soluciones: usar control de versiones, implementar validadores específicos por dominio, mantener contexto corto, filtrar información inteligentemente, ejecutar tests de regresión regulares.

Paper

La IA degrada tus documentos

Contexto

Para conocer los detalles