Contexto

Microsoft Research (2026) presenta DELEGATE-52, un benchmark para evaluar si las IA son confiables para delegar tareas de edición de documentos en flujos de trabajo prolongados. Incluso los modelos más avanzados (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompen en promedio el 25% del contenido de documentos después de solo 20 interacciones, lo que cuestiona la confiabilidad para delegar trabajo real.

Para conocer los detalles

El paper cubre 52 dominios profesiones: code/configuracion, ciencia/ingeniería, creative/media, structured records, and everyday domains.
Round-trips son usado para detectar degradación midiendo si el LLM logra recuperar el documento original tras +20 iteraciones de ediciones reversibles: cualquier diferencia entre el final e inicial comprueba pérdida de información.
Diesinueve modelos fueron testados incluyendo los top: OpenAI GPT-family models, Claude 4.6 Sonnet/Opus, Gemini 3 Flash/3.1 Pro, Mistral Large 3, Grok 4, and Kimi K2.5
Sorprendentemente Python tuvo menos degradación
Posibles soluciones: usar version de control, validadores especificos como ..., mantener el contexto corto, filtrar la informacióny test de regresión

Paper

La IA degrada tus documentos hasta un 25%.

Contexto

Para conocer los detalles