Arnold Moya

Newsletter

Adaptive-k: el fin de los contextos inflados en RAG

Un paper de EMNLP 2025 propone un método que selecciona automáticamente cuántos pasajes recuperar para responder preguntas — sin reentrenar modelos ni hacer llamadas extra al LLM — y lo hace hasta 10 veces más eficiente que pasar todo el contexto.

Suscríbete a mi boletín para recibir más contenido como este

🧩 El problema que nadie quería resolver bien

Los sistemas RAG y los modelos de contexto largo tienen un dilema silencioso: ¿cuántos fragmentos recuperar?

Demasiados → tokens desperdiciados y ruido. Muy pocos → evidencia que se pierde. El k fijo fue durante años la solución más común. No es una solución: es una suposición.


⚙️ Adaptive-k: un solo paso, sin ajuste fino

Chihiro Taguchi, Seiji Maekawa y Nikita Bhutani publicaron en EMNLP 2025 un método llamado Adaptive-k.

La idea central: usar umbrales de similitud para decidir dinámicamente cuántos pasajes incluir en cada consulta. Sin fine-tuning. Sin rondas iterativas. Sin llamadas adicionales al LLM.


📊 Qué mostraron los datos

  • Hasta 10 veces menos tokens que pasar el contexto completo.
  • Recupera el 70% de los pasajes relevantes.
  • Igual o mejor rendimiento que baselines de k fijo en QA factual y QA de agregación.
  • Validado en cinco modelos de contexto largo y dos modelos de embeddings.

🕰️ Un año después

Estamos en 2026. Lo que en 2025 era una propuesta de investigación, hoy describe cómo los pipelines RAG más eficientes ya operan — sin presupuestos fijos de tokens y sin reentrenar nada.

La intuición de Adaptive-k — que la cantidad de contexto debe depender de la pregunta, no de una constante — se ha vuelto sentido común en producción.


🔗 Más detalles

Suscríbete a mi boletín para recibir más contenido como este