Adaptive-k: el fin de los contextos inflados en RAG

🧩 El problema que nadie quería resolver bien

Los sistemas RAG y los modelos de contexto largo tienen un dilema silencioso: ¿cuántos fragmentos recuperar?

Demasiados → tokens desperdiciados y ruido. Muy pocos → evidencia que se pierde. El k fijo fue durante años la solución más común. No es una solución: es una suposición.

⚙️ Adaptive-k: un solo paso, sin ajuste fino

Chihiro Taguchi, Seiji Maekawa y Nikita Bhutani publicaron en EMNLP 2025 un método llamado Adaptive-k.

La idea central: usar umbrales de similitud para decidir dinámicamente cuántos pasajes incluir en cada consulta. Sin fine-tuning. Sin rondas iterativas. Sin llamadas adicionales al LLM.

📊 Qué mostraron los datos

Hasta 10 veces menos tokens que pasar el contexto completo.
Recupera el 70% de los pasajes relevantes.
Igual o mejor rendimiento que baselines de k fijo en QA factual y QA de agregación.
Validado en cinco modelos de contexto largo y dos modelos de embeddings.

🕰️ Un año después

Estamos en 2026. Lo que en 2025 era una propuesta de investigación, hoy describe cómo los pipelines RAG más eficientes ya operan — sin presupuestos fijos de tokens y sin reentrenar nada.

La intuición de Adaptive-k — que la cantidad de contexto debe depender de la pregunta, no de una constante — se ha vuelto sentido común en producción.

🔗 Más detalles