Arnold Moya
Newsletter
Adaptive-k: el fin de los contextos inflados en RAG
Un paper de EMNLP 2025 propone un método que selecciona automáticamente cuántos pasajes recuperar para responder preguntas — sin reentrenar modelos ni hacer llamadas extra al LLM — y lo hace hasta 10 veces más eficiente que pasar todo el contexto.
🧩 El problema que nadie quería resolver bien
Los sistemas RAG y los modelos de contexto largo tienen un dilema silencioso: ¿cuántos fragmentos recuperar?
Demasiados → tokens desperdiciados y ruido. Muy pocos → evidencia que se pierde. El k fijo fue durante años la solución más común. No es una solución: es una suposición.
⚙️ Adaptive-k: un solo paso, sin ajuste fino
Chihiro Taguchi, Seiji Maekawa y Nikita Bhutani publicaron en EMNLP 2025 un método llamado Adaptive-k.
La idea central: usar umbrales de similitud para decidir dinámicamente cuántos pasajes incluir en cada consulta. Sin fine-tuning. Sin rondas iterativas. Sin llamadas adicionales al LLM.
📊 Qué mostraron los datos
- Hasta 10 veces menos tokens que pasar el contexto completo.
- Recupera el 70% de los pasajes relevantes.
- Igual o mejor rendimiento que baselines de k fijo en QA factual y QA de agregación.
- Validado en cinco modelos de contexto largo y dos modelos de embeddings.
🕰️ Un año después
Estamos en 2026. Lo que en 2025 era una propuesta de investigación, hoy describe cómo los pipelines RAG más eficientes ya operan — sin presupuestos fijos de tokens y sin reentrenar nada.
La intuición de Adaptive-k — que la cantidad de contexto debe depender de la pregunta, no de una constante — se ha vuelto sentido común en producción.