Qué es RAG y por qué las aplicaciones de IA sin él siguen siendo juguetes

Rustam Atai8 min

Cuando los equipos conectan por primera vez un LLM (large language model, es decir, un gran modelo de lenguaje) a un producto, suele parecer que lo más difícil ya quedó atrás. El modelo responde preguntas, reescribe textos, redacta borradores y mantiene conversaciones. Pero en cuanto ese producto toca procesos reales de negocio, aparece una verdad incómoda: por sí solo, el modelo no sabe casi nada sobre tus contratos, políticas internas, base de conocimiento, tickets, código, catálogo de productos o documentos recién cargados.

Por eso tantas aplicaciones de IA se ven impresionantes en una demo y decepcionan en producción. Suenan seguras, pero no pueden apoyar sus respuestas en los datos reales de la empresa. RAG no nació como una palabra de moda. Nació como una respuesta práctica a esa brecha: cómo darle al modelo acceso a los datos correctos sin volver a entrenarlo y sin reconstruir manualmente el prompt cada vez.

Por qué un LLM sin tus datos vale muy poco

Un LLM base tiene tres debilidades estructurales.

La primera: no tiene acceso a los datos privados de una organización. Puede explicar bien temas generales, pero no sabe qué pone en tu PDF de compras, en Confluence, en Notion, en Zendesk o en la carpeta de contratos.

La segunda: aunque la información relevante haya existido alguna vez en internet abierto, el modelo no tiene por qué recordarla con exactitud. Sin una fuente externa de verdad, empieza a completar respuestas de forma probabilística y no factual.

La tercera: el conocimiento del modelo envejece rápido. Para la IA aplicada, esto es crítico. Los usuarios no preguntan sobre física abstracta, sino sobre el plan de precios actual, la versión vigente de una política, el estado de un pedido, una norma interna o la especificación actual de una API.

Ahí está el problema central de la IA aplicada: si el modelo no está conectado a tus datos, no sabe precisamente aquello que más le importa al negocio. NIST (el National Institute of Standards and Technology de EE. UU.) deja claro en su perfil sobre IA generativa que, en estos sistemas, la cuestión no es solo la inteligencia del modelo, sino también la gestión del riesgo, la fiabilidad de las fuentes y la confianza en la salida. (1)

Qué es RAG en un párrafo

RAG significa Retrieval-Augmented Generation. Primero, el sistema recupera fragmentos relevantes de tus datos. Después los introduce en el contexto del modelo. Solo entonces el LLM genera la respuesta. Dicho de otro modo, el modelo no responde “de memoria”, sino apoyándose en evidencia recuperada. (2)

En una buena aplicación RAG, el valor real no está en la llamada al LLM en sí. El valor está en que la búsqueda se haya diseñado bien antes de que el modelo vea el prompt: qué hay que buscar, dónde buscarlo, cómo filtrar el ruido, cuántos fragmentos pasar al modelo y cómo mostrar al usuario en qué fuentes se apoyó la respuesta.

Embeddings y bases de datos vectoriales, sin hype

Para que RAG funcione, el texto suele convertirse en embeddings, vectores numéricos que capturan el significado de una frase o un párrafo. Eso permite comparar la consulta del usuario no solo por coincidencia literal de palabras, sino también por similitud semántica. La documentación de Retrieval de OpenAI muestra explícitamente que el resultado más relevante puede compartir pocas o ninguna palabra clave con la consulta original. (2)

Una base de datos vectorial almacena esas representaciones y puede encontrar rápidamente fragmentos cercanos. No es una “memoria mágica para IA”. Es un índice especializado para búsqueda semántica. En el enfoque alojado de OpenAI, un vector store trocea, genera embeddings e indexa archivos subidos de forma automática. En Chroma, esa misma lógica puede montarse en local o dentro de tu propia aplicación, incluso con una función de embeddings personalizada. (211)

Pero es fácil exagerar el papel de la base vectorial. No sustituye tu base de datos transaccional principal, no resuelve el control de acceso y no convierte automáticamente el retrieval en algo de calidad. Si el parseo de documentos es malo, los fragmentos son débiles y no puedes filtrar por tenant o por tipo de documento, una infraestructura cara no va a salvar el sistema.

Cómo es realmente una aplicación RAG en producción

En producción, RAG casi nunca se parece a “subir un PDF, hacer una pregunta y obtener una respuesta”. Un sistema serio suele tener al menos cinco capas: ingestión, parseo, fragmentación, retrieval y generación.

User Query

Embed Query

Source Docs

Parse and Chunk

Embed Chunks

Vector DB

BM25 Index

Hybrid Retrieval

Cross-Encoder Reranker

Augmented Prompt

LLM

Grounded Answer with Citations

Lo primero es convertir los documentos en algo realmente consultable. Google describe Vertex AI RAG Engine como un ciclo de vida separado: ingestión desde archivos locales, Cloud Storage o Google Drive, luego transformación y después indexación en un corpus. (7) Eso ya es una señal importante: la parte difícil empieza antes del modelo.

Luego viene el chunking, es decir, la división del documento en fragmentos más pequeños. Casi nunca se busca el documento entero. Se divide en unidades menores para que el retrieval sea más preciso. Y justo ahí fallan muchos sistemas. Si un fragmento es demasiado pequeño, pierde contexto. Si es demasiado grande, aparece una especie de sopa temática: algo que parece relacionado, pero demasiado difuso para ser realmente útil. En OpenAI Retrieval, el tamaño por defecto de los fragmentos en un vector store es de 800 tokens con 400 tokens de overlap, es decir, con solapamiento parcial entre fragmentos vecinos. Eso es solo un punto de partida, no una regla universal. (2)

Después de eso, hace falta algo más que una simple búsqueda vectorial. En 2026, un patrón fuerte de producción ya no es el retrieval solo denso, sino la combinación de búsqueda semántica y búsqueda por palabras clave. OpenAI ofrece semantic search, query rewriting, attribute filtering y opciones de ranking. Weaviate trata la búsqueda híbrida como un patrón de primera clase: ejecuta en paralelo vector search y BM25 (Best Matching 25, un algoritmo clásico de ranking para búsquedas por palabras clave) y luego fusiona los resultados. (210)

La siguiente capa suele ser reranking, es decir, una reordenación adicional de los fragmentos recuperados según su relevancia. Esto importa especialmente cuando la primera fase de retrieval devuelve un conjunto amplio de candidatos. La investigación de Anthropic sobre Contextual Retrieval apunta al mismo patrón de producción: embeddings más BM25 más un reranker producen bastantes menos fallos de recuperación que usar solo embeddings. (5)

Solo después de eso el contexto recuperado llega al LLM. Si el producto va en serio, la salida debería incluir al menos citas, enlaces a las fuentes, referencias por página o alguna traza clara de dónde salió la respuesta. Si no, el usuario recibe un texto pulido, pero no algo verificable.

Chat con PDFs y bases de conocimiento: qué cambia en la práctica

Chat with PDF suele presentarse como el ejemplo más simple de RAG. Y para una demo, eso es bastante cierto: subes un archivo, lo divides en fragmentos, generas embeddings, encuentras pasajes similares y se los pasas al modelo. Pero en un producto real, las partes difíciles aparecen enseguida.

Un PDF puede ser un escaneo. Puede contener tablas, columnas, diagramas, notas al pie y un orden de lectura roto. El mismo párrafo, después de un mal parseo, se convierte en basura que se indexa perfectamente y responde mal. Por eso el RAG práctico sobre PDFs casi nunca empieza por los embeddings, sino por una extracción fiable del documento y por recuperar su estructura.

Las bases de conocimiento corporativas son aún más complicadas. La relevancia no es el único problema. Los permisos, la frescura de los datos y la calidad de la fuente importan igual. Un usuario debería ver los runbooks internos de su equipo, pero no documentos de RR. HH. o legal. Un solo archivo obsoleto en el índice puede romper más confianza de la que diez buenas respuestas pueden reconstruir.

Por eso un sistema RAG que realmente funciona para una base de conocimiento casi siempre incluye:

  • filtrado por fuente, tenant, departamento o tipo de documento;
  • reindexación cuando cambia el contenido;
  • logs de los fragmentos recuperados;
  • evaluaciones offline, es decir, conjuntos de pruebas para medir la calidad del retrieval y de las respuestas;
  • una estrategia de fallback explícita cuando no se encuentra evidencia relevante.

Por eso mismo, en la IA aplicada, el trabajo real empieza exactamente donde termina la demo.

Herramientas en 2026: Pinecone, Weaviate, Chroma, Qdrant, pgvector

La elección de la herramienta debería depender de la capa de retrieval que de verdad quieres construir, no de la moda.

Pinecone sigue siendo una opción managed fuerte para equipos que no quieren operar un stack de búsqueda separado. La documentación de Pinecone pone el foco en su arquitectura serverless, en la separación entre control plane y data plane, en el escalado independiente de lectura y escritura y en el uso de namespaces. Eso lo hace atractivo cuando buscas un servicio gestionado predecible con poca carga operativa. (9)

Weaviate destaca cuando quieres búsqueda híbrida integrada desde el principio en lugar de añadirla después. En su documentación, la búsqueda híbrida no es un apaño, sino un patrón central: vector search y BM25 se ejecutan en paralelo y luego se fusionan mediante relativeScoreFusion o rankedFusion. También puedes ajustar alpha, que controla el equilibrio entre señal semántica y señal léxica. Para sistemas intensivos en conocimiento, es un compromiso muy práctico entre recall y precisión. (10)

Chroma es un punto de partida ligero y cómodo, sobre todo para prototipos, pipelines de evaluación y aplicaciones pequeñas. Permite usar una función de embeddings integrada basada en all-MiniLM-L6-v2, y además puede conectarse con rapidez a OpenAI, Google, Mistral, Ollama, Jina y otros proveedores. Es una buena forma de levantar rápido una capa de retrieval sin una infraestructura pesada. Pero, para producción multi-tenant con mucha carga, suele evaluarse con bastante más dureza. (11)

Qdrant suele elegirse cuando el filtrado por metadatos, la búsqueda híbrida y una capa de retrieval que evoluciona por separado se vuelven prioritarios. Es revelador que, incluso en su propia comparación con pgvector, el argumento no gire en torno a una “velocidad mágica”, sino al HNSW filtrable (Hierarchical Navigable Small World, una estructura de índice popular para búsqueda aproximada de vecinos más cercanos), a la búsqueda híbrida y a escenarios en los que los vectores pasan a ser una capa propia en lugar de otro campo más dentro de Postgres. (12)

pgvector sigue teniendo sentido como punto de partida si ya trabajas con Postgres, tu corpus es relativamente pequeño y tu lógica de búsqueda está muy acoplada a los datos relacionales. Pero la regla práctica es simple: si esperas mucho filtrado, BM25 o retrieval híbrido, un volumen creciente de embeddings y una pipeline de retrieval que vaya a evolucionar por separado, conviene diseñar desde el principio pensando en un posible salto a una base vectorial dedicada antes de que esa migración se vuelva dolorosa. (12)

RAG gestionado por los proveedores de modelos: OpenAI File Search y Vertex AI RAG Engine

Uno de los cambios más claros de los últimos años es el RAG alojado directamente por los proveedores de modelos. Esto importa porque los proveedores ya no dicen simplemente: “Aquí tienes el LLM, construye tú lo demás”. Poco a poco están absorbiendo también la capa de retrieval.

OpenAI ofrece file_search y vector stores con ese objetivo. Puedes subir archivos a una base de conocimiento, dejar que el servicio los fragmente, genere embeddings e indexe automáticamente, y después activar file search como herramienta en la Responses API. Puedes limitar el número de resultados, aplicar filtros por metadatos, reescribir consultas, ajustar opciones de ranking y devolver citas en la respuesta. Para muchos asistentes internos, eso crea un camino muy rápido hacia producción. (24)

Google juega un papel parecido con Vertex AI RAG Engine. Se describe como un framework de datos para aplicaciones LLM con contexto aumentado: ingestión, transformación, indexación, retrieval y generación. Google también pone mucho énfasis en grounding, es decir, en vincular la respuesta del modelo a fuentes verificables, y en la Check grounding API, que ayuda a comprobar si la respuesta está realmente respaldada por los hechos recuperados. (7)

La contrapartida es evidente: menos control sobre la pipeline de retrieval, más dependencia de la plataforma y menos libertad para afinar en profundidad el parseo, la indexación y el reranking. Aun así, para muchos equipos sigue siendo un intercambio perfectamente racional si el objetivo es una aplicación útil y no un stack de investigación hecho a medida.

Lo que realmente recomiendan OpenAI, Anthropic y Google

Si dejas de lado el marketing alrededor de RAG y miras lo que recomiendan los propios proveedores, la imagen resulta sorprendentemente práctica.

La postura de OpenAI es básicamente que el retrieval debe tratarse como un sistema de búsqueda, no como “pegamento mágico para un LLM”. Su documentación incluye query rewriting, attribute filtering, ajuste de rankers y score thresholds, límites de resultados e ingestión por lotes para aumentar el throughput. Es una visión de RAG muy de ingeniería, no romántica. (2)

Anthropic va incluso más lejos y señala directamente dónde falla el RAG clásico. Su argumento es simple: un fragmento sin contexto suele perder la conexión con el documento original. Por eso proponen Contextual Retrieval: añadir a cada fragmento una breve explicación de contexto antes de generar el embedding y antes de construir el índice BM25. Según Anthropic, los contextual embeddings reducen los fallos de retrieval en 35%, contextual embeddings más contextual BM25 los reducen en 49%, y el stack completo con reranking los reduce en 67%. (5)

Google, por su parte, es muy consistente con la idea de grounding. En la práctica, eso significa que el retrieval no está ahí solo para “mejorar la respuesta”. Está ahí para atar la generación a fuentes verificables. Probablemente esa sea la forma más sana de entender toda la capa RAG: el retrieval importa no porque haga que el texto suene más inteligente, sino porque hace que la salida sea más comprobable. (7)

Cuándo RAG es excesivo: long context frente a retrieval

En 2026 no se puede hablar seriamente de RAG sin hablar también de long context, es decir, una ventana de contexto muy grande del modelo. Anthropic lanzó oficialmente 1M tokens de contexto para Claude Sonnet 4 y, además, en la investigación sobre Contextual Retrieval señala algo importante: si tu base de conocimiento es menor de 200.000 tokens, aproximadamente 500 páginas, puede ser más simple saltarse RAG por completo y meter todo el corpus directamente en el prompt. Con prompt caching, es decir, reutilizando un contexto grande ya preparado, eso puede reducir la latencia en más de 2x y recortar los costes hasta en 90%. (5)

Es una corrección importante para la industria. No todos los conjuntos de documentos necesitan embeddings, una base de datos vectorial y una pipeline de retrieval dedicada. Si el corpus es pequeño, estable y cambia poco, el long context puede ser más simple, más fiable y más barato de mantener.

Pero el otro lado está igual de claro. En cuanto los datos crecen, cambian con frecuencia, requieren permisos, necesitan filtros por metadatos, abarcan múltiples fuentes o vienen con restricciones de latencia, el long context deja de ser una respuesta universal. Meter todo el corpus en cada petición es caro, lento y operativamente incómodo.

La regla práctica es esta:

  • corpus pequeño y estable: prueba primero long context;
  • corpus grande o que cambia rápido: probablemente vas a necesitar RAG;
  • razonamiento complejo sobre un corpus grande: lo normal es un enfoque híbrido, primero retrieval y después long context.

RAG es una disciplina, no una librería

La mayor confusión alrededor de RAG suena más o menos así: “Añadimos Pinecone, Weaviate o Chroma y, de repente, la IA empezará a hablar con nuestros datos”. En la práctica, casi ocurre lo contrario. La base vectorial es importante, pero secundaria. La calidad de la respuesta suele romperse por un parseo débil, un chunking malo, falta de búsqueda híbrida, un reranker flojo, datos fuente sucios y la ausencia total de evals, es decir, conjuntos de evaluación y pruebas para medir la calidad del retrieval y de las respuestas.

Por eso es más útil pensar en RAG no como un módulo, sino como una disciplina para trabajar con el conocimiento de una organización. Un buen RAG encuentra el contexto correcto, hace respetar los límites de acceso, muestra las fuentes, sobrevive a las actualizaciones de documentos y puede decir honestamente “no lo sé” cuando no se ha encontrado evidencia.

En ese sentido, RAG sigue siendo central para la IA aplicada. No porque un LLM literalmente no pueda responder sin él. Sino porque, sin retrieval, grounding y verificación de fuentes, la mayoría de las aplicaciones de IA siguen siendo una demo elegante y no una herramienta de trabajo real.