Qué es RAG y por qué importa
RAG (Retrieval-Augmented Generation) es un patrón arquitectónico donde un LLM (como GPT-4 o Claude) consulta una base de conocimiento externa antes de generar la respuesta. En lugar de depender solo de lo que el modelo "sabe" por su entrenamiento, le damos contexto fresco y específico de tu empresa.
RAG resuelve dos problemas críticos de los LLMs en empresa:
- Alucinaciones: el modelo no se inventa la respuesta cuando le das fuentes
- Conocimiento privado: el modelo no fue entrenado con tu documentación interna, pero ahora puede usarla
La alternativa al RAG es fine-tuning (re-entrenar el modelo con tus datos), que cuesta 10-100x más, requiere ≥1.000 ejemplos etiquetados y se vuelve obsoleto cada vez que cambia tu información. RAG es más barato, más mantenible y más auditable.
Arquitectura mínima viable de un RAG enterprise
Un sistema RAG en producción tiene 5 componentes fundamentales:
1. Pipeline de ingesta
Procesa los documentos de la empresa (PDFs, Word, Confluence, Notion, SharePoint, intranet, etc.) y los convierte en chunks indexables:
- Extracción: texto plano respetando estructura jerárquica (títulos, secciones)
- Chunking inteligente: dividir en bloques de 200-500 tokens con overlap del 10-20%, respetando límites semánticos (no cortar frases por la mitad)
- Metadatos: cada chunk lleva fuente, fecha, autor, departamento, nivel de confidencialidad
- Versionado: cuando un documento cambia, los chunks viejos se desindexan
2. Generación de embeddings
Cada chunk se convierte en un vector numérico que representa su significado semántico:
- Modelo recomendado:
text-embedding-3-largede OpenAI (1.536 dimensiones, excelente coste/calidad para español e inglés) - Alternativa open-source:
bge-m3de BAAI (multilingüe, self-hosted) - Caching agresivo: nunca re-generar embedding de chunk que no ha cambiado (hash del contenido como cache key)
3. Vector database
Almacena los embeddings y permite búsqueda por similitud (k-nearest neighbors):
- pgvector (extensión PostgreSQL): si ya tienes Postgres, esta es la opción más simple. Hasta 10M de vectores funciona bien.
- Pinecone: gestionado, escalable a 100M+ vectores. Caro a partir de 1M vectores activos.
- Qdrant: open-source self-hosted, excelente performance, filtros avanzados por metadatos
- Chroma: para prototipos rápidos. No recomendado para producción a escala.
4. Reranking
El paso que separa un RAG mediocre de uno excelente. Después de la búsqueda inicial (top-20 chunks), un reranker (modelo más pequeño y específico) reordena los resultados por relevancia real a la query:
- Cohere Rerank: API gestionada, mejora 20-40% la precisión vs. embedding-only
- BGE Reranker: open-source self-hosted, alternativa a Cohere
Sin reranking, el top-5 que envías al LLM tiene mucho ruido. Con reranking, los chunks elegidos son los realmente relevantes.
5. LLM con prompting estructurado
El modelo final recibe la query del usuario + los top-3 a top-5 chunks como contexto y genera la respuesta:
- Modelo recomendado para producción: GPT-4o o Claude Sonnet 4.6 (excelente razonamiento, latencia <2s)
- Prompting con citaciones obligatorias: el modelo debe citar el chunk fuente de cada afirmación
- Fallback "no sé": si los chunks no contienen la respuesta, el modelo dice "no tengo información sobre eso" en lugar de inventar
Evaluación: la diferencia entre demo y producción
Un RAG demo "funciona" porque el desarrollador prueba 5-10 queries que él mismo se inventa. Un RAG producción se evalúa con disciplina:
Dataset de evaluación etiquetado
Antes de poner el sistema en producción, construye un dataset con 50-200 pares (query, respuesta esperada, chunks-fuente esperados). Las queries deben venir de usuarios reales (encuesta inicial, simulación basada en tickets de soporte previos), no inventadas por el equipo técnico.
Métricas a medir
- Recall@k: ¿el chunk correcto está en los top-k recuperados? (objetivo: ≥0.85 en k=5)
- MRR (Mean Reciprocal Rank): ¿en qué posición está el chunk correcto? (objetivo: ≥0.7)
- Precisión de la respuesta: evaluación humana o con LLM-as-judge sobre si la respuesta generada es correcta (objetivo: ≥0.85)
- Tasa de alucinación: respuestas que afirman algo no presente en los chunks (objetivo: ≤2%)
- Latencia p95: tiempo total query→respuesta (objetivo: ≤3 segundos)
- Coste por petición: embeddings + reranking + generation (objetivo: variable según caso, típicamente 0.001-0.02€/petición)
Frameworks de evaluación
- Ragas: framework Python específico para evaluar RAG (faithfulness, answer relevance, context precision)
- DeepEval: alternativa con más métricas y mejor integración con CI/CD
- LangSmith: tracing + evaluación, ideal si ya usas LangChain
5 errores comunes que hunden proyectos RAG
- Chunking ingenuo: partir cada 1.000 caracteres sin respetar estructura → contexto roto, citaciones inservibles
- Sin reranking: el top-5 está lleno de chunks relevantes "por palabra clave" pero no por significado
- Sin caching de embeddings: re-generar embeddings en cada despliegue → coste 100x mayor de lo necesario
- Sin evaluación con dataset real: el sistema "funciona" en demo y falla con queries reales de usuarios
- Sin fallback a "no sé": el modelo alucina cuando no hay contexto suficiente → pérdida de confianza del usuario
Cuánto cuesta un RAG enterprise en producción
Para un sistema con 100k consultas/mes y caching semántico:
- OpenAI API (embeddings + GPT-4o): 200-600€/mes
- Vector DB (pgvector self-hosted o Pinecone básico): 0-200€/mes
- Cohere Rerank: 50-200€/mes
- Infraestructura (API, workers, observabilidad): 100-300€/mes
- Total operativo: 350-1.300€/mes para 100k consultas
Coste de desarrollo inicial: 25.000-60.000€ para un sistema RAG enterprise completo con evaluación, observabilidad y compliance.
Próximos pasos
Si estás valorando construir un RAG enterprise sobre tu documentación corporativa, en CyberVaultLabs implementamos pipelines RAG completos con evaluación rigurosa y observabilidad LLM. Más detalle en nuestra página de inteligencia artificial aplicada a empresas. También puedes ver el artículo relacionado sobre auditoría técnica de software si tu sistema actual necesita refactor antes de añadir IA.
¿Quieres aplicar esto a tu caso?
Evaluación técnica gratuita. Respuesta en menos de 24h.
Sigue leyendo
Cuánto cuesta desarrollar un SaaS B2B en 2026: rangos reales y desglose
Desglose real de cuánto cuesta desarrollar un SaaS B2B en 2026: MVP, versión enterprise y mantenimiento mensual. Sin promesas vacías ni cifras infladas.
Auditoría técnica de software: qué incluye y qué entregables esperar
Qué entregables debe darte una auditoría técnica de software seria: ADR, mapa de deuda técnica, score de riesgo y plan de acción priorizado.