IA14 min lectura

RAG enterprise: cómo construir un asistente IA con conocimiento corporativo

CV
Equipo CyberVaultLabs
IA

Qué es RAG y por qué importa

RAG (Retrieval-Augmented Generation) es un patrón arquitectónico donde un LLM (como GPT-4 o Claude) consulta una base de conocimiento externa antes de generar la respuesta. En lugar de depender solo de lo que el modelo "sabe" por su entrenamiento, le damos contexto fresco y específico de tu empresa.

RAG resuelve dos problemas críticos de los LLMs en empresa:

  1. Alucinaciones: el modelo no se inventa la respuesta cuando le das fuentes
  2. Conocimiento privado: el modelo no fue entrenado con tu documentación interna, pero ahora puede usarla

La alternativa al RAG es fine-tuning (re-entrenar el modelo con tus datos), que cuesta 10-100x más, requiere ≥1.000 ejemplos etiquetados y se vuelve obsoleto cada vez que cambia tu información. RAG es más barato, más mantenible y más auditable.

Arquitectura mínima viable de un RAG enterprise

Un sistema RAG en producción tiene 5 componentes fundamentales:

1. Pipeline de ingesta

Procesa los documentos de la empresa (PDFs, Word, Confluence, Notion, SharePoint, intranet, etc.) y los convierte en chunks indexables:

  • Extracción: texto plano respetando estructura jerárquica (títulos, secciones)
  • Chunking inteligente: dividir en bloques de 200-500 tokens con overlap del 10-20%, respetando límites semánticos (no cortar frases por la mitad)
  • Metadatos: cada chunk lleva fuente, fecha, autor, departamento, nivel de confidencialidad
  • Versionado: cuando un documento cambia, los chunks viejos se desindexan

2. Generación de embeddings

Cada chunk se convierte en un vector numérico que representa su significado semántico:

  • Modelo recomendado: text-embedding-3-large de OpenAI (1.536 dimensiones, excelente coste/calidad para español e inglés)
  • Alternativa open-source: bge-m3 de BAAI (multilingüe, self-hosted)
  • Caching agresivo: nunca re-generar embedding de chunk que no ha cambiado (hash del contenido como cache key)

3. Vector database

Almacena los embeddings y permite búsqueda por similitud (k-nearest neighbors):

  • pgvector (extensión PostgreSQL): si ya tienes Postgres, esta es la opción más simple. Hasta 10M de vectores funciona bien.
  • Pinecone: gestionado, escalable a 100M+ vectores. Caro a partir de 1M vectores activos.
  • Qdrant: open-source self-hosted, excelente performance, filtros avanzados por metadatos
  • Chroma: para prototipos rápidos. No recomendado para producción a escala.

4. Reranking

El paso que separa un RAG mediocre de uno excelente. Después de la búsqueda inicial (top-20 chunks), un reranker (modelo más pequeño y específico) reordena los resultados por relevancia real a la query:

  • Cohere Rerank: API gestionada, mejora 20-40% la precisión vs. embedding-only
  • BGE Reranker: open-source self-hosted, alternativa a Cohere

Sin reranking, el top-5 que envías al LLM tiene mucho ruido. Con reranking, los chunks elegidos son los realmente relevantes.

5. LLM con prompting estructurado

El modelo final recibe la query del usuario + los top-3 a top-5 chunks como contexto y genera la respuesta:

  • Modelo recomendado para producción: GPT-4o o Claude Sonnet 4.6 (excelente razonamiento, latencia <2s)
  • Prompting con citaciones obligatorias: el modelo debe citar el chunk fuente de cada afirmación
  • Fallback "no sé": si los chunks no contienen la respuesta, el modelo dice "no tengo información sobre eso" en lugar de inventar

Evaluación: la diferencia entre demo y producción

Un RAG demo "funciona" porque el desarrollador prueba 5-10 queries que él mismo se inventa. Un RAG producción se evalúa con disciplina:

Dataset de evaluación etiquetado

Antes de poner el sistema en producción, construye un dataset con 50-200 pares (query, respuesta esperada, chunks-fuente esperados). Las queries deben venir de usuarios reales (encuesta inicial, simulación basada en tickets de soporte previos), no inventadas por el equipo técnico.

Métricas a medir

  • Recall@k: ¿el chunk correcto está en los top-k recuperados? (objetivo: ≥0.85 en k=5)
  • MRR (Mean Reciprocal Rank): ¿en qué posición está el chunk correcto? (objetivo: ≥0.7)
  • Precisión de la respuesta: evaluación humana o con LLM-as-judge sobre si la respuesta generada es correcta (objetivo: ≥0.85)
  • Tasa de alucinación: respuestas que afirman algo no presente en los chunks (objetivo: ≤2%)
  • Latencia p95: tiempo total query→respuesta (objetivo: ≤3 segundos)
  • Coste por petición: embeddings + reranking + generation (objetivo: variable según caso, típicamente 0.001-0.02€/petición)

Frameworks de evaluación

  • Ragas: framework Python específico para evaluar RAG (faithfulness, answer relevance, context precision)
  • DeepEval: alternativa con más métricas y mejor integración con CI/CD
  • LangSmith: tracing + evaluación, ideal si ya usas LangChain

5 errores comunes que hunden proyectos RAG

  1. Chunking ingenuo: partir cada 1.000 caracteres sin respetar estructura → contexto roto, citaciones inservibles
  2. Sin reranking: el top-5 está lleno de chunks relevantes "por palabra clave" pero no por significado
  3. Sin caching de embeddings: re-generar embeddings en cada despliegue → coste 100x mayor de lo necesario
  4. Sin evaluación con dataset real: el sistema "funciona" en demo y falla con queries reales de usuarios
  5. Sin fallback a "no sé": el modelo alucina cuando no hay contexto suficiente → pérdida de confianza del usuario

Cuánto cuesta un RAG enterprise en producción

Para un sistema con 100k consultas/mes y caching semántico:

  • OpenAI API (embeddings + GPT-4o): 200-600€/mes
  • Vector DB (pgvector self-hosted o Pinecone básico): 0-200€/mes
  • Cohere Rerank: 50-200€/mes
  • Infraestructura (API, workers, observabilidad): 100-300€/mes
  • Total operativo: 350-1.300€/mes para 100k consultas

Coste de desarrollo inicial: 25.000-60.000€ para un sistema RAG enterprise completo con evaluación, observabilidad y compliance.

Próximos pasos

Si estás valorando construir un RAG enterprise sobre tu documentación corporativa, en CyberVaultLabs implementamos pipelines RAG completos con evaluación rigurosa y observabilidad LLM. Más detalle en nuestra página de inteligencia artificial aplicada a empresas. También puedes ver el artículo relacionado sobre auditoría técnica de software si tu sistema actual necesita refactor antes de añadir IA.

¿Quieres aplicar esto a tu caso?

Evaluación técnica gratuita. Respuesta en menos de 24h.

Hablar con el equipo →