Durante los últimos 6 artículos compartí cómo construí cada pieza de un motor RAG de producción: búsqueda híbrida, cross-encoder reranking, streaming SSE, multi-tenancy, cache semántico y detección de idioma. Hoy presento el producto terminado: Citai (cite + AI) — un motor de conocimiento con citación verificable que cualquiera puede probar gratis en citai.ai.
La serie completa
Si llegás a este artículo primero, acá está todo lo que construí y documenté:
- Pipeline RAG — búsqueda híbrida (pgvector + BM25), cross-encoder reranking, MMR diversity
- Deploy en producción — Docker multi-stage, Nginx, DigitalOcean, zero-downtime deploys
- Multi-tenancy — planes, cuotas atómicas, rate limiting con Redis, aislamiento de datos
- Streaming SSE — desde el LLM hasta el navegador pasando por Nginx, protocolo custom de 10 eventos
- Cache semántico + FAQ — 3 capas de ahorro que reducen ~40% el costo de LLM
- Detección de idioma — heurística ES/EN/PT sin APIs externas, reglas de contenido
Cada artículo tiene código real del proyecto. Nada inventado para el tutorial.
Qué es Citai
Citai = cite + AI. Un motor de conocimiento donde cada respuesta cita la fuente exacta (página, documento, párrafo).
La idea nació de una frustración: los chatbots corporativos que dicen "según nuestros documentos..." pero nunca te muestran dónde. No podés verificar nada. No podés confiar.
Citai resuelve eso: subís tus documentos (PDF, DOCX, TXT, o URLs), el sistema los procesa, y cuando alguien pregunta, la respuesta viene con la referencia exacta. Si dice "ver página 15 del manual", podés ir a la página 15 y verificar.
Para quién es
- Empresas con documentación interna: manuales, políticas, procedimientos que nadie lee
- Equipos de soporte: base de conocimiento que responde antes que el humano
- Educación: material de estudio con respuestas verificables
- Salud y legal: donde citar la fuente no es opcional, es obligatorio
Cualquier caso donde la respuesta sin fuente no alcanza.
Lo que incluye (y que ya mostré cómo funciona)
Búsqueda híbrida de 3 etapas
Lo que describí en el artículo #1 es exactamente lo que corre en producción:
Query → Vector (pgvector) + BM25 (tsvector)
→ RRF merge (70/30)
→ Cross-encoder rerank
→ MMR diversity (λ=0.6)
→ Top 5-10 fuentes con citación exacta
No es "cosine similarity y listo". Es un pipeline completo con reranking que mejora la relevancia un 25-40% sobre búsqueda vectorial pura.
Confianza calibrada
Cada respuesta tiene un score de confianza (0-100%) basado en los scores del cross-encoder. Si la confianza es baja, el sistema lo dice. No inventa.
"No encontré información suficiente en la documentación disponible
para responder con certeza."
Eso es más valioso que una respuesta inventada con tono seguro.
Widget embebible
Una línea de código:
<script
src="https://citai.ai/widget.js"
data-api-key="sk-..."
data-base-url="https://citai.ai"
></script>
Shadow DOM (no contamina tus estilos), streaming SSE en tiempo real, formularios pre-chat, horario de atención, escalación a humanos, respuestas rápidas, y 4 templates por industria. Todo lo que describí en el artículo #4 sobre SSE es lo que corre en el widget.
RAG configurable sin código
Cada base de conocimiento tiene su propia configuración:
| Parámetro | Default | Qué controla |
|---|---|---|
candidate_k |
30 | Candidatos iniciales por búsqueda |
rerank_top_n |
15 | Documentos después del reranker |
top_k |
10 | Fuentes finales (post-MMR) |
lambda_param |
0.6 | Balance relevancia vs diversidad |
bm25_weight |
0.3 | Peso de BM25 en la fusión |
faq_threshold |
0.85 | Umbral de match para FAQs |
temperature |
0.3 | Creatividad del LLM |
chunk_size |
1024 | Tamaño de fragmentos |
Un admin puede ajustar todo esto desde la UI, sin tocar código. Y el Playground permite testear cambios antes de aplicarlos.
Cache semántico + FAQ matching
Lo del artículo #5 en acción:
- FAQ match → respuesta curada en ~15ms, costo $0
- Cache hit (similitud ≥ 0.95) → respuesta cacheada en ~20ms, costo $0
- Cache miss → pipeline completo en ~2-4s
En producción, entre FAQ y cache se evita el 30-45% de las llamadas al LLM. Eso es plata real ahorrada.
Multilingüe sin APIs externas
Detección automática de ES/EN/PT por heurística (artículo #6). El usuario pregunta en su idioma, Citai responde en ese idioma. Sin latencia extra, sin costo extra.
Los embeddings son multilingües (paraphrase-multilingual-MiniLM-L12-v2), así que podés tener documentos en español y preguntar en inglés — funciona.
Analytics completo
- Tasa de resolución (resueltas / escaladas / negativas)
- Top 10 preguntas frecuentes
- Lagunas de conocimiento (preguntas sin respuesta)
- Distribución por tags (auto-tagging con LLM)
- Costos por proveedor y ahorro por FAQ/cache
- Health Score por base de conocimiento (0-100)
- Exportación CSV/JSON
Smart Routing
Si tenés múltiples bases de conocimiento, Citai rutea automáticamente la pregunta a la KB más relevante usando centroides de embeddings. Sin configuración manual.
Reglas de contenido
BLOCK, REDIRECT y FILTER — para controlar qué preguntas se procesan y qué temas se bloquean. Evaluadas antes del LLM, sin costo.
Tool Calling
Conectá APIs externas (clima, calendario, CRM, lo que sea) y el agente las invoca automáticamente cuando la pregunta lo requiere. Templates incluidos para los casos más comunes.
El stack (para los que leyeron toda la serie)
┌─────────────────────────────────────────┐
│ Frontend (Vue 3 + TS) │
│ Tailwind · vue-i18n · Chart.js │
├─────────────────────────────────────────┤
│ Nginx (TLS + HTTP/2) │
│ Proxy SSE · Gzip · Maintenance mode │
├─────────────────────────────────────────┤
│ Backend (FastAPI async) │
│ SQLAlchemy · Alembic · JWT · SSE │
├────────────┬────────────┬───────────────┤
│ PostgreSQL │ Redis │ Groq │
│ pgvector │ Rate limit │ LLaMA 3.3 │
│ BM25 │ Concurrent │ 70B versatile│
└────────────┴────────────┴───────────────┘
- LLM: Groq como primario (rápido y barato), con fallback a GPT-4o-mini
-
Embeddings:
paraphrase-multilingual-MiniLM-L12-v2(384 dimensiones, corre local) -
Reranker:
cross-encoder/ms-marco-MiniLM-L-6-v2(también local) - DB: PostgreSQL 16 + pgvector (HNSW) + tsvector (BM25)
- Infra: Docker Compose en un VPS de 4GB ($24/mes)
Sí, todo esto corre en un droplet de 4GB. El artículo #2 explica cómo.
Planes
| Free | Starter | Pro | Enterprise | |
|---|---|---|---|---|
| Precio | $0 | $29/mes | $79/mes | Custom |
| Consultas IA/mes | 50 | 500 | 5,000 | Ilimitadas |
| Usuarios | 2 | 5 | 15 | Ilimitados |
| Bases de conocimiento | 1 | 5 | 20 | Ilimitadas |
| Documentos | 10 | 50 | 200 | Ilimitados |
| Almacenamiento | 100 MB | 500 MB | 5 GB | 50 GB+ |
| API keys | — | 2 | 10 | Ilimitadas |
| Widget | — | Sí | Sí | White-label |
| FAQs | Ilimitadas | Ilimitadas | Ilimitadas | Ilimitadas |
Las FAQs son ilimitadas en todos los planes. Si una pregunta matchea una FAQ curada, se responde gratis sin consumir consultas IA. Eso no es un truco — es el diseño del artículo #5 en acción.
El plan Free no pide tarjeta de crédito. Registrate, subí un PDF, y preguntale algo.
Lo que aprendí construyendo esto
1. El reranker es lo que más mejora la calidad
Puedo cambiar el LLM, los embeddings, el tamaño de chunks — nada mejora tanto la relevancia como agregar un cross-encoder después de la búsqueda. Es el upgrade más barato en relación costo/beneficio.
2. Las FAQs son aburridas pero poderosas
Una tabla con preguntas y respuestas no es sexy. Pero cada FAQ es una respuesta perfecta, en 15ms, a costo cero, para siempre. En un sistema SaaS multi-tenant, eso escala mejor que cualquier LLM.
3. El cache semántico necesita umbral alto
0.95 de similitud mínima. A 0.90 tuve cache hits incorrectos. Mejor un miss que una respuesta equivocada.
4. Multi-tenancy no es "agregar un tenant_id"
Es plan enforcement con contadores atómicos, rate limiting, aislamiento de datos en cada query, y un sistema de roles que funcione. Lleva más código que el pipeline RAG mismo.
5. SSE streaming a través de Nginx tiene trampas
proxy_buffering off y proxy_cache off son obvios. Pero X-Accel-Buffering: no en el header de respuesta fue lo que realmente lo resolvió. Artículo #4 tiene los detalles.
6. Un VPS de 4GB alcanza para más de lo que pensás
Con 1 worker de Uvicorn (el embedding model usa ~500MB), PostgreSQL tuneado y Redis con 64MB, el sistema sirve tráfico real sin problemas. No necesitás Kubernetes para lanzar.
7. La confianza calibrada cambia la percepción del usuario
Cuando el sistema dice "no estoy seguro" en vez de inventar, el usuario confía más en las respuestas donde sí está seguro. Contra-intuitivo pero medible.
Probalo
- Registrate gratis (sin tarjeta)
- Subí un PDF o documento
- Preguntale algo
- Verificá la fuente
Si leíste alguno de los 6 artículos anteriores, todo lo que describí es lo que vas a encontrar adentro. No es un prototipo — es producción.
Qué sigue
Estoy trabajando en:
- Importación automática de URLs con sync periódico
- Templates por industria más completos
- SDK para integración programática
- Más proveedores LLM (Mistral, Ollama local)
Si te interesa alguna de estas features, dejá un comentario o contactame. Si encontrás un bug, también — es software real, no una demo.
Gracias
A todos los que leyeron, comentaron y reaccionaron a los artículos anteriores. Esta serie empezó como documentación personal y se convirtió en algo que vale la pena compartir.
Si Citai te parece útil — o si simplemente te interesa el stack — un like ayuda a que llegue a más gente.
Esta es la última entrega de la serie "RAG en Producción". Los 6 artículos anteriores están en mi perfil. Preguntas, feedback o ideas → comentarios abiertos.