Presentando Citai: el motor RAG que construí en 6 artículos — y que ahora podés probar gratis

Durante los últimos 6 artículos compartí cómo construí cada pieza de un motor RAG de producción: búsqueda híbrida, cross-encoder reranking, streaming SSE, multi-tenancy, cache semántico y detección de idioma. Hoy presento el producto terminado: Citai (cite + AI) — un motor de conocimiento con citación verificable que cualquiera puede probar gratis en citai.ai.

La serie completa

Si llegás a este artículo primero, acá está todo lo que construí y documenté:

Pipeline RAG — búsqueda híbrida (pgvector + BM25), cross-encoder reranking, MMR diversity
Deploy en producción — Docker multi-stage, Nginx, DigitalOcean, zero-downtime deploys
Multi-tenancy — planes, cuotas atómicas, rate limiting con Redis, aislamiento de datos
Streaming SSE — desde el LLM hasta el navegador pasando por Nginx, protocolo custom de 10 eventos
Cache semántico + FAQ — 3 capas de ahorro que reducen ~40% el costo de LLM
Detección de idioma — heurística ES/EN/PT sin APIs externas, reglas de contenido

Cada artículo tiene código real del proyecto. Nada inventado para el tutorial.

Qué es Citai

Citai = cite + AI. Un motor de conocimiento donde cada respuesta cita la fuente exacta (página, documento, párrafo).

La idea nació de una frustración: los chatbots corporativos que dicen "según nuestros documentos..." pero nunca te muestran dónde. No podés verificar nada. No podés confiar.

Citai resuelve eso: subís tus documentos (PDF, DOCX, TXT, o URLs), el sistema los procesa, y cuando alguien pregunta, la respuesta viene con la referencia exacta. Si dice "ver página 15 del manual", podés ir a la página 15 y verificar.

Para quién es

Empresas con documentación interna: manuales, políticas, procedimientos que nadie lee
Equipos de soporte: base de conocimiento que responde antes que el humano
Educación: material de estudio con respuestas verificables
Salud y legal: donde citar la fuente no es opcional, es obligatorio

Cualquier caso donde la respuesta sin fuente no alcanza.

Lo que incluye (y que ya mostré cómo funciona)

Búsqueda híbrida de 3 etapas

Lo que describí en el artículo #1 es exactamente lo que corre en producción:

Query → Vector (pgvector) + BM25 (tsvector)
     → RRF merge (70/30)
     → Cross-encoder rerank
     → MMR diversity (λ=0.6)
     → Top 5-10 fuentes con citación exacta

No es "cosine similarity y listo". Es un pipeline completo con reranking que mejora la relevancia un 25-40% sobre búsqueda vectorial pura.

Confianza calibrada

Cada respuesta tiene un score de confianza (0-100%) basado en los scores del cross-encoder. Si la confianza es baja, el sistema lo dice. No inventa.

"No encontré información suficiente en la documentación disponible
para responder con certeza."

Eso es más valioso que una respuesta inventada con tono seguro.

Widget embebible

Una línea de código:

<script
  src="https://citai.ai/widget.js"
  data-api-key="sk-..."
  data-base-url="https://citai.ai"
></script>

Shadow DOM (no contamina tus estilos), streaming SSE en tiempo real, formularios pre-chat, horario de atención, escalación a humanos, respuestas rápidas, y 4 templates por industria. Todo lo que describí en el artículo #4 sobre SSE es lo que corre en el widget.

RAG configurable sin código

Cada base de conocimiento tiene su propia configuración:

Parámetro	Default	Qué controla
`candidate_k`	30	Candidatos iniciales por búsqueda
`rerank_top_n`	15	Documentos después del reranker
`top_k`	10	Fuentes finales (post-MMR)
`lambda_param`	0.6	Balance relevancia vs diversidad
`bm25_weight`	0.3	Peso de BM25 en la fusión
`faq_threshold`	0.85	Umbral de match para FAQs
`temperature`	0.3	Creatividad del LLM
`chunk_size`	1024	Tamaño de fragmentos

Un admin puede ajustar todo esto desde la UI, sin tocar código. Y el Playground permite testear cambios antes de aplicarlos.

Cache semántico + FAQ matching

Lo del artículo #5 en acción:

FAQ match → respuesta curada en ~15ms, costo $0
Cache hit (similitud ≥ 0.95) → respuesta cacheada en ~20ms, costo $0
Cache miss → pipeline completo en ~2-4s

En producción, entre FAQ y cache se evita el 30-45% de las llamadas al LLM. Eso es plata real ahorrada.

Multilingüe sin APIs externas

Detección automática de ES/EN/PT por heurística (artículo #6). El usuario pregunta en su idioma, Citai responde en ese idioma. Sin latencia extra, sin costo extra.

Los embeddings son multilingües (paraphrase-multilingual-MiniLM-L12-v2), así que podés tener documentos en español y preguntar en inglés — funciona.

Analytics completo

Tasa de resolución (resueltas / escaladas / negativas)
Top 10 preguntas frecuentes
Lagunas de conocimiento (preguntas sin respuesta)
Distribución por tags (auto-tagging con LLM)
Costos por proveedor y ahorro por FAQ/cache
Health Score por base de conocimiento (0-100)
Exportación CSV/JSON

Smart Routing

Si tenés múltiples bases de conocimiento, Citai rutea automáticamente la pregunta a la KB más relevante usando centroides de embeddings. Sin configuración manual.

Reglas de contenido

BLOCK, REDIRECT y FILTER — para controlar qué preguntas se procesan y qué temas se bloquean. Evaluadas antes del LLM, sin costo.

Tool Calling

Conectá APIs externas (clima, calendario, CRM, lo que sea) y el agente las invoca automáticamente cuando la pregunta lo requiere. Templates incluidos para los casos más comunes.

El stack (para los que leyeron toda la serie)

┌─────────────────────────────────────────┐
│            Frontend (Vue 3 + TS)        │
│    Tailwind · vue-i18n · Chart.js       │
├─────────────────────────────────────────┤
│              Nginx (TLS + HTTP/2)       │
│    Proxy SSE · Gzip · Maintenance mode  │
├─────────────────────────────────────────┤
│          Backend (FastAPI async)         │
│   SQLAlchemy · Alembic · JWT · SSE      │
├────────────┬────────────┬───────────────┤
│ PostgreSQL │   Redis    │    Groq       │
│  pgvector  │ Rate limit │  LLaMA 3.3   │
│   BM25     │ Concurrent │  70B versatile│
└────────────┴────────────┴───────────────┘

LLM: Groq como primario (rápido y barato), con fallback a GPT-4o-mini
Embeddings: paraphrase-multilingual-MiniLM-L12-v2 (384 dimensiones, corre local)
Reranker: cross-encoder/ms-marco-MiniLM-L-6-v2 (también local)
DB: PostgreSQL 16 + pgvector (HNSW) + tsvector (BM25)
Infra: Docker Compose en un VPS de 4GB ($24/mes)

Sí, todo esto corre en un droplet de 4GB. El artículo #2 explica cómo.

Planes

Free	Starter	Pro	Enterprise
Precio	$0	$29/mes	$79/mes	Custom
Consultas IA/mes	50	500	5,000	Ilimitadas
Usuarios	2	5	15	Ilimitados
Bases de conocimiento	1	5	20	Ilimitadas
Documentos	10	50	200	Ilimitados
Almacenamiento	100 MB	500 MB	5 GB	50 GB+
API keys	—	2	10	Ilimitadas
Widget	—	Sí	Sí	White-label
FAQs	Ilimitadas	Ilimitadas	Ilimitadas	Ilimitadas

Las FAQs son ilimitadas en todos los planes. Si una pregunta matchea una FAQ curada, se responde gratis sin consumir consultas IA. Eso no es un truco — es el diseño del artículo #5 en acción.

El plan Free no pide tarjeta de crédito. Registrate, subí un PDF, y preguntale algo.

Lo que aprendí construyendo esto

1. El reranker es lo que más mejora la calidad

Puedo cambiar el LLM, los embeddings, el tamaño de chunks — nada mejora tanto la relevancia como agregar un cross-encoder después de la búsqueda. Es el upgrade más barato en relación costo/beneficio.

2. Las FAQs son aburridas pero poderosas

Una tabla con preguntas y respuestas no es sexy. Pero cada FAQ es una respuesta perfecta, en 15ms, a costo cero, para siempre. En un sistema SaaS multi-tenant, eso escala mejor que cualquier LLM.

3. El cache semántico necesita umbral alto

0.95 de similitud mínima. A 0.90 tuve cache hits incorrectos. Mejor un miss que una respuesta equivocada.

4. Multi-tenancy no es "agregar un tenant_id"

Es plan enforcement con contadores atómicos, rate limiting, aislamiento de datos en cada query, y un sistema de roles que funcione. Lleva más código que el pipeline RAG mismo.

5. SSE streaming a través de Nginx tiene trampas

proxy_buffering off y proxy_cache off son obvios. Pero X-Accel-Buffering: no en el header de respuesta fue lo que realmente lo resolvió. Artículo #4 tiene los detalles.

6. Un VPS de 4GB alcanza para más de lo que pensás

Con 1 worker de Uvicorn (el embedding model usa ~500MB), PostgreSQL tuneado y Redis con 64MB, el sistema sirve tráfico real sin problemas. No necesitás Kubernetes para lanzar.

7. La confianza calibrada cambia la percepción del usuario

Cuando el sistema dice "no estoy seguro" en vez de inventar, el usuario confía más en las respuestas donde sí está seguro. Contra-intuitivo pero medible.

Probalo

citai.ai

Registrate gratis (sin tarjeta)
Subí un PDF o documento
Preguntale algo
Verificá la fuente

Si leíste alguno de los 6 artículos anteriores, todo lo que describí es lo que vas a encontrar adentro. No es un prototipo — es producción.

Qué sigue

Estoy trabajando en:

Importación automática de URLs con sync periódico
Templates por industria más completos
SDK para integración programática
Más proveedores LLM (Mistral, Ollama local)

Si te interesa alguna de estas features, dejá un comentario o contactame. Si encontrás un bug, también — es software real, no una demo.

Gracias

A todos los que leyeron, comentaron y reaccionaron a los artículos anteriores. Esta serie empezó como documentación personal y se convirtió en algo que vale la pena compartir.

Si Citai te parece útil — o si simplemente te interesa el stack — un like ayuda a que llegue a más gente.

Esta es la última entrega de la serie "RAG en Producción". Los 6 artículos anteriores están en mi perfil. Preguntas, feedback o ideas → comentarios abiertos.