Presentando Citai: el motor RAG que construí en 6 artículos — y que ahora podés probar gratis

dev.to

Durante los últimos 6 artículos compartí cómo construí cada pieza de un motor RAG de producción: búsqueda híbrida, cross-encoder reranking, streaming SSE, multi-tenancy, cache semántico y detección de idioma. Hoy presento el producto terminado: Citai (cite + AI) — un motor de conocimiento con citación verificable que cualquiera puede probar gratis en citai.ai.


La serie completa

Si llegás a este artículo primero, acá está todo lo que construí y documenté:

  1. Pipeline RAG — búsqueda híbrida (pgvector + BM25), cross-encoder reranking, MMR diversity
  2. Deploy en producción — Docker multi-stage, Nginx, DigitalOcean, zero-downtime deploys
  3. Multi-tenancy — planes, cuotas atómicas, rate limiting con Redis, aislamiento de datos
  4. Streaming SSE — desde el LLM hasta el navegador pasando por Nginx, protocolo custom de 10 eventos
  5. Cache semántico + FAQ — 3 capas de ahorro que reducen ~40% el costo de LLM
  6. Detección de idioma — heurística ES/EN/PT sin APIs externas, reglas de contenido

Cada artículo tiene código real del proyecto. Nada inventado para el tutorial.


Qué es Citai

Citai = cite + AI. Un motor de conocimiento donde cada respuesta cita la fuente exacta (página, documento, párrafo).

La idea nació de una frustración: los chatbots corporativos que dicen "según nuestros documentos..." pero nunca te muestran dónde. No podés verificar nada. No podés confiar.

Citai resuelve eso: subís tus documentos (PDF, DOCX, TXT, o URLs), el sistema los procesa, y cuando alguien pregunta, la respuesta viene con la referencia exacta. Si dice "ver página 15 del manual", podés ir a la página 15 y verificar.


Para quién es

  • Empresas con documentación interna: manuales, políticas, procedimientos que nadie lee
  • Equipos de soporte: base de conocimiento que responde antes que el humano
  • Educación: material de estudio con respuestas verificables
  • Salud y legal: donde citar la fuente no es opcional, es obligatorio

Cualquier caso donde la respuesta sin fuente no alcanza.


Lo que incluye (y que ya mostré cómo funciona)

Búsqueda híbrida de 3 etapas

Lo que describí en el artículo #1 es exactamente lo que corre en producción:

Query → Vector (pgvector) + BM25 (tsvector)
     → RRF merge (70/30)
     → Cross-encoder rerank
     → MMR diversity (λ=0.6)
     → Top 5-10 fuentes con citación exacta
Enter fullscreen mode Exit fullscreen mode

No es "cosine similarity y listo". Es un pipeline completo con reranking que mejora la relevancia un 25-40% sobre búsqueda vectorial pura.

Confianza calibrada

Cada respuesta tiene un score de confianza (0-100%) basado en los scores del cross-encoder. Si la confianza es baja, el sistema lo dice. No inventa.

"No encontré información suficiente en la documentación disponible
para responder con certeza."
Enter fullscreen mode Exit fullscreen mode

Eso es más valioso que una respuesta inventada con tono seguro.

Widget embebible

Una línea de código:

<script
  src="https://citai.ai/widget.js"
  data-api-key="sk-..."
  data-base-url="https://citai.ai"
></script>
Enter fullscreen mode Exit fullscreen mode

Shadow DOM (no contamina tus estilos), streaming SSE en tiempo real, formularios pre-chat, horario de atención, escalación a humanos, respuestas rápidas, y 4 templates por industria. Todo lo que describí en el artículo #4 sobre SSE es lo que corre en el widget.

RAG configurable sin código

Cada base de conocimiento tiene su propia configuración:

Parámetro Default Qué controla
candidate_k 30 Candidatos iniciales por búsqueda
rerank_top_n 15 Documentos después del reranker
top_k 10 Fuentes finales (post-MMR)
lambda_param 0.6 Balance relevancia vs diversidad
bm25_weight 0.3 Peso de BM25 en la fusión
faq_threshold 0.85 Umbral de match para FAQs
temperature 0.3 Creatividad del LLM
chunk_size 1024 Tamaño de fragmentos

Un admin puede ajustar todo esto desde la UI, sin tocar código. Y el Playground permite testear cambios antes de aplicarlos.

Cache semántico + FAQ matching

Lo del artículo #5 en acción:

  • FAQ match → respuesta curada en ~15ms, costo $0
  • Cache hit (similitud ≥ 0.95) → respuesta cacheada en ~20ms, costo $0
  • Cache miss → pipeline completo en ~2-4s

En producción, entre FAQ y cache se evita el 30-45% de las llamadas al LLM. Eso es plata real ahorrada.

Multilingüe sin APIs externas

Detección automática de ES/EN/PT por heurística (artículo #6). El usuario pregunta en su idioma, Citai responde en ese idioma. Sin latencia extra, sin costo extra.

Los embeddings son multilingües (paraphrase-multilingual-MiniLM-L12-v2), así que podés tener documentos en español y preguntar en inglés — funciona.

Analytics completo

  • Tasa de resolución (resueltas / escaladas / negativas)
  • Top 10 preguntas frecuentes
  • Lagunas de conocimiento (preguntas sin respuesta)
  • Distribución por tags (auto-tagging con LLM)
  • Costos por proveedor y ahorro por FAQ/cache
  • Health Score por base de conocimiento (0-100)
  • Exportación CSV/JSON

Smart Routing

Si tenés múltiples bases de conocimiento, Citai rutea automáticamente la pregunta a la KB más relevante usando centroides de embeddings. Sin configuración manual.

Reglas de contenido

BLOCK, REDIRECT y FILTER — para controlar qué preguntas se procesan y qué temas se bloquean. Evaluadas antes del LLM, sin costo.

Tool Calling

Conectá APIs externas (clima, calendario, CRM, lo que sea) y el agente las invoca automáticamente cuando la pregunta lo requiere. Templates incluidos para los casos más comunes.


El stack (para los que leyeron toda la serie)

┌─────────────────────────────────────────┐
│            Frontend (Vue 3 + TS)        │
│    Tailwind · vue-i18n · Chart.js       │
├─────────────────────────────────────────┤
│              Nginx (TLS + HTTP/2)       │
│    Proxy SSE · Gzip · Maintenance mode  │
├─────────────────────────────────────────┤
│          Backend (FastAPI async)         │
│   SQLAlchemy · Alembic · JWT · SSE      │
├────────────┬────────────┬───────────────┤
│ PostgreSQL │   Redis    │    Groq       │
│  pgvector  │ Rate limit │  LLaMA 3.3   │
│   BM25     │ Concurrent │  70B versatile│
└────────────┴────────────┴───────────────┘
Enter fullscreen mode Exit fullscreen mode
  • LLM: Groq como primario (rápido y barato), con fallback a GPT-4o-mini
  • Embeddings: paraphrase-multilingual-MiniLM-L12-v2 (384 dimensiones, corre local)
  • Reranker: cross-encoder/ms-marco-MiniLM-L-6-v2 (también local)
  • DB: PostgreSQL 16 + pgvector (HNSW) + tsvector (BM25)
  • Infra: Docker Compose en un VPS de 4GB ($24/mes)

Sí, todo esto corre en un droplet de 4GB. El artículo #2 explica cómo.


Planes

Free Starter Pro Enterprise
Precio $0 $29/mes $79/mes Custom
Consultas IA/mes 50 500 5,000 Ilimitadas
Usuarios 2 5 15 Ilimitados
Bases de conocimiento 1 5 20 Ilimitadas
Documentos 10 50 200 Ilimitados
Almacenamiento 100 MB 500 MB 5 GB 50 GB+
API keys 2 10 Ilimitadas
Widget White-label
FAQs Ilimitadas Ilimitadas Ilimitadas Ilimitadas

Las FAQs son ilimitadas en todos los planes. Si una pregunta matchea una FAQ curada, se responde gratis sin consumir consultas IA. Eso no es un truco — es el diseño del artículo #5 en acción.

El plan Free no pide tarjeta de crédito. Registrate, subí un PDF, y preguntale algo.


Lo que aprendí construyendo esto

1. El reranker es lo que más mejora la calidad

Puedo cambiar el LLM, los embeddings, el tamaño de chunks — nada mejora tanto la relevancia como agregar un cross-encoder después de la búsqueda. Es el upgrade más barato en relación costo/beneficio.

2. Las FAQs son aburridas pero poderosas

Una tabla con preguntas y respuestas no es sexy. Pero cada FAQ es una respuesta perfecta, en 15ms, a costo cero, para siempre. En un sistema SaaS multi-tenant, eso escala mejor que cualquier LLM.

3. El cache semántico necesita umbral alto

0.95 de similitud mínima. A 0.90 tuve cache hits incorrectos. Mejor un miss que una respuesta equivocada.

4. Multi-tenancy no es "agregar un tenant_id"

Es plan enforcement con contadores atómicos, rate limiting, aislamiento de datos en cada query, y un sistema de roles que funcione. Lleva más código que el pipeline RAG mismo.

5. SSE streaming a través de Nginx tiene trampas

proxy_buffering off y proxy_cache off son obvios. Pero X-Accel-Buffering: no en el header de respuesta fue lo que realmente lo resolvió. Artículo #4 tiene los detalles.

6. Un VPS de 4GB alcanza para más de lo que pensás

Con 1 worker de Uvicorn (el embedding model usa ~500MB), PostgreSQL tuneado y Redis con 64MB, el sistema sirve tráfico real sin problemas. No necesitás Kubernetes para lanzar.

7. La confianza calibrada cambia la percepción del usuario

Cuando el sistema dice "no estoy seguro" en vez de inventar, el usuario confía más en las respuestas donde sí está seguro. Contra-intuitivo pero medible.


Probalo

citai.ai

  • Registrate gratis (sin tarjeta)
  • Subí un PDF o documento
  • Preguntale algo
  • Verificá la fuente

Si leíste alguno de los 6 artículos anteriores, todo lo que describí es lo que vas a encontrar adentro. No es un prototipo — es producción.


Qué sigue

Estoy trabajando en:

  • Importación automática de URLs con sync periódico
  • Templates por industria más completos
  • SDK para integración programática
  • Más proveedores LLM (Mistral, Ollama local)

Si te interesa alguna de estas features, dejá un comentario o contactame. Si encontrás un bug, también — es software real, no una demo.


Gracias

A todos los que leyeron, comentaron y reaccionaron a los artículos anteriores. Esta serie empezó como documentación personal y se convirtió en algo que vale la pena compartir.

Si Citai te parece útil — o si simplemente te interesa el stack — un like ayuda a que llegue a más gente.


Esta es la última entrega de la serie "RAG en Producción". Los 6 artículos anteriores están en mi perfil. Preguntas, feedback o ideas → comentarios abiertos.

Source: dev.to

arrow_back Back to News