La idea central es aprovechar distintos modelos de inteligencia artificial de manera balanceada, combinando costo, velocidad y calidad. Para ello, se define un sistema de tiers o niveles que permiten asignar cada consulta al modelo más adecuado según su complejidad.
En el Tier A se concentran los modelos rápidos y baratos. Aquí se resuelven tareas simples y repetitivas: saludos, confirmaciones, reformulación de frases o resúmenes cortos. La prioridad es la eficiencia, con un límite bajo de tokens y un estilo más determinista.
El Tier B corresponde al nivel intermedio. Se utiliza para consultas de dificultad media: recomendaciones de 2 a 3 destinos, pequeños itinerarios de viaje o consultas que requieren mezclar datos de la base propia con información pública. Es el espacio donde se logra un equilibrio entre costo y calidad, y será probablemente el nivel más usado en el día a día.
Finalmente, el Tier C agrupa a los modelos más avanzados y costosos, pensados para casos complejos: itinerarios largos con múltiples paradas, planificación de rutas interregionales, consultas con alta ambigüedad o integración de varias fuentes externas. Aquí la prioridad es la precisión y la capacidad de razonamiento profundo.
El sistema no solo se basa en la complejidad del mensaje, sino también en señales de ruteo: longitud y estructura del input, necesidad de razonamiento, importancia del contexto (ej. lead comercial), o integración de archivos/imágenes. Cada consulta se evalúa con estas heurísticas para decidir si queda en el nivel básico, intermedio o premium.
Para optimizar aún más los recursos, se establece un orden de prioridad en los proveedores de datos: primero la base de datos propia, luego fuentes oficiales agregadas, seguido de servicios abiertos con sus APIs como último recurso. Esto asegura consistencia, legitimidad y cobertura global.
El sistema también contempla fallbacks (reintentos en otro tier si hay error o timeout), uso de cache semántica (para no repetir cálculos innecesarios), y un esquema de observabilidad mínima: registro de modelo usado, tokens consumidos, costo estimado y fuente de datos. De esta forma, se pueden medir resultados y ajustar límites de manera dinámica.
En resumen, la estrategia combina simplicidad y eficiencia. Las consultas cotidianas se resuelven con modelos baratos, las importantes con modelos balanceados, y las críticas con los más potentes. Así se logra un sistema flexible, escalable y costo-eficiente, donde cada IA se utiliza solo cuando realmente aporta valor.
Estrategia de ruteo
1) Tiers de modelos
Tier A — “Rápido & barato”
-
Uso: saludos, confirmaciones, rephrasing, extracción de campos, validaciones simples, resúmenes cortos.
-
Modelos tipo: Llama-3.1 8B/11B Instruct, Qwen2.5-7B Instruct, Mistral-Nemo/Mixtral-lite.
-
Límite: ≤ 400 tokens de salida; context ≤ 8k.
Tier B — “Calidad balanceada”
-
Uso: recomendaciones normales (2–3 POI), pequeños itinerarios (1–2 días), matching con tus DB, respuestas con HTML.
-
Modelos tipo: Llama-3.1 70B / Mixtral 8x22B / Qwen2.5-72B / GPT-4o-mini / Claude Haiku 3.5.
-
Límite: ≤ 1.2k tokens; context 32k.
Tier C — “Premium/razonamiento”
-
Uso: itinerarios complejos (rutas largas multi-parada), ambigüedad alta, fusiones de fuentes, edge cases, visión/imagen si aplica.
-
Modelos tipo: GPT-4o / Claude 3.5 Sonnet / similares.
-
Límite: ≤ 2.5k tokens; context 128k.
Regla de oro: sube de tier solo si el caso lo exige.
2) Señales de ruteo (heurísticas)
-
Longitud/estructura del input:
-
Prompt Builder detectado + campos completos ⇒ Tier B.
-
Mensaje corto/operativo ⇒ Tier A.
-
Historia larga o múltiples destinos ⇒ Tier C.
-
-
Necesidad de razonamiento: combinación de fuentes, reconciliar datos faltantes, restricciones múltiples ⇒ subir tier.
-
Criticalidad: mensajes de cierre/venta y lead-capture ⇒ mínimo Tier B (para tono y precisión).
-
Idioma/tono: si el modelo barato patina en registro chileno ⇒ escalar a Tier B.
-
Vision/archivos: si hay imagen o tabla pesada ⇒ Tier C (solo cuando imprescindible).
3) Presupuestos y límites
-
Presupuesto diario por tier (ej.: 40% A / 45% B / 15% C).
-
Cap por request: costo estimado; si lo supera, degradar tier y avisar internamente (no al usuario).
-
Hard kill-switch por proveedor si hay errores > X% en 15 min.
4) Plantillas y parámetros (por tier)
-
Temperatura: A=0.2 (determinista), B=0.5 (natural), C=0.3 (precisión).
-
Max tokens salida: A 300–400, B 900–1200, C 1800–2500.
-
Formato: siempre HTML simple (respetar tu system prompt).
-
JSON estricto solo cuando se pidan estructuras (matching/log).
5) Fallbacks & reintentos
-
Timeout por tier (p.ej. A 6s, B 12s, C 18s).
-
Orden de fallback: B→A (si respuesta factible), C→B→A.
-
Si el contenido requiere HTML y el modelo B responde plano, reformatear en A (post-procesado barato).
-
Si hay “hallucination risk” (fuentes externas), subir a C con instrucción “no inventar; limitarse a datos disponibles”.
6) Cache semántica (ahorro duro)
-
Clave: (intención + origen + destino + intereses + duración + presupuesto).
-
TTL: 24–72 h (según estacionalidad).
-
Estrategia: si hay hit ≥ 0.9 de similitud, servir cache; si 0.8–0.9, refrescar en Tier A y re-formatear.
-
No cachear datos personales.
7) Observabilidad (lo mínimo imprescindible)
Log por request:
-
modelo usado, tokens in/out, costo estimado, latencia, tier, fuente de datos, “razón de ruteo” (heurística que aplicó) y si hubo fallback.
-
Métricas diarias: % por tier, costo/promedio, errores por proveedor, tasa de cache hit.
8) Matriz de ruteo (rápida)
-
Saludo/UX, confirmaciones, formatos ⇒ Tier A.
-
Prompt Builder con 1–2 intereses, 1 origen/destino, 1–3 recomendaciones ⇒ Tier B.
-
Tour interurbano con paradas sugeridas, restricciones múltiples, mezcla de fuentes ⇒ Tier C.
-
Lead-capture/ventas ⇒ Tier B (o C si el texto es largo y crítico).
-
Reformateo a HTML ⇒ Tier A (post-proceso).
9) Calidad y seguridad
-
System prompt único (tu v2.1) inyectado igual para todos los modelos.
-
Normalización de salidas: verificador de HTML simple (tags permitidas), sin contactos, sin links prohibidos.
-
Idioma: si el modelo responde no-ES, re-traducir en Tier A y aplicar tu tono.
10) Roadmap
-
Implementar router con tiers, heurísticas y límites arriba descritos.
-
Añadir cache semántica y post-procesador HTML.
-
Registrar telemetría mínima y dashboard simple.
-
Probar con 10 casos reales midiendo costo/latencia/calidad.
-
Ajustar umbrales (tokens/temps/timeout) y pesos por señales.