La idea central es aprovechar distintos modelos de inteligencia artificial de manera balanceada, combinando costo, velocidad y calidad. Para ello, se define un sistema de tiers o niveles que permiten asignar cada consulta al modelo más adecuado según su complejidad.

 

En el Tier A se concentran los modelos rápidos y baratos. Aquí se resuelven tareas simples y repetitivas: saludos, confirmaciones, reformulación de frases o resúmenes cortos. La prioridad es la eficiencia, con un límite bajo de tokens y un estilo más determinista.

El Tier B corresponde al nivel intermedio. Se utiliza para consultas de dificultad media: recomendaciones de 2 a 3 destinos, pequeños itinerarios de viaje o consultas que requieren mezclar datos de la base propia con información pública. Es el espacio donde se logra un equilibrio entre costo y calidad, y será probablemente el nivel más usado en el día a día.

Finalmente, el Tier C agrupa a los modelos más avanzados y costosos, pensados para casos complejos: itinerarios largos con múltiples paradas, planificación de rutas interregionales, consultas con alta ambigüedad o integración de varias fuentes externas. Aquí la prioridad es la precisión y la capacidad de razonamiento profundo.

El sistema no solo se basa en la complejidad del mensaje, sino también en señales de ruteo: longitud y estructura del input, necesidad de razonamiento, importancia del contexto (ej. lead comercial), o integración de archivos/imágenes. Cada consulta se evalúa con estas heurísticas para decidir si queda en el nivel básico, intermedio o premium.

Para optimizar aún más los recursos, se establece un orden de prioridad en los proveedores de datos: primero la base de datos propia, luego fuentes oficiales agregadas, seguido de servicios abiertos con sus APIs como último recurso. Esto asegura consistencia, legitimidad y cobertura global.

El sistema también contempla fallbacks (reintentos en otro tier si hay error o timeout), uso de cache semántica (para no repetir cálculos innecesarios), y un esquema de observabilidad mínima: registro de modelo usado, tokens consumidos, costo estimado y fuente de datos. De esta forma, se pueden medir resultados y ajustar límites de manera dinámica.

En resumen, la estrategia combina simplicidad y eficiencia. Las consultas cotidianas se resuelven con modelos baratos, las importantes con modelos balanceados, y las críticas con los más potentes. Así se logra un sistema flexible, escalable y costo-eficiente, donde cada IA se utiliza solo cuando realmente aporta valor.

 

Estrategia de ruteo

1) Tiers de modelos

Tier A — “Rápido & barato”

  • Uso: saludos, confirmaciones, rephrasing, extracción de campos, validaciones simples, resúmenes cortos.

  • Modelos tipo: Llama-3.1 8B/11B Instruct, Qwen2.5-7B Instruct, Mistral-Nemo/Mixtral-lite.

  • Límite: ≤ 400 tokens de salida; context ≤ 8k.

Tier B — “Calidad balanceada”

  • Uso: recomendaciones normales (2–3 POI), pequeños itinerarios (1–2 días), matching con tus DB, respuestas con HTML.

  • Modelos tipo: Llama-3.1 70B / Mixtral 8x22B / Qwen2.5-72B / GPT-4o-mini / Claude Haiku 3.5.

  • Límite: ≤ 1.2k tokens; context 32k.

Tier C — “Premium/razonamiento”

  • Uso: itinerarios complejos (rutas largas multi-parada), ambigüedad alta, fusiones de fuentes, edge cases, visión/imagen si aplica.

  • Modelos tipo: GPT-4o / Claude 3.5 Sonnet / similares.

  • Límite: ≤ 2.5k tokens; context 128k.

Regla de oro: sube de tier solo si el caso lo exige.

2) Señales de ruteo (heurísticas)

  • Longitud/estructura del input:

    • Prompt Builder detectado + campos completos ⇒ Tier B.

    • Mensaje corto/operativo ⇒ Tier A.

    • Historia larga o múltiples destinos ⇒ Tier C.

  • Necesidad de razonamiento: combinación de fuentes, reconciliar datos faltantes, restricciones múltiples ⇒ subir tier.

  • Criticalidad: mensajes de cierre/venta y lead-capture ⇒ mínimo Tier B (para tono y precisión).

  • Idioma/tono: si el modelo barato patina en registro chileno ⇒ escalar a Tier B.

  • Vision/archivos: si hay imagen o tabla pesada ⇒ Tier C (solo cuando imprescindible).

3) Presupuestos y límites

  • Presupuesto diario por tier (ej.: 40% A / 45% B / 15% C).

  • Cap por request: costo estimado; si lo supera, degradar tier y avisar internamente (no al usuario).

  • Hard kill-switch por proveedor si hay errores > X% en 15 min.

4) Plantillas y parámetros (por tier)

  • Temperatura: A=0.2 (determinista), B=0.5 (natural), C=0.3 (precisión).

  • Max tokens salida: A 300–400, B 900–1200, C 1800–2500.

  • Formato: siempre HTML simple (respetar tu system prompt).

  • JSON estricto solo cuando se pidan estructuras (matching/log).

5) Fallbacks & reintentos

  • Timeout por tier (p.ej. A 6s, B 12s, C 18s).

  • Orden de fallback: B→A (si respuesta factible), C→B→A.

  • Si el contenido requiere HTML y el modelo B responde plano, reformatear en A (post-procesado barato).

  • Si hay “hallucination risk” (fuentes externas), subir a C con instrucción “no inventar; limitarse a datos disponibles”.

6) Cache semántica (ahorro duro)

  • Clave: (intención + origen + destino + intereses + duración + presupuesto).

  • TTL: 24–72 h (según estacionalidad).

  • Estrategia: si hay hit ≥ 0.9 de similitud, servir cache; si 0.8–0.9, refrescar en Tier A y re-formatear.

  • No cachear datos personales.

7) Observabilidad (lo mínimo imprescindible)

Log por request:

  • modelo usado, tokens in/out, costo estimado, latencia, tier, fuente de datos, “razón de ruteo” (heurística que aplicó) y si hubo fallback.

  • Métricas diarias: % por tier, costo/promedio, errores por proveedor, tasa de cache hit.

8) Matriz de ruteo (rápida)

  • Saludo/UX, confirmaciones, formatos ⇒ Tier A.

  • Prompt Builder con 1–2 intereses, 1 origen/destino, 1–3 recomendaciones ⇒ Tier B.

  • Tour interurbano con paradas sugeridas, restricciones múltiples, mezcla de fuentes ⇒ Tier C.

  • Lead-capture/ventas ⇒ Tier B (o C si el texto es largo y crítico).

  • Reformateo a HTML ⇒ Tier A (post-proceso).

9) Calidad y seguridad

  • System prompt único (tu v2.1) inyectado igual para todos los modelos.

  • Normalización de salidas: verificador de HTML simple (tags permitidas), sin contactos, sin links prohibidos.

  • Idioma: si el modelo responde no-ES, re-traducir en Tier A y aplicar tu tono.

10) Roadmap

  1. Implementar router con tiers, heurísticas y límites arriba descritos.

  2. Añadir cache semántica y post-procesador HTML.

  3. Registrar telemetría mínima y dashboard simple.

  4. Probar con 10 casos reales midiendo costo/latencia/calidad.

  5. Ajustar umbrales (tokens/temps/timeout) y pesos por señales.