Detalles: Escrito por: Baronti; Categoría: Docs de Trabajo; Publicado: 13 Septiembre 2025; Creado: 13 Septiembre 2025; Última actualización: 13 Septiembre 2025; Visitas: 79

GoGuide

La idea central es aprovechar distintos modelos de inteligencia artificial de manera balanceada, combinando costo, velocidad y calidad. Para ello, se define un sistema de tiers o niveles que permiten asignar cada consulta al modelo más adecuado según su complejidad.

En el Tier A se concentran los modelos rápidos y baratos. Aquí se resuelven tareas simples y repetitivas: saludos, confirmaciones, reformulación de frases o resúmenes cortos. La prioridad es la eficiencia, con un límite bajo de tokens y un estilo más determinista.

El Tier B corresponde al nivel intermedio. Se utiliza para consultas de dificultad media: recomendaciones de 2 a 3 destinos, pequeños itinerarios de viaje o consultas que requieren mezclar datos de la base propia con información pública. Es el espacio donde se logra un equilibrio entre costo y calidad, y será probablemente el nivel más usado en el día a día.

Finalmente, el Tier C agrupa a los modelos más avanzados y costosos, pensados para casos complejos: itinerarios largos con múltiples paradas, planificación de rutas interregionales, consultas con alta ambigüedad o integración de varias fuentes externas. Aquí la prioridad es la precisión y la capacidad de razonamiento profundo.

El sistema no solo se basa en la complejidad del mensaje, sino también en señales de ruteo: longitud y estructura del input, necesidad de razonamiento, importancia del contexto (ej. lead comercial), o integración de archivos/imágenes. Cada consulta se evalúa con estas heurísticas para decidir si queda en el nivel básico, intermedio o premium.

Para optimizar aún más los recursos, se establece un orden de prioridad en los proveedores de datos: primero la base de datos propia, luego fuentes oficiales agregadas, seguido de servicios abiertos con sus APIs como último recurso. Esto asegura consistencia, legitimidad y cobertura global.

El sistema también contempla fallbacks (reintentos en otro tier si hay error o timeout), uso de cache semántica (para no repetir cálculos innecesarios), y un esquema de observabilidad mínima: registro de modelo usado, tokens consumidos, costo estimado y fuente de datos. De esta forma, se pueden medir resultados y ajustar límites de manera dinámica.

En resumen, la estrategia combina simplicidad y eficiencia. Las consultas cotidianas se resuelven con modelos baratos, las importantes con modelos balanceados, y las críticas con los más potentes. Así se logra un sistema flexible, escalable y costo-eficiente, donde cada IA se utiliza solo cuando realmente aporta valor.

Estrategia de ruteo

1) Tiers de modelos

Tier A — “Rápido & barato”

Uso: saludos, confirmaciones, rephrasing, extracción de campos, validaciones simples, resúmenes cortos.
Modelos tipo: Llama-3.1 8B/11B Instruct, Qwen2.5-7B Instruct, Mistral-Nemo/Mixtral-lite.
Límite: ≤ 400 tokens de salida; context ≤ 8k.

Tier B — “Calidad balanceada”

Uso: recomendaciones normales (2–3 POI), pequeños itinerarios (1–2 días), matching con tus DB, respuestas con HTML.
Modelos tipo: Llama-3.1 70B / Mixtral 8x22B / Qwen2.5-72B / GPT-4o-mini / Claude Haiku 3.5.
Límite: ≤ 1.2k tokens; context 32k.

Tier C — “Premium/razonamiento”

Uso: itinerarios complejos (rutas largas multi-parada), ambigüedad alta, fusiones de fuentes, edge cases, visión/imagen si aplica.
Modelos tipo: GPT-4o / Claude 3.5 Sonnet / similares.
Límite: ≤ 2.5k tokens; context 128k.

Regla de oro: sube de tier solo si el caso lo exige.

2) Señales de ruteo (heurísticas)

Longitud/estructura del input:
- Prompt Builder detectado + campos completos ⇒ Tier B.
- Mensaje corto/operativo ⇒ Tier A.
- Historia larga o múltiples destinos ⇒ Tier C.
Necesidad de razonamiento: combinación de fuentes, reconciliar datos faltantes, restricciones múltiples ⇒ subir tier.
Criticalidad: mensajes de cierre/venta y lead-capture ⇒ mínimo Tier B (para tono y precisión).
Idioma/tono: si el modelo barato patina en registro chileno ⇒ escalar a Tier B.
Vision/archivos: si hay imagen o tabla pesada ⇒ Tier C (solo cuando imprescindible).

3) Presupuestos y límites

Presupuesto diario por tier (ej.: 40% A / 45% B / 15% C).
Cap por request: costo estimado; si lo supera, degradar tier y avisar internamente (no al usuario).
Hard kill-switch por proveedor si hay errores > X% en 15 min.

4) Plantillas y parámetros (por tier)

Temperatura: A=0.2 (determinista), B=0.5 (natural), C=0.3 (precisión).
Max tokens salida: A 300–400, B 900–1200, C 1800–2500.
Formato: siempre HTML simple (respetar tu system prompt).
JSON estricto solo cuando se pidan estructuras (matching/log).

5) Fallbacks & reintentos

Timeout por tier (p.ej. A 6s, B 12s, C 18s).
Orden de fallback: B→A (si respuesta factible), C→B→A.
Si el contenido requiere HTML y el modelo B responde plano, reformatear en A (post-procesado barato).
Si hay “hallucination risk” (fuentes externas), subir a C con instrucción “no inventar; limitarse a datos disponibles”.

6) Cache semántica (ahorro duro)

Clave: (intención + origen + destino + intereses + duración + presupuesto).
TTL: 24–72 h (según estacionalidad).
Estrategia: si hay hit ≥ 0.9 de similitud, servir cache; si 0.8–0.9, refrescar en Tier A y re-formatear.
No cachear datos personales.

7) Observabilidad (lo mínimo imprescindible)

Log por request:

modelo usado, tokens in/out, costo estimado, latencia, tier, fuente de datos, “razón de ruteo” (heurística que aplicó) y si hubo fallback.
Métricas diarias: % por tier, costo/promedio, errores por proveedor, tasa de cache hit.

8) Matriz de ruteo (rápida)

Saludo/UX, confirmaciones, formatos ⇒ Tier A.
Prompt Builder con 1–2 intereses, 1 origen/destino, 1–3 recomendaciones ⇒ Tier B.
Tour interurbano con paradas sugeridas, restricciones múltiples, mezcla de fuentes ⇒ Tier C.
Lead-capture/ventas ⇒ Tier B (o C si el texto es largo y crítico).
Reformateo a HTML ⇒ Tier A (post-proceso).

9) Calidad y seguridad

System prompt único (tu v2.1) inyectado igual para todos los modelos.
Normalización de salidas: verificador de HTML simple (tags permitidas), sin contactos, sin links prohibidos.
Idioma: si el modelo responde no-ES, re-traducir en Tier A y aplicar tu tono.

10) Roadmap

Implementar router con tiers, heurísticas y límites arriba descritos.
Añadir cache semántica y post-procesador HTML.
Registrar telemetría mínima y dashboard simple.
Probar con 10 casos reales midiendo costo/latencia/calidad.
Ajustar umbrales (tokens/temps/timeout) y pesos por señales.

Estrategia de Ruteo Multi-IA