Playbook
Evals y guardrails
Mide calidad y detén regresiones.
Si no se evalúa, no es producción. Las evals convierten comportamiento del modelo en algo controlable.
Test sets
- Sembrar con queries reales
- Cubrir edge cases e intents de riesgo
- Versionar datasets junto al código
Métricas
- Precisión/recall de recuperación
- Groundedness y cobertura de citas
- Presupuestos de latencia y costo
Puertas de regresión
- Bloquear deploys cuando baja la calidad
- Tracking de deltas por cambio de prompt o modelo
- Reportes con contexto accionable
Casos red‑team
- Intentos de prompt injection
- Fuentes ambiguas o en conflicto
- Queries adversariales con datos ausentes
Lista de verificación
- Harness de evals en CI
- Scorecards por release
- Taxonomía de fallos + owner