Playbook

Evals y guardrails

Mide calidad y detén regresiones.

Si no se evalúa, no es producción. Las evals convierten comportamiento del modelo en algo controlable.

Test sets

  • Sembrar con queries reales
  • Cubrir edge cases e intents de riesgo
  • Versionar datasets junto al código

Métricas

  • Precisión/recall de recuperación
  • Groundedness y cobertura de citas
  • Presupuestos de latencia y costo

Puertas de regresión

  • Bloquear deploys cuando baja la calidad
  • Tracking de deltas por cambio de prompt o modelo
  • Reportes con contexto accionable

Casos red‑team

  • Intentos de prompt injection
  • Fuentes ambiguas o en conflicto
  • Queries adversariales con datos ausentes

Lista de verificación

  • Harness de evals en CI
  • Scorecards por release
  • Taxonomía de fallos + owner