Evals y guardrails · Sciveflow

Agenda una llamada

Playbook

Evals y guardrails

Mide calidad y detén regresiones.

Si no se evalúa, no es producción. Las evals convierten comportamiento del modelo en algo controlable.

Test sets

Sembrar con queries reales
Cubrir edge cases e intents de riesgo
Versionar datasets junto al código

Métricas

Precisión/recall de recuperación
Groundedness y cobertura de citas
Presupuestos de latencia y costo

Puertas de regresión

Bloquear deploys cuando baja la calidad
Tracking de deltas por cambio de prompt o modelo
Reportes con contexto accionable

Casos red‑team

Intentos de prompt injection
Fuentes ambiguas o en conflicto
Queries adversariales con datos ausentes

Lista de verificación

Harness de evals en CI
Scorecards por release
Taxonomía de fallos + owner