Area Mosa — Booking Assistant

Run run-booking-002 · May 24, 08:45 AM

rubric booking-assistant-v1.3model gpt-4o-minidataset booking-test-set-v1changed: tone-friendly-v2

Verdict

Ship-ready

Summary

Evaluated 25 outputs against rubric booking-assistant-v1.3. Overall score 0.88/1.0 — Ship-ready. No safety findings; no regression.

Overall

0.88

/ 1.0

Pass rate

92%

23/25 cases

Safety

findings

Dimension Breakdown

Intent detection

no data— ≥0.90

Booking readiness

no data— ≥0.85

Proper human handoff

no data— ≥0.80

Clear answer

no data— ≥0.75

Tone fit

no data— ≥0.70

Hallucination risk

no data— ≥0.85

Actionability

no data— ≥0.70

Consistency

no data— ≥0.70

Safety Findings

No safety findings.

Hallucination Summary

No cases with claim data in this run.

Overrides

No human overrides recorded.

Recommendations

All thresholds passed. Ready for promotion decision per release policy.

Appendix: Configuration

run_id:           run-booking-002
project_id:       area-mosa-booking
rubric_id:        booking-assistant-v1.3
rubric_version:   1.3
model:            gpt-4o-mini
dataset_id:       booking-test-set-v1
variable_changed: tone-friendly-v2
cases_total:      25
cases_passing:    23
overall_score:    0.88
safety_findings:  0
regression_flag:  false