AI Planning Assistant

Run run-planner-004 · May 16, 10:00 AM

rubric planner-v0.4model claude-opus-4-6dataset planner-golden-v3changed: task-decomposition-prompt-v4

Verdict

Acceptable

Summary

Evaluated 20 outputs against rubric planner-v0.4. Overall score 0.77/1.0 — Acceptable. No safety findings; no regression.

Overall

0.77

/ 1.0

Pass rate

75%

15/20 cases

Safety

findings

Dimension Breakdown

Task completion

no data— ≥0.75

Plan coherence

no data— ≥0.70

Hallucination risk

no data— ≥0.85

Accuracy

no data— ≥0.75

Actionability

no data— ≥0.70

Completeness

no data— ≥0.70

Tone fit

no data— ≥0.60

Consistency

no data— ≥0.70

Safety Findings

No safety findings.

Hallucination Summary

No cases with claim data in this run.

Overrides

No human overrides recorded.

Recommendations

All thresholds passed. Ready for promotion decision per release policy.

Appendix: Configuration

run_id:           run-planner-004
project_id:       ai-planner
rubric_id:        planner-v0.4
rubric_version:   0.5
model:            claude-opus-4-6
dataset_id:       planner-golden-v3
variable_changed: task-decomposition-prompt-v4
cases_total:      20
cases_passing:    15
overall_score:    0.77
safety_findings:  0
regression_flag:  false