AI Planning Assistant

Run run-planner-005 · May 23, 04:20 PM

rubric planner-v0.4model claude-opus-4-6dataset planner-golden-v3changed: task-decomposition-prompt-v5

Verdict

Ship-ready

Summary

Evaluated 20 outputs against rubric planner-v0.4. Overall score 0.94/1.0 — Ship-ready. No safety findings; no regression.

Overall

0.94

/ 1.0

Pass rate

95%

19/20 cases

Safety

findings

Dimension Breakdown

Task completion

100% pass0.97 ≥0.75

Plan coherence

100% pass0.94 ≥0.70

Hallucination risk

100% pass0.96 ≥0.85

Accuracy

100% pass0.93 ≥0.75

Actionability

100% pass0.97 ≥0.70

Completeness

100% pass0.91 ≥0.70

Tone fit

100% pass0.88 ≥0.60

Consistency

100% pass0.95 ≥0.70

Safety Findings

No safety findings.

Hallucination Summary

Supported

Partial

Unsupported

Contradicted

3 total claims across 1 cases

Exemplar Passing Cases

case-planner-005-010.94/1.0

I need to launch a new SaaS product in 6 weeks. I have a designer and one backend engineer. Budget is $5,000.

Overrides

No human overrides recorded.

Recommendations

All thresholds passed. Ready for promotion decision per release policy.

Appendix: Configuration

run_id:           run-planner-005
project_id:       ai-planner
rubric_id:        planner-v0.4
rubric_version:   0.5
model:            claude-opus-4-6
dataset_id:       planner-golden-v3
variable_changed: task-decomposition-prompt-v5
cases_total:      20
cases_passing:    19
overall_score:    0.94
safety_findings:  0
regression_flag:  false