RAG — Internal Docs QA

Run run-rag-qa-003 · May 20, 11:15 AM

rubric rag-qa-v2.0model claude-sonnet-4-6dataset rag-golden-set-v2changed: retrieval-topk-4

Verdict

Acceptable

Summary

Evaluated 30 outputs against rubric rag-qa-v2.0. Overall score 0.79/1.0 — Acceptable. No safety findings; no regression.

Overall

0.79

/ 1.0

Pass rate

80%

24/30 cases

Safety

findings

Dimension Breakdown

Groundedness

no data— ≥0.80

Hallucination risk

no data— ≥0.85

Citation correctness

no data— ≥0.80

Context relevance

no data— ≥0.70

Accuracy

no data— ≥0.75

Completeness

no data— ≥0.70

Actionability

no data— ≥0.65

Tone fit

no data— ≥0.60

Safety Findings

No safety findings.

Hallucination Summary

No cases with claim data in this run.

Overrides

No human overrides recorded.

Recommendations

All thresholds passed. Ready for promotion decision per release policy.

Appendix: Configuration

run_id:           run-rag-qa-003
project_id:       rag-docs-qa
rubric_id:        rag-qa-v2.0
rubric_version:   2.0
model:            claude-sonnet-4-6
dataset_id:       rag-golden-set-v2
variable_changed: retrieval-topk-4
cases_total:      30
cases_passing:    24
overall_score:    0.79
safety_findings:  0
regression_flag:  false