Runs/New run

New evaluation run

Set a master prompt, let the rubric generate questions, score candidate answers — all persisted as one run.

Live evaluation needs Supabase + an OpenAI key.

ProjectRubric

1 dimensions · 1 scored by LLM judge · 0 safety gate(s)

Evaluation modelGenerates questions + answers and runs the LLM judge. Defaults to the project model; pick another to compare.Master promptSystem prompt that defines the assistant under test. Used to generate candidate answers.Retrieved contextOptional. Upload .txt/.md files (split into chunks) or edit chunks below — one per line.

0 chunks

Each case scored separately · subject to the daily budget cap