Evaluations

Judge scores, rubrics, and conversation quality across all runs.

Average score
9.00 / 10

2 evaluations across 2 runs

Pass rate
100%

Share of cases scoring 7 or higher

Fail rate
0%

Share of cases scoring below 4

Latest run
9.00 / 10+0.00

Previous run: 9.00 / 10

Score over time

Average judge score per run, ordered from oldest to newest. Hover a point to inspect that run.

024681030 Apr30 Apr

Score distribution

How the latest evaluation per case is distributed across the 1–10 scale.

12345678910

Lowest-scoring scenarios

Scenarios where Amorza underperforms — prioritise these first.

  1. 1

    Pětiletý vztah, společný byt, kocour. Žádné velké drama, žádná nevěra — jen postupné vyhasnutí. Konverzace jsou logistické, sex prakticky není, večery každý u svého. Strach z rozchodu (samota, finance, "co když to byla chyba") je stejně silný jako pocit, že takhle už to dál nejde.

    2 evals · 2 runs

    9.0/10