Your benchmarks are lying to you, and your judge is to blame! (opens in new tab)

Benchmarking AI models with single LLM judges can skew results due to judge bias. Multiple judges reveal score variations, suggesting a need for diverse evaluation methods.