N-003Leaderboard2026-05-04

V11 Leaderboard Published Across 80 Complete CLI Tasks

The homepage leaderboard now reflects V11 pass@1/pass@3 results: GPT-5.5 leads at 61.7% pass@1, followed by GPT-5.3-codex and Opus 4.6.

V11 ranks CLI agents by pass@1 across the 80 tasks where all seven evaluated models have complete three-run coverage.

The top results are GPT-5.5 at 61.7% pass@1 / 66.2% pass@3, GPT-5.3-codex at 60.8% / 67.5%, and Opus 4.6 at 59.2% / 65.0%.

Finance-Zero is now tracked separately as a non-agentic baseline across 83 valid tasks, led by Opus 4.6 at 24.7% pass@1.