Back to article

agents-last-exam.org

AI Agent Benchmark for Real-World Professional Workflows (opens in new tab)

Covers 8 stories including Personal AI AssistantCovered by 6 sources including The New Stack, VentureBeatDiscussed on Hacker News and Hacker News

Covers 8 related stories

Personal AI Assistant

Discussed on Hacker News, Hacker News, Hacker News, Hacker News, and DEV

code.claude.com·

Navigate to Claude Code Docs via Claude.md

Discussed on Hacker News and r/programming

ReAct: Synergizing Reasoning and Acting in Language Models

Discussed on Hacker News

Terminal-Bench: a benchmark for AI agents in terminal environments

Discussed on Hacker News and Hacker News

Cursor - The AI-first Code Editor

Discussed on r/programming

Agents' Last Exam

Discussed on Hacker News

Han, Not Solo·

Hidden Technical Debt of AI Systems: Agent Harness

debugml.github.io·

Finding Widespread Cheating on Popular Agent Benchmarks

Discussed on Hacker News

Covered in 6 articles

The New Stack·

We’ve been measuring AI wrong; why economically valuable work is the new benchmark

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

🙀 US Gov Shuts Down Claude Fable

Sunday Rundown #145: Deep Research & Deep Cuts

rdi.berkeley.edu·

Agents' Last Exam

In other languages

Agents' Last Exam

Discussed on Hacker News