Back to article

agents-last-exam.org

AI Agent Benchmark for Real-World Professional Workflows (opens in new tab)

Covers 6 stories including Personal AI AssistantCovered by 6 sources including The New Stack, arxiv.orgDiscussed on Hacker News and Hacker News

Covers 6 related stories

Personal AI Assistant

Discussed on Hacker News, Hacker News, Hacker News, Hacker News, and DEV

code.claude.com·

Navigate to Claude Code Docs via Claude.md

Discussed on Hacker News and r/programming

ReAct: Synergizing Reasoning and Acting in Language Models

Discussed on Hacker News

Terminal-Bench: a benchmark for AI agents in terminal environments

Discussed on Hacker News and Hacker News

Cursor - The AI-first Code Editor

Discussed on r/programming

Agents' Last Exam

Discussed on Hacker News

Covered in 6 articles

The New Stack·

We’ve been measuring AI wrong; why economically valuable work is the new benchmark

venturebeat.com·

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

theneurondaily.com·

🙀 US Gov Shuts Down Claude Fable

Sunday Rundown #145: Deep Research & Deep Cuts

rdi.berkeley.edu·

Agents' Last Exam

In other languages

Agents' Last Exam

Discussed on Hacker News