Back to article

A curated, non-BS library of the best resources for evaluating agents (opens in new tab)

Covers 15 stories including Effective context engineering for AI agentsDiscussed on Hacker News

Covers 15 related stories

Effective context engineering for AI agents

Discussed on Hacker News and Hacker News

Measuring AI Ability to Complete Long Tasks

Harness engineering: leveraging Codex in an agent-first world

Discussed on Hacker News, Hacker News, Lobsters, r/LocalLLaMA, r/programming, r/programming, and DEV

Equipping Agents for the Real World with Agent Skills

Discussed on Hacker News and DEV

Demystifying Evals for AI Agents

Discussed on Hacker News, Hacker News, Hacker News, and r/ClaudeAI

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Discussed on Hacker News and r/LocalLLaMA

Writing effective tools for LLM agents–using LLM agents

Discussed on Hacker News

Your AI Product Needs Evals – Hamel's Blog

Discussed on DEV

T\"ULU 3: Pushing Frontiers in Open Language Model Post-Training

Discussed on Hacker News

Han, Not Solo·

Hidden Technical Debt of AI Systems: Agent Harness