📊 LLM Evals - alanxu.80 · Scour

An LLM benchmark is only useful for as long as it's hard

🧠LLMs Blog

Introducing FrontierCode

🧩AI Frameworks Blog

cognition.ai··Hacker News

$\tau$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

💾Agent Memory Academic

Less-relevant results

Launch HN: General Instinct (YC P26) – Frontier models on edge devices

💾Agent Memory Discussion

news.ycombinator.com··Hacker News

CommBench: Can LLMs Write Correct and Efficient GPU Communication Code?

🌐Open Source AI

uccl-project.github.io··Hacker News

Show HN: AgentCarousel – behavioral tests for AI agents, with signed evidence

🤖AI Agents Code

github.com··Hacker News

Law Professors Prefer AI over Peer Answers

📐AI Architecture Academic

law.stanford.edu··Hacker News

Researchers say they trained a foundation model from scratch for about $1,500

🌐Open Source AI

venturebeat.com··Hacker News

How to Train Your Goblin

🌐Open Source AI

goblins.mchen.workers.dev··Hacker News, Hacker News

LLM Research Papers: The 2026 List (January to May)

🌐Open Source AI News

magazine.sebastianraschka.com

··Hacker News

The Vanta AI Quality Eval Maturity Model

🔭AI Observability

··Hacker News

UrduMMLU: A Massive Multitask Benchmark for Urdu Language Understanding

✍️Prompt Engineering Academic

The Hidden Truth Behind AI-Driven Layoffs in Big Tech

🧠LLMs Blog

Apple WWDC On-Device AI Deep Dive - Google Docs

gist.is··Hacker News

Beyond English benchmarks: clinical llm evaluation in Brazilian Portuguese

🧠LLMs Academic

Architecture Breakdown: Building an Enterprise-Grade Legal RAG System (From Ingestion to RAGAS Evaluation)

🔍RAG Blog

Shrivastava-Aditya/boolean-algebra-engine: Deterministic boolean algebra engine — evaluates expressions, detects contradictions, audits logic rules. MCP server, NL layer, REST API, CLI, Streamlit UI.

✍️Prompt Engineering Code

github.com··Hacker News, r/LLM

PhantomBench: Benchmarking the Non-existential Threat of Language Models

🧠LLMs Academic

Hallucination Detection Is Not a Model Problem—It's an Architecture Problem

🧠LLMs Blog

NightFeats @ MMU-RAGent NeurIPS 2025: A Context-Optimized Multi-Agent RAG System for the Text-to-Text Track

🔍RAG Academic

Log in to enable infinite scrolling