📊 LLM Evals - alanxu.80 · Scour

Smarter Saboteurs, Better Fixers: Scaling & Security in Linear Multi-Agent Workflows

🎼Agent Orchestration Academic

AI scribes may have ‘profound impact’ on patient care

🧩AI Frameworks News

Valid Inference with Synthetic Data via Task Exchangeability

⚙️MLOps Academic

The Biggest Summer Blockbusters Since 2010, by Box Office Sales

💾Agent Memory News

visualcapitalist.com·

LLM-Based Visualization Evaluation: How Well Do Literacy-Stratified Personas Approximate Human Judgments?

🧠LLMs Academic

PhantomBench: Benchmarking the Non-existential Threat of Language Models

🧠LLMs Academic

NightFeats @ MMU-RAGent NeurIPS 2025: A Context-Optimized Multi-Agent RAG System for the Text-to-Text Track

🔍RAG Academic

RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning

🧠LLMs Academic

UXBench: Benchmarking User Experience in AI Assistants

🧩AI Frameworks Academic

Flaws in the LLM Automation Narrative

🧠LLMs Academic

When Languages Disagree: Self-Evolving Multilingual LLM Judges

🧠LLMs Academic

Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL

💾Agent Memory Academic

A Controlled Study of Decoding-Time Truthfulness Methods on Instruction-Tuned LLMs

🧠LLMs Academic

Detecting Functional Memorization in Code Language Models

🧠LLMs Academic

Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models

🧠LLMs Academic

TinyJudge: Unverifiable Constraint Alignment via Lightweight Specialist Ensembles

⚙️MLOps Academic

Sample Where You Struggle: Sharpening Base Model Reasoning via Entropy-Guided Power Sampling

🧠LLMs Academic

CodeAlchemy: Synthetic Code Rewriting at Scale

🧠LLMs Academic

Cutting LLM Evaluation Costs with SySRs: A Bandit Algorithm that Provably Exploits Model Similarity

🧠LLMs Academic

Constrained Semantic Decompression in LLMs through Persian Proverb-Conditioned Story Generation

🧠LLMs Academic

Sign up or log in to see more results

Log in to enable infinite scrolling