📊 LLM Evaluation - moyutianzun · Scour

Flaws in the LLM Automation Narrative

🤖LLM Agents Academic

Back on Track: Aligning Rewards and States for Reasoning in Diffusion Large Language Models

🎯RLHF Academic

IDP-Bench: Benchmarking ability of LLMs to protect personal information in interdependent privacy contexts

🔧MLIR Academic

MechLens: Late Crystallization of Factual Knowledge Explains Intervention Effectiveness in Language Models

🔄Transformers Academic

UrduMMLU: A Massive Multitask Benchmark for Urdu Language Understanding

🔧MLIR Academic

Density Ridge Selective Prediction for LLM and VLM Hallucination Detection under Calibration Label Scarcity

↩️Backpropagation Academic

Collective Hallucination in Multi-Agent LLMs:Modeling and Defense

🤖agentic system Academic

Dropout-GRPO: Variational Stochasticity for Continuous Latent Reasoning

🔄Transformers Academic

Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models

⚡Inference Optimization Academic

RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning

🔄Transformers Academic

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

🎛️Fine-Tuning Academic

Less is MoE: Trimming Experts in Domain-Specialist Language Models

🎭Mixture of Experts Academic

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

🤖agentic system Academic

MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

🎯RLHF Academic

Elmes*: Automated Construction of Fine-Grained Evaluation Rubrics for Large Language Models in Long-Tail Educational Scenarios

🔍RAG Academic

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

🎛️Fine-Tuning Academic

Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking

⚙post training infra Academic

Critic-Guided Heterogeneous Multi-Agent Reasoning for Reliable Mathematical Problem Solving

🤖agentic system Academic

Lightweight Language Models are Prone to Reasoning Errors for Complex Computational Phenotyping Tasks

⚡Inference Optimization Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🎛️Fine-Tuning Academic

Sign up or log in to see more results

Log in to enable infinite scrolling