📈 Benchmarking - whisht · Scour

MechLens: Late Crystallization of Factual Knowledge Explains Intervention Effectiveness in Language Models

🤖LLM Academic

FASE: Fast Adaptive Semantic Entropy for Code Quality

🤖LLM Academic

Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models

🤖AI Academic

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

🤖LLM Academic

Sample Where You Struggle: Sharpening Base Model Reasoning via Entropy-Guided Power Sampling

🤖AI Academic

UrduMMLU: A Massive Multitask Benchmark for Urdu Language Understanding

🤖LLM Academic

Voting Protocols as Coordination Mechanisms for Role-Constrained Multi-Agent Tutoring Systems

🤖AI Academic

CodeAlchemy: Synthetic Code Rewriting at Scale

🤖AI Academic

Critic-Guided Heterogeneous Multi-Agent Reasoning for Reliable Mathematical Problem Solving

🤖LLM Academic

Dropout-GRPO: Variational Stochasticity for Continuous Latent Reasoning

🤖LLM Academic

From 0-to-1 to 1-to-N: Reproducible Engineering Evidence for MetaAI Recursive Self-Design

🤖AI Academic

Scaffold, Not Vocabulary? A Controlled, Two-Tier, Pre-Registered Study of a Popperian Code-Generation Skill

🤖LLM Academic

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

🤖AI Academic

Less is MoE: Trimming Experts in Domain-Specialist Language Models

🤖AI Academic

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

🤖LLM Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🤖AI Academic

MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

🤖AI Academic

Self-Commitment Latency: A Reward-Free Probe for Prompted Implicit Hacking

🤖AI Academic

SecRL-Prune: Structured Reinforcement Learning-Based Pruning of CodeLLMs for Preserving Adversarial Code Mutation

🤖AI Academic

Log in to enable infinite scrolling