📊 LLM Evals - leonlin · Scour

Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation

🧠AI Research Academic

Less-relevant results

justification

⚡C++ Blog

0gs.bearblog.dev·

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

🧠AI Research Blog

huggingface.co·

Elmes*: Automated Construction of Fine-Grained Evaluation Rubrics for Large Language Models in Long-Tail Educational Scenarios

🔧MLOps Academic

Density Ridge Selective Prediction for LLM and VLM Hallucination Detection under Calibration Label Scarcity

🔧MLOps Academic

Revisiting GSM-Symbolic: Do 2026 Frontier Models Still Fail at Confounded Grade School Math?

lesswrong.com·

Cutting LLM Evaluation Costs with SySRs: A Bandit Algorithm that Provably Exploits Model Similarity

🔧MLOps Academic

Agentic threat actor hits the orchestration plane: AI agent-driven container escape

🐍Python Blog

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

🧠AI Research Academic

Multilingual Refusal Alignment for Safer Large Language Models

🧠AI Research Academic

Back on Track: Aligning Rewards and States for Reasoning in Diffusion Large Language Models

🧠AI Research Academic

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

lesswrong.com·

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

🧠AI Research Academic

MechLens: Late Crystallization of Factual Knowledge Explains Intervention Effectiveness in Language Models

🧠AI Research Academic

Dropout-GRPO: Variational Stochasticity for Continuous Latent Reasoning

🧠AI Research Academic

When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

🧠AI Research Academic

Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models

🧠AI Research Academic

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

🧠AI Research Academic

Selection-Aware Diagnostics for Chain-of-Thought Answer Hijacking

🧠AI Research Academic

Less is MoE: Trimming Experts in Domain-Specialist Language Models

🔧MLOps Academic

Log in to enable infinite scrolling