📊 LLM Evals - joshwonghc · Scour

Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation

🔧MLOps Academic

Less-relevant results

ChargeBD: Character-Aware Heterogeneous Agent Reasoning for Guided Engineering in Battery Development

🤖AI Agents Academic

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

✍️Prompt Engineering Academic

Multilingual Refusal Alignment for Safer Large Language Models

🧠LLMs Academic

Flaws in the LLM Automation Narrative

🧠LLMs Academic

Back on Track: Aligning Rewards and States for Reasoning in Diffusion Large Language Models

🧠LLMs Academic

Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL

✍️Prompt Engineering Academic

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

🧠LLMs Academic

IDP-Bench: Benchmarking ability of LLMs to protect personal information in interdependent privacy contexts

🌐Open Source AI Academic

MechLens: Late Crystallization of Factual Knowledge Explains Intervention Effectiveness in Language Models

🌐Open Source AI Academic

Density Ridge Selective Prediction for LLM and VLM Hallucination Detection under Calibration Label Scarcity

🧠LLMs Academic

When Does Delegation Beat Majority? A Delegation-Based Aggregator for Multi-Sample LLM Inference

🧠LLMs Academic

Collective Hallucination in Multi-Agent LLMs:Modeling and Defense

🤖AI Agents Academic

Dropout-GRPO: Variational Stochasticity for Continuous Latent Reasoning

✍️Prompt Engineering Academic

Attention-Discounted Adaptive Sampler for Masked Diffusion Language Models

🧠LLMs Academic

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

📄AI Papers Academic

PACE: Anytime-Valid Acceptance Tests for Self-Evolving Agents

🤖AI Agents Academic

Log in to enable infinite scrolling