cs.CL updates on arXiv.org · Scour

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

arxiv.org·1d·

Discuss: Hacker News

Accelerating Large Language Model Inference with Self-Supervised Early Exits

arxiv.org·1d

Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion

arxiv.org·1d

Capability-Oriented Training Induced Alignment Risk

arxiv.org·1d

A$^{2}$V-SLP: Alignment-Aware Variational Modeling for Disentangled Sign Language Production

arxiv.org·1d

Olmix: A Framework for Data Mixing Throughout LM Development

arxiv.org·1d

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

arxiv.org·1d

RAM-Net: Expressive Linear Attention with Selectively Addressable Memory

arxiv.org·1d

Artificial intelligence is creating a new global linguistic hierarchy

arxiv.org·1d

Mask What Matters: Mitigating Object Hallucinations in Multimodal Large Language Models with Object-Aligned Visual Contrastive Decoding

arxiv.org·1d

A Rule-based Computational Model for Gaidhlig Morphology

arxiv.org·1d

Sparse Semantic Dimension as a Generalization Certificate for LLMs

arxiv.org·1d

Evaluating Memory Structure in LLM Agents

arxiv.org·1d

Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation

arxiv.org·1d

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

arxiv.org·1d

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

arxiv.org·1d

T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

arxiv.org·1d

Patch the Distribution Mismatch: RL Rewriting Agent for Stable Off-Policy SFT

arxiv.org·1d

Althea: Human-AI Collaboration for Fact-Checking and Critical Reasoning

arxiv.org·1d

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

arxiv.org·1d

Loading more...