🎮 Reinforcement Learning - laurynas · Scour

Temper and Tilt Lead to SLOP: Reward Hacking Mitigation with Inference-Time Alignment ⚙Context engineering

Reinforcement Learning for Scalable and Trustworthy Intelligent Systems ⚙Context engineering

D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models ⚙Context engineering

Adaptive Smooth Tchebycheff Attention for Multi-Objective Policy Optimization 🔍AI Interpretability

Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training ⚙Context engineering

Teacher-Guided Policy Optimization for LLM Distillation ⚙Context engineering

AHD Agent: Agentic Reinforcement Learning for Automatic Heuristic Design ⚙Context engineering

Diagnosing Training Inference Mismatch in LLM Reinforcement Learning ⚙Context engineering

Generative Floor Plan Design with LLMs via Reinforcement Learning with Verifiable Rewards ⚙Context engineering

Learning Agentic Policy from Action Guidance ⚙Context engineering

HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning 🤝Multi-Agent Systems

Discrete Flow Matching for Offline-to-Online Reinforcement Learning ⚙Context engineering

When Does Hierarchy Help? Benchmarking Agent Coordination in Event-Driven Industrial Scheduling 🤝Multi-Agent Systems

FutureSim: Replaying World Events to Evaluate Adaptive Agents ⚙Context engineering

RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking 🎯Reranking

Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning ⚙Context engineering

Continual Harness: Online Adaptation for Self-Improving Foundation Agents ⚙Context engineering

arxiv.org·4d·Hacker News

Language-Based Agent Control 🤖agents

How to Interpret Agent Behavior 🤖agents

Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration ⚙Context engineering

Log in to enable infinite scrolling