🎮 Reinforcement Learning - Bingran · Scour

Rethinking the Divergence Regularization in LLM RL

💬LLMs Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

💬LLMs Academic

APPO: Agentic Procedural Policy Optimization

🤖AI Agents Academic

Transformer-Enhanced Reinforcement Learning: Fundamentals and Applications in Communication Networks

🔄Transformers Academic

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

🔍Interpretability Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

⚙️Model Training Academic

Plan-and-Verify Video Reward Reasoning with Spatio-Temporal Scene Graph Grounding

🔄Transformers Academic

Semi-Offline Reinforcement Learning for Optimized Text Generation

🧠AI Research Academic

HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning

🤖AI Agents Academic

Critic Architecture Matters: Dual vs. Unified Critics for Humanoid Loco-Manipulation

⚙️Model Training Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

💬LLMs Academic

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

🤖AI Agents Academic

Verifiable Environments Are LEGO Bricks: Recursive Composition for Reasoning Generalization

📐Scaling Laws Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

💬LLMs Academic

Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

⚙️Model Training Academic

Online KL-Regularized Reinforcement Learning with Function Approximation under Misspecification

⚙️Model Training Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

💬LLMs Academic

Claw-R1: A Step-Level Data Middleware System for Agentic Reinforcement Learning

🤖AI Agents Academic

IAPO: Input Attribution-Aware Policy Optimization for Tool Use in Small Multimodal Agents

🤖AI Agents Academic

Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents

🧠AI Research Academic

Log in to enable infinite scrolling