🎮 Reinforcement Learning - jyunzhang · Scour

Reinforcement Learning from Rich Feedback with Distributional DAgger

📈Optimization Academic

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

📈Optimization Academic

Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents

🔲Cellular Automata Academic

AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

💬Prompt Engineering Academic

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

🤖LLMs Academic

A Goal-Set Characterization of Task Composition in the Boolean Task Algebra

🤖LLMs Academic

Online KL-Regularized Reinforcement Learning with Function Approximation under Misspecification

📈Optimization Academic

Read the Trace, Steer the Path: Trajectory-Aware Reinforcement Learning for Diffusion Language Models

🤖LLMs Academic

Alpha-RTL: Test-Time Training for RTL Hardware Optimization

🤖LLMs Academic

Position: Deployed Reinforcement Learning should be Continual

🔲Cellular Automata Academic

Semi-Offline Reinforcement Learning for Optimized Text Generation

🤖LLMs Academic

SALT: When More Rollouts Don't Help in Group-Based Policy Optimization and How to Make Them Matter

🤖LLMs Academic

Maximising the Set-Piece Return: Optimising Football Corner Tactics with Graph Reinforcement Learning

📈Optimization Academic

Large Language Models Hack Rewards, and Society

🤖Machine Learning Academic

Transformer-Enhanced Reinforcement Learning: Fundamentals and Applications in Communication Networks

🤖Transformers Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🤖AI Academic

No more posts from jyunzhang's subscribed feeds.

Scour all 25257 feeds Learn more about Feeds

Log in to enable infinite scrolling