🎮 Reinforcement Learning - inarcissuss · Scour

🎯RLHF arXiv·

Bias-Controlled Primal-Dual Natural Actor-Critic: Optimal Rates for Constrained Multi-Objective Average-Reward RL

🤖LLM, Agent The Batch·

Jun 19, 2026

🏗️AI Infrastructure IT之家·

郭明錤：谷歌开发 TPU v9 芯片推理优化升级款，联发科接单

🧠Context Engineering arXiv·

Compositional Behavioral Semantics for State Abstraction in Reinforcement Learning

🤖AI agent development ujangriswanto08.medium.com·

How SARSA Trains Smarter Agents Through On-Policy Updates

🔬AI Research arXiv·

EMAgnet: Parameter-Space EMA Regularization for Policy Gradient Self-Play in Large Games

🧠LLM Training arXiv·

Weight-Space Geometry of Offline Reasoning Training

🎯RLHF arXiv·

An Introduction to Causal Reinforcement Learning

🔬AI Research arXiv·

GEOALIGN: Geometric Rollout Curation for Robust LLM Reinforcement Learning

🤖AI agent development arXiv·

Reinforcement Learning for Computer-Use Agents with Autonomous Evaluation

⚡LLM Optimization arXiv·

State Representation Matters in Deep Reinforcement Learning: Application to Energy Trading

🎯RLHF arXiv·

MAPL: Multi-Objective Preference Learning for Robot Locomotion

🎯RLHF arXiv·

Deterministic Pareto-Optimal Policy Synthesis for Multi-Objective Reinforcement Learning

🔬AI Research arXiv·

LaGO: Latent Action Guidance for Online Reinforcement Learning

🔬AI Research arXiv·

FactorLibrary: From Polynomials to Circuits via Recursive Subgoals

🛡️AI Safety arXiv·

Reinforcement Learning Towards Broadly and Persistently Beneficial Models

Covers Reinforcement learning towards broadly and persistently beneficial models

🔄Meta-Learning arXiv·

VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinforcement Learning-Based Test-Time Adaptation

🕸️Multi-Agent Systems arXiv·

Low Variance Trust Region Optimization with Independent Actors and Sequential Updates in Cooperative Multi-agent Reinforcement Learning

🔀LoRA arXiv·

Memory-Efficient Policy Libraries with Low-Rank Adaptation in Reinforcement Learning

🎯RLHF arXiv·

Supervised Reinforcement Learning for the Coordination of Distributed Energy Resources

Sign up or log in to see more results

Log in to enable infinite scrolling