🎯 Reinforcement Learning - justjcullen · Scour

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

⚡Incremental Computation Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

⚡Incremental Computation Academic

APPO: Agentic Procedural Policy Optimization

⚡Incremental Computation Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🔍AI Interpretability Academic

CCKS: Consensus-based Communication and Knowledge Sharing

🌍Distributed Systems Academic

Fantastic Scientific Agents and How to Build Them: AgentBuild for Rietveld Refinement

⚡Incremental Computation Academic

Self-Paced Curriculum Reinforcement Learning for Autonomous Superbike Racing in Simulation

🦀Rust Academic

Select and Improve: Understanding the Mechanics of Post-Training for Reasoning

🤖Software Engineering, AI, Personal Knowledge Mangement, Strongly Typed Languages, Math, Abstractions, Data Models, Event Sourcing Academic

Self-Evolving Scientific Agent Discovers Generalizable Physically-Reasoned Fluid Control

⚡Incremental Computation Academic

Space-sampled Value Decay: Forgetting Mechanisms for Non-stationary Deep Reinforcement Learning

⚡Incremental Computation Academic

SocraticPO: Policy Optimization via Interactive Guidance

⚡Incremental Computation Academic

IAPO: Input Attribution-Aware Policy Optimization for Tool Use in Small Multimodal Agents

⚡Incremental Computation Academic

An Agency-Transferring Model-Free Policy Enhancement Technique

🤖Machine Learning Academic

Improving Robotic Generalist Policies via Flow Reversal Steering

⚡Incremental Computation Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

⚡Incremental Computation Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

⚡Incremental Computation Academic

Self-evolving LLM agents with in-distribution Optimization

⚡Incremental Computation Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

⚡Incremental Computation Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

⚡Incremental Computation Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

⚡Incremental Computation Academic

Sign up or log in to see more results

Log in to enable infinite scrolling