🎮 Reinforcement Learning - gautam6599123 · Scour

Self-Evolving Scientific Agent Discovers Generalizable Physically-Reasoned Fluid Control

🤖AI Academic

Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward

∂Automatic Differentiation Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖AI Academic

Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents

🎲Probability Theory Academic

AliyunConsoleAgent: Training Web Agents in Real-World Cloud Environments via Distillation and Reinforcement Learning

∂Automatic Differentiation Academic

AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

🔶TensorFlow Academic

HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning

📊Optimization Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

🎲Probability Theory Academic

Self-Distilled Policy Gradient

📡Information Theory Academic

MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

🗣️Large Language Models Academic

On Advantage Estimates for Max@K Policy Gradients

∂Automatic Differentiation Academic

Reformulate LLM Reinforcement Learning for Efficient Training under Black-box Discrepancy

🗣️Large Language Models Academic

Towards On-Policy Data Evolution for Visual-Native Multimodal Deep Search Agents

🧠Deep Learning Academic

Self-Optimizing Control of Continuous Processes Based on Reinforcement Learning

📊Optimization Academic

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

∂Automatic Differentiation Academic

Exact Unlearning in Reinforcement Learning

🤖AI Academic

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

🕸️Graph Theory Academic

Co-Evolving Skill Generation and Policy Optimization

📊Optimization Academic

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

∂Automatic Differentiation Academic

Shape Formation for the Cooperative Transportation of Arbitrary Objects Using Multi-Agent Reinforcement Learning

🌐Distributed Systems Academic

No more posts from gautam6599123's subscribed feeds.

Scour all 25257 feeds Learn more about Feeds

Sign up or log in to see more results

Log in to enable infinite scrolling