🎮 Reinforcement Learning - jyunzhang · Scour

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

🤖LLMs Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🔥PyTorch Academic

Representation Learning Enables Scalable Multitask Deep Reinforcement Learning

🧠Deep Learning Academic

Bellman-Taylor Score Decoding for Markov Decision Processes with State-Dependent Feasible Action Sets

💬Prompt Engineering Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

📝NLP Academic

Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

📈Optimization Academic

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

🤖LLMs Academic

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

🐘PostgreSQL Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🤖LLMs Academic

On Advantage Estimates for Max@K Policy Gradients

📈Optimization Academic

Reformulate LLM Reinforcement Learning for Efficient Training under Black-box Discrepancy

🤖LLMs Academic

On-sky demonstration of reinforcement learning for adaptive optics control

🤖Machine Learning Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

🔒Network Security Academic

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

💬Prompt Engineering Academic

COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

🎭Anthropic Claude Academic

QnRL: Quantum-Native Reinforcement Learning

🦙Ollama Academic

Constrained Deep Reinforcement Learning for Cognitive Radar Resource Management

🧠Deep Learning Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

📈Optimization Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🤖AI Academic

Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning

📈Optimization Academic

Log in to enable infinite scrolling