🎮 Reinforcement Learning - jyunzhang · Scour

Performance Variation in Deep Reinforcement Learning

🔥PyTorch Academic

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

📊Algorithms Academic

web.mit.edu··Hacker News

SimarcLabs/pybullet-swarm-sim: Python framework for simulating drone swarms with PyBullet in seconds.

🔍Code Review Code

github.com··r/opensource

Good teachers don’t cheat

📈Optimization Blog

jasonkena.github.io··Hacker News

Deep reinforcement learning for process design: Review and perspective

🧠Deep Learning Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🧠Deep Learning Academic

Self-Paced Curriculum Reinforcement Learning for Autonomous Superbike Racing in Simulation

⚡Code Generation Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

💬Prompt Engineering Academic

Policy Gradient for Continuous-Time Robust Markov Decision Processes

📈Optimization Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🔥PyTorch Academic

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

🔥PyTorch Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

📝NLP Academic

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

🐘PostgreSQL Academic

Self-Distilled Policy Gradient

📈Optimization Academic

Reformulate LLM Reinforcement Learning for Efficient Training under Black-box Discrepancy

🤖LLMs Academic

Representation Learning Enables Scalable Multitask Deep Reinforcement Learning

🧠Deep Learning Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

🔒Network Security Academic

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

🤖LLMs Academic

QnRL: Quantum-Native Reinforcement Learning

🦙Ollama Academic

On Advantage Estimates for Max@K Policy Gradients

📈Optimization Academic

Log in to enable infinite scrolling