🎯 Reinforcement Learning

Discussed on DEV

📊Optimization arxiv.org·

Pareto Q-Learning with Reward Machines

📊Optimization arxiv.org·

Reversal Q-Learning

🤖Transformers arxiv.org·

Multi-Head Attention-Based Feature Extractor Integration with Soft Actor-Critic for Porosity Prediction and Process Parameter Optimization in Additive Manufactu...

🎲Deterministic Simulation arxiv.org·

Reinforcement Learning Foundation Models Should Already Be A Thing

📊Optimization arxiv.org·

Proximal Policy Optimization for Amortized Discrete Sampling

💎Cassandra arxiv.org·

Diffusion Offline Reinforcement Learning for Fair and Energy-Efficient UAV-Assisted Wireless Networks

🎨Chroma arxiv.org·

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

📊Dynamic Programming arxiv.org·

Learning Fair Pareto-Optimal Policies in Multi-Objective Reinforcement Learning

⏱️Time Series Analysis arxiv.org·

Memory-Efficient Meta-Reinforcement Learning for Adaptive Safety-Critical Control in Adversarial Spacecraft Proximity Operations

💬Prompt Engineering arxiv.org·

Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning

📊Optimization arxiv.org·

Robust $Q$-learning for mean-field control under Wasserstein uncertainty in common noise

📱Edge AI arxiv.org·

Augmenting Game AI with Deep Reinforcement Learning

💬Prompt Engineering arxiv.org·

WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

⚓Anchors arxiv.org·

Knowledge Reutilization in Meta-Reinforcement Learning

✓Formal Verification arxiv.org·

Process-Verified Reinforcement Learning for Theorem Proving via Lean

🔢algo arxiv.org·

Continuous-time Optimal Stopping through Deep Reinforcement Learning

🔗Graph Algorithms arxiv.org·

AREAL-DTA: Dynamic Tree Attention for Efficient Reinforcement Learning of Large Language Models

⚓Anchors arxiv.org·

Temporal Self-Imitation Learning

No more posts from hello's subscribed feeds.

Scour all 25,324 feeds Learn more about Feeds

Deep Q-Learning on H\"older Spaces

Building a Self-Optimizing Python Trading Bot with Reinforcement Learning and Binance API

Pareto Q-Learning with Reward Machines

Reversal Q-Learning

Multi-Head Attention-Based Feature Extractor Integration with Soft Actor-Critic for Porosity Prediction and Process Parameter Optimization in Additive Manufactu...

Reinforcement Learning Foundation Models Should Already Be A Thing

Proximal Policy Optimization for Amortized Discrete Sampling

Diffusion Offline Reinforcement Learning for Fair and Energy-Efficient UAV-Assisted Wireless Networks

Quantum Annealing Enhanced Reinforcement Learning for Accurate Remaining Useful Lifetime Prediction

Learning Fair Pareto-Optimal Policies in Multi-Objective Reinforcement Learning

Memory-Efficient Meta-Reinforcement Learning for Adaptive Safety-Critical Control in Adversarial Spacecraft Proximity Operations

Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning

Robust $Q$-learning for mean-field control under Wasserstein uncertainty in common noise

Augmenting Game AI with Deep Reinforcement Learning

WAM-RL: World-Action Model Reinforcement Learning with Reconstruction Rewards and Online Video SFT

Knowledge Reutilization in Meta-Reinforcement Learning

Process-Verified Reinforcement Learning for Theorem Proving via Lean

Continuous-time Optimal Stopping through Deep Reinforcement Learning

AREAL-DTA: Dynamic Tree Attention for Efficient Reinforcement Learning of Large Language Models

Temporal Self-Imitation Learning