🎮 Reinforcement Learning - barisamiw · Scour

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🤖AI Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🤖AI Academic

ARTA: Adaptive Reinforcement-Learning-Based Throttling Agent for RowHammer Vulnerabilities

🌐Distributed Systems Academic

Performance Variation in Deep Reinforcement Learning

🤖AI Academic

Do We Want a Superintelligent People-Pleaser?

lesswrong.com·

Failure Modes of Deep Multi-Agent RL in Asynchronous Pricing: Reproducible Triggers, Trace Diagnostics, and a Partial Fix

🤖AI Academic

Less-relevant results

umair-tareen/philosopher-council: An eleven-philosopher LLM council - ask it questions or point it at AI-research trends. Claude-powered deliberation through the four classical branches of philosophy. Methodology, not metaphysics.

🤖AI Code

github.com··r/SideProject

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

🤖AI Academic

A Unifying Lens on Reward Uncertainty in RLHF

🤖AI Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🤖AI Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🤖AI Academic

Hidden Consensus:Preference-Validity Compression in Human Feedback

🤖AI Academic

My research agenda and work

lesswrong.com·

A Regret Minimization Framework on Preference Learning in Large Language Models

🤖AI Academic

Mechanistic Analysis of Alignment Algorithms in Language Models

🔀Transformers Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

🤖AI Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🤖AI Academic

SocraticPO: Policy Optimization via Interactive Guidance

🤖AI Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🤖AI Academic

Policy Gradient for Continuous-Time Robust Markov Decision Processes

🤖AI Academic

Sign up or log in to see more results

Log in to enable infinite scrolling