🎯 Reinforcement Learning - cehmdxgw · Scour

Researchers trained an open source AI search agent, Harness-1, that outperforms GPT-5.4 on recalling relevant information

🔢vector embedding

venturebeat.com··Hacker News

How to reduce capability degradation from off-model SFT

🔒Hardware Security

lesswrong.com·

Deep Reinforcement Learning for Adaptive Power Allocation in ISAC Systems with Mobile Target

🤖Transformers Academic

SimarcLabs/pybullet-swarm-sim: Python framework for simulating drone swarms with PyBullet in seconds.

🔍Symbolic Execution Code

github.com··r/opensource

Import AI 460: Reward hacking society, RSI data from Anthropic; and RL-based quadcopter racing

🔍Symbolic Execution News Blog

importai.substack.com··Substack

AI-powered living business intelligence network

🤖Transformers

atlasforgex.com

··Hacker News

Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch

🌍Distributed Systems Academic

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

🤖Transformers Academic

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

🔍Symbolic Execution Academic

Reinforcement Learning for Neural Model Editing

🤖Transformers Academic

Stubborn: A Streamlined and Unified Reinforcement Learning Framework for Robust Motion Tracking and Fall Recovery for Humanoids

🔍Symbolic Execution Academic

QoS Improvement in Multi User Cellular-Symbiotic Radio Network Assisted by Active-STAR-RIS

🌍Distributed Systems Academic

HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation

🔍Symbolic Execution Academic

When Context Returns: Toward Robust Internalization in On-Policy Distillation

🤖Transformers Academic

Keep Policy Gradient in Charge: Sibling-Guided Credit Distillation for Long-Horizon Tool-Use Agents

🔍Symbolic Execution Academic

Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

🤖Transformers Academic

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

🔍Symbolic Execution Academic

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🔍Symbolic Execution Academic

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

🔍Symbolic Execution Academic

Analyzing and Improving Fine-grained Preference Optimization in Medical LVLMs

🔢vector embedding Academic

Sign up or log in to see more results

Log in to enable infinite scrolling