🎮 Reinforcement Learning - DefB · Scour

Show HN: Fighting the War Against Expensive Reinforcement Learning

cadenza-landing-qtu7gbjwb-akshparekh123-3457s-projects.vercel.app·19h·

Discuss: Hacker News

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

arxiv.org·21h

Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling

arxiv.org·21h

🧠Machine Learning

A multi-agent reinforcement learning approach to autonomous aircraft taxiing with taxiing time, fuel consumption, and emission optimization

sciencedirect.com·1d

check out this article on Reinforcement Learning with R: Origins, Real-Life Applications, and Practical Implementation

dev.to·2d·

Discuss: DEV

Optimal timing for superintelligence

marginalrevolution.com·2h

AI Agents Now ADAPT To Messy Real-World Problems, Not Just Perfect Tests

quantumzeitgeist.com·10h

BetaZero V2: A Diffusion Model for Setting Boulder Problems

evmojo37.substack.com·3h·

Discuss: Substack

📊Data Science

Truth and paradox in the theory of finite and infinite games, Owens Memorial Lecture, Wayne State University, April 2026

jdh.hamkins.org·1d

λFunctional Programming

A Conceptual Framework for Exploration Hacking

lesswrong.com·10h

λFunctional Programming

Optimizing post-disaster road restoration with reinforcement learning: A traveler-behavior-aware approach

sciencedirect.com·10h

Feedback Control for Computer Systems

janert.org·19h

How to Leverage Explainable AI for Better Business Decisions

towardsdatascience.com·11h

Entropic Balance with Feedback Control: Information Equalities and Tight Inequalities

link.aps.org·2d

The Rational Use of Cognitive Resources

press.princeton.edu·2d

💬Natural Language Processing

Show HN: A minimal online decision maker

decisionmaker.online·1d·

Discuss: Hacker News

Artificial Intelligence and the Passivity Problem

psychologytoday.com·8h

v6 (Code 2 here) — Most complete architecture. This version is faster than my old v5, statistically correct, has all the advanced psychology/network features, and produces stunning visualizations

gist.github.com·8h·

Discuss: r/C_Programming

📊Data Science

Observe emergent behavior in autonomous multi-agent LLM networks

agents.glide2.app·2d·

Discuss: Hacker News

For real game-theoretic reasoning, we need best response in imperfect information games

weyxie.bearblog.dev·3d·

Discuss: Hacker News

Loading more...