🤖 reinforcement learning - ddboline · Scour

Show HN: Fighting the War Against Expensive Reinforcement Learning

cadenza-landing-qtu7gbjwb-akshparekh123-3457s-projects.vercel.app·2h·

Discuss: Hacker News

📊linear programming

On Computation and Reinforcement Learning

arxiv.org·6d

🧩operations research

Recursive self-improvement from AI models

marginalrevolution.com·1d·

Discuss: Hacker News

📊linear programming

Show HN: A minimal online decision maker

decisionmaker.online·20h·

Discuss: Hacker News

🧩operations research

A Policy-Aware Agent Loop with Cedar and OpenClaw

windley.com·16h

📊linear programming

Distributional Reinforcement Learning with Diffusion Bridge Critics

arxiv.org·6d

📊linear programming

ashworks1706/rlhf-from-scratch: A theoretical and practical deep dive into Reinforcement Learning with Human Feedback and it’s applications in Large Language Models from scratch.

github.com·1d·

Discuss: Hacker News

🧩operations research

Adaptive Neuro-Symbolic Planning for smart agriculture microgrid orchestration in hybrid quantum-classical pipelines

dev.to·4d·

Discuss: DEV

📊linear programming

AI Inference Needs A Mix-And-Match Memory Strategy

semiengineering.com·1h

🧩operations research

The "Are You Sure?" Problem: Why Your AI Keeps Changing Its Mind

randalolson.com·14h·

Discuss: Hacker News

🧩operations research

Thanks to AI, we can play a Roman game again

maastrichtuniversity.nl·2h·

Discuss: Hacker News

📊linear programming

Benchmark & Compare the Best AI Models

arena.ai·18h

📊linear programming

Learning Models with Uniform Performance via Distributionally RobustOptimization

dev.to·4d·

Discuss: DEV

📊linear programming

Building Chess in about 350 lines of Clojure

sammystraus.com·7h·

Discuss: Hacker News

Show HN: Vibe Coded Math Games

eruci.com·15h·

Discuss: Hacker News

📊linear programming

On Economics of A(S)I Agents

lesswrong.com·4d

🧩operations research

Digitizing the "Shokunin": How we encoded a Master's hammer strike into AI

yusukekaizen.substack.com·2h·

Discuss: Substack

📊linear programming

EyesOff: Why Some Models Quantize Better Than Others

ym2132.github.io·10h·

Discuss: Hacker News

📊linear programming

Show HN: Implementing an AI Portfolio Manager. With Learning

quantape.substack.com·8h·

Discuss: Substack

📊linear programming

Schedules of Reinforcement in Psychology (Examples)

simplypsychology.org·1d·

Discuss: Hacker News

🧩operations research

Loading more...