🧠 Machine Learning - yfff · Scour

Agentic RL: Token-In, Token-Out Done Right

🎮Reinforcement Learning

qgallouedec-tito.hf.space··Hacker News

Designing Loops That Prompt Coding Agents: The Six I Actually Run

✍️Prompt Engineering

cameronwestland.com··Hacker News

KJLdefeated/RL.cu: RLVR training for LLM in CUDA/C++

🤖AI Code

github.com··Hacker News

Phantom transitions in language model fine-tuning

💬LLMs Academic

Optimal Rates for Generalization of Gradient Descent Methods with Deep Neural Networks

📐Optimization Theory Academic

Growing Pains of Starting a Secret Society

📐Optimization Theory Blog

mrmarket.bearblog.dev··Hacker News

See, Act, Correct: three levers for working with a code agent

🎮Reinforcement Learning Blog

blog.owulveryck.info··Hacker News, Hacker News

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖AI Academic

Flatland: The Adventures of Gradient Descent with Large Step Sizes

📐Optimization Theory Academic

Variational Proximal Policy Optimization

🎮Reinforcement Learning Academic

Second-Order Path Kernel Interpolation Formulas in Machine Learning

📐Optimization Theory Academic

Learning Dynamics Reveal a Hierarchy of Weight-Induced Layerwise Gram Metrics

📐Optimization Theory Academic

Predictive Coding with Bayesian Priors via Proximal Gradients

📐Optimization Theory Academic

Stein Kernelized Molecular Dynamics for Active Learning of Interatomic Potentials

📐Optimization Theory Academic

Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin

📉Loss Landscapes Academic

princezuda/-RequiemGPT-: Fully open source and open weights built and trained by fable five with one prompt. An experience in how AI actually works

🤖AI Code

github.com··Hacker News

Duality for Optimal Multi-Item, Multi-Bidder Auction Design: Revenue Certificates through Deep Learning

📐Optimization Theory Academic

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

📐Optimization Theory Academic

Hybridizing Equilibrium Propagation with Ising Machines for Efficient Energy-Based Learning

🤖AI Academic

An Ensembled Latent Factor Model via Differential Evolution and Gradient Descent Optimization

📐Optimization Theory Academic

Log in to enable infinite scrolling