Deep (Learning) Focus · Scour

cameronrwolfe.substack.com·

Agent Evaluation: A Detailed Guide

Discussed on Substack

cameronrwolfe.substack.com·

RL Scaling Laws for LLMs

Discussed on Substack

cameronrwolfe.substack.com·

The Anatomy of an LLM Benchmark

Discussed on Substack

cameronrwolfe.substack.com·

Applying Statistics to LLM Evaluations

Discussed on Substack

cameronrwolfe.substack.com·

Rubric-Based Rewards for RL

Discussed on Substack

cameronrwolfe.substack.com·

Continual Learning with RL for LLMs

Discussed on Substack

cameronrwolfe.substack.com·

GRPO++: Tricks for Making RL Actually Work

Discussed on Substack

cameronrwolfe.substack.com·

Olmo 3 and the Open LLM Renaissance

Discussed on Substack

cameronrwolfe.substack.com·

Group Relative Policy Optimization (GRPO)

Discussed on Substack

cameronrwolfe.substack.com·

PPO for LLMs: A Guide for Normal People

Discussed on Substack

cameronrwolfe.substack.com·

REINFORCE: Easy Online RL for LLMs

Discussed on Substack

cameronrwolfe.substack.com·

Online versus Offline RL for LLMs

Discussed on Substack

cameronrwolfe.substack.com·

GPT-OSS from the Ground Up

Discussed on Substack

cameronrwolfe.substack.com·

Direct Preference Optimization (DPO)

Discussed on Substack

cameronrwolfe.substack.com·

Reward Models

Discussed on Substack

cameronrwolfe.substack.com·

AI Agents from First Principles

Discussed on Substack

cameronrwolfe.substack.com·

A Guide for Debugging LLM Training Data

Discussed on Substack

cameronrwolfe.substack.com·

Llama 4: The Challenges of Creating a Frontier-Level LLM

Discussed on Substack

cameronrwolfe.substack.com·

Vision Large Language Models (VLLMs)

Discussed on Substack

cameronrwolfe.substack.com·

NanoMoE: Mixture-of-Experts (Moe) LLMs from Scratch in PyTorch

Discussed on Substack

Log in to enable infinite scrolling