📋 Text Quality - emschwartz · Scour

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🤖AI Academic

Measuring Embedding Drift: Why Hybrid Search Saves Stale Models.

🔗Hybrid Search

pub.towardsai.net

·

Law Professors Prefer AI over Peer Answers

🏆LLM Benchmarking Academic

law.stanford.edu··Hacker News

Stack Overflow didn't just help AI learn to code

zozo123.github.io··Hacker News

Evaluating using Mock Tool Calls to Quarantine Untrusted Prompt Inputs

🪄Prompt Engineering

lesswrong.com·

How to Train Your Goblin

goblins.mchen.workers.dev··Hacker News, Hacker News

Nvidia Nemotron 3 Ultra

research.nvidia.com··Hacker News

$\tau$-Rec: A Verifiable Benchmark for Agentic Recommender Systems

🎲Recommendation Systems Academic

Prompt Injection Defense Pipeline

💉Prompt Injection

emergentmind.com·

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🤖AI Academic

Phoenix

🔄LLM RAG Pipelines

Lost in the Flow with Code Talkers: Unveiling the Instruction-Tuning Tax of Large Language Models in Code Tasks

🪄Prompt Engineering Academic

How accurate is speech-to-text in 2026?

🔤Tokenization Blog

assemblyai.com·

Why We Stopped Using Classic Metrics to Evaluate Our LLMs

🔄LLM RAG Pipelines

pub.towardsai.net

·

Neglected Basics of AI Alignment

🛡️AI Safety

lesswrong.com·

A Unifying Lens on Reward Uncertainty in RLHF

🤖AI Academic

AI agent performance metrics: what to track and why

🕳LLM Vulnerabilities Blog

A Regret Minimization Framework on Preference Learning in Large Language Models

🤖AI Academic

Less-relevant results

🔬Scaling Past Informal AI - Carina Hong, Axiom Math

latent.space··Hacker News

When Languages Disagree: Self-Evolving Multilingual LLM Judges

🏆LLM Benchmarking Academic

Log in to enable infinite scrolling