🎯 Post-training - inarcissuss · Scour

🤖AI Development arXiv·

The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

Less-relevant results

🧠LLM Research GitHub·

Show HN: NanoEuler – GPT-2 scale model in pure C/CUDA from scratch

Discussed on Hacker News

🧪AI Labs IT之家·

谷歌 Gemini 联席负责人沙泽尔转投 OpenAI，奥尔特曼亲自发文欢迎

🧪AI Labs mittrchina.com·

美国三家最强AI公司，怎么都去搞生命科学了？

🧠LLM Training arXiv·

Attention-Spectrum Regularization for Replay-Free Continual Multimodal LLMs

🤖AI Development Hacker News·

Ask HN: Can Monte Carlo Tree Search Improve AI Outputs?

Discussed on Hacker News

🧠LLM Training arXiv·

Towards Spec Learning: Inference-Time Alignment from Preference Pairs

🧠LLM Training arXiv·

Weight-Space Geometry of Offline Reasoning Training

🧪AI Labs cnbeta.com.tw·

三天内连失两位传奇：谷歌的AI人才大坝正在决堤？

🧠LLM Training arXiv·

Repeated post-training is not Self-improving: Diagnosing Scientific Amnesia in Continual DPO Pipelines

🧠LLM Training arXiv·

Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning

🎯RLHF arXiv·

Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

🗣️Large Language Models arXiv·

Can LLMs Reliably Self-Report Adversarial Prefills, and How?

🧠LLM Training arXiv·

The Geometry of Sequential Learning: Lie-Bracket Prediction of Transfer Order

A Markov Chain Approach to Preference Alignment

🎯Alignment Research arXiv·

Uncertainty-Aware Reward Modeling for Stable RLHF

🧠LLM Training arXiv·

Speculative Decoding at Temperature Zero: A Scoped Safety-Invariance Screen with a 48,072-Sample Expansion

🧠LLM Training arXiv·

Emergent Alignment

Covered by 何夕2077的个人站

📄AI Papers arXiv·

Memory Retrieval in Visuomotor Policies for Long-Horizon Robot Control

🤖AI Development arXiv·

Lightweight Transformer Models for On-Device Fault Detection: A Benchmark Study on Resource-Constrained Deployment

Log in to enable infinite scrolling