🎯 Post-training - amy_yunduo

E-MRL: Cross-view Aligned Evidence-driven Multimodal Reinforcement Learning for Reliable 3D Tumor Analysis

🏗️AI Infra arXiv·

EvoOptiGraph: Weakness-Driven Coevolution via Graph-Based Structural Generation for Optimization Modeling

🗄️Vector Databases arXiv·

Scaling Multi-Reference Image Generation with Dynamic Reward Optimization

🏗️AI Infra arXiv·

WinDOM: Self-Family Distillation for Small-Model GUI Grounding

🛡️AI Safety BLiTZ·

Why did Finland just lift a ban on nuclear weapons?

Covers Finland tears up nuclear weapons ban in NATO shift

📚RAG arXiv·

Retrieval-Augmented Personalization with Foundation Models for Wearable Stress Detection

🔭Observability GitHub·

Hellotravisss/cloakpii: PII desensitization + AES-256-GCM encryption + compliance reporting for cross-border data transfers (PIPL / PDPA / GDPR). Pytho...

🧠LLMs arXiv·

\textsc{DiARC}: Distinguishing Positive and Negative Samples Helps Improving ARC-like Reasoning Ability of Large Language Models

📊LLM Evaluation arXiv·

Riazi-8B: An Urdu Large Language Model for Mathematical Reasoning

🧠LLMs Forbes·

Solution To The Curious Mystery Of Why AI Keeps Inventing The Same Fake Names Over And Over Again

🔄MLOps arXiv·

NebulaExp-8B: An Empirical Post-Training Pipeline via Full-Scale Ablation Research

📊LLM Evaluation arXiv·

The Geometry of Sequential Learning: Lie-Bracket Prediction of Transfer Order

✍️Prompt Engineering arXiv·

Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

🧠LLMs arXiv·

Towards Explainable Adjudicative Variance: Quantifying Judicial Discretion via Gated Multi-Task Learning

🛡️AI Safety arXiv·

ASSCG: Just-Right Gating over Chattering for Fast-Slow LLM Planning in Autonomous Driving

🛡️AI Safety arXiv·

IEEE Rolls Out Large Language Models Virtual Training Course

The Hitchhiker's Guide to Agentic AI: From Foundations to Systems

Announcing Next-Edit in Kilo, Powered by Inception

What the Taliban wants from Europe

E-MRL: Cross-view Aligned Evidence-driven Multimodal Reinforcement Learning for Reliable 3D Tumor Analysis

EvoOptiGraph: Weakness-Driven Coevolution via Graph-Based Structural Generation for Optimization Modeling

Scaling Multi-Reference Image Generation with Dynamic Reward Optimization

WinDOM: Self-Family Distillation for Small-Model GUI Grounding

Why did Finland just lift a ban on nuclear weapons?

Retrieval-Augmented Personalization with Foundation Models for Wearable Stress Detection

Hellotravisss/cloakpii: PII desensitization + AES-256-GCM encryption + compliance reporting for cross-border data transfers (PIPL / PDPA / GDPR). Pytho...

\textsc{DiARC}: Distinguishing Positive and Negative Samples Helps Improving ARC-like Reasoning Ability of Large Language Models

Riazi-8B: An Urdu Large Language Model for Mathematical Reasoning

Solution To The Curious Mystery Of Why AI Keeps Inventing The Same Fake Names Over And Over Again

NebulaExp-8B: An Empirical Post-Training Pipeline via Full-Scale Ablation Research

The Geometry of Sequential Learning: Lie-Bracket Prediction of Transfer Order

Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

Towards Explainable Adjudicative Variance: Quantifying Judicial Discretion via Gated Multi-Task Learning

ASSCG: Just-Right Gating over Chattering for Fast-Slow LLM Planning in Autonomous Driving

MAGNIFIED: RL Fine-tuning of Multimodal Large Language Models for Motion Planning