🧠 LLM Training - inarcissuss

Discussed on DEV

🧠LLM Research arXiv·

Provably Efficient Policy-Reward Co-Pretraining for Adversarial Imitation Learning

🤖AI Development GitHub·

Show HN: Alloy – a PyTorch backend and inference engine for Apple Silicon

Discussed on Hacker News

🔀LoRA arXiv·

Memory-Efficient Policy Libraries with Low-Rank Adaptation in Reinforcement Learning

🎮Reinforcement Learning arXiv·

Weight-Space Geometry of Offline Reasoning Training

🎯Post-training arXiv·

Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment

🔬ML Research arXiv·

The Geometry of Sequential Learning: Lie-Bracket Prediction of Transfer Order

🧠LLM Research arXiv·

Emergent Capabilities Arise Randomly from Learning Sparse Attention Patterns

🧠LLM Research arXiv·

TuringViT: Making SOTA Vision Transformers Accessible to All

🎮Reinforcement Learning arXiv·

Towards Scalable Multi-Task Reinforcement Learning with Large Decision Models

🧠LLM Research arXiv·

Where Does the Signal Live? A Web Data Recipe for Medical Encoder Pretraining

🧠LLM Research arXiv·

Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining

🏆LLM Benchmarking arXiv·

Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning

🧠LLM Engineering arXiv·

Priority-Aware Learning-Unlearning Correction for Dynamic Decentralized LoRA Fine-Tuning

🧠LLM arXiv·

EPTS: Elastic Post-Training Sparsity for Efficient Large Language Model Compression

🧠LLM Research arXiv·

Technical Report for the ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Pretraining-Diverse Ensemble of Foundation Vision Encoders for Robust ...

🔍Interpretability arXiv·

Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models

🧠LLM Engineering arXiv·

Enhancing LLMs for Graph Tasks via Graph-aware LoRA Generation

🎯RLHF arXiv·

moBERTo: A Modern Encoder for Portuguese via Continued Pretraining of ModernBERT

QLoRA: Fine-Tuning a 7B Model on a 16GB GPU (It Shrank to 5.4GB in Front of Me)

Provably Efficient Policy-Reward Co-Pretraining for Adversarial Imitation Learning

Show HN: Alloy – a PyTorch backend and inference engine for Apple Silicon

Memory-Efficient Policy Libraries with Low-Rank Adaptation in Reinforcement Learning

Weight-Space Geometry of Offline Reasoning Training

Aligning MusicLLM with Emotion using Instruction Tuning and Feedback-Driven Alignment

The Geometry of Sequential Learning: Lie-Bracket Prediction of Transfer Order

Emergent Capabilities Arise Randomly from Learning Sparse Attention Patterns

TuringViT: Making SOTA Vision Transformers Accessible to All

Towards Scalable Multi-Task Reinforcement Learning with Large Decision Models

Where Does the Signal Live? A Web Data Recipe for Medical Encoder Pretraining

Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining

Cliff Tokens: Identifying Single-Token Failure Triggers in LLM Mathematical Reasoning

Priority-Aware Learning-Unlearning Correction for Dynamic Decentralized LoRA Fine-Tuning

EPTS: Elastic Post-Training Sparsity for Efficient Large Language Model Compression

Technical Report for the ICRA 2026 GOOSE 2D Fine-Grained Semantic Segmentation Challenge: Pretraining-Diverse Ensemble of Foundation Vision Encoders for Robust ...

Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models

Enhancing LLMs for Graph Tasks via Graph-aware LoRA Generation

Repeated post-training is not Self-improving: Diagnosing Scientific Amnesia in Continual DPO Pipelines