⚙️ Model Training - Bingran · Scour

BacteReason: A Reasoning Model for Antimicrobial Resistance Prediction

📐Scaling Laws Academic

Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

🎮Reinforcement Learning Academic

Parameter-Efficient Adapter Tuning for Tabular-Image Multimodal Learning

🧠AI Research Academic

ApodexAI/AgentHarness: Evaluation harness for Apodex-1.0 on public deep-research benchmarks.

📐Scaling Laws Code

github.com··Hacker News

When Probing Accuracy Saturates, Fragility Resolves: A Complementary Metric for LLM Pre-Training Analysis

💬LLMs Academic

(Mis)generalization of Helpful-Only Fine-tuning

🎮Reinforcement Learning

lesswrong.com·

ViP-VL: Vietnamese Self-supervised Speech Pretraining Model with Vector-Quantization Learning

💬LLMs Academic

mirkolenz/llmhop: Tiny, stateless Go router that dispatches OpenAI-compatible requests to single-model vLLM and sglang backends with zero external dependencies

💬LLMs Code

github.com··Hacker News

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

🎮Reinforcement Learning Academic

Corpus Augmentation for Sign Language Translation via LLM-Guided Video Stitching

💬LLMs Academic

heterodoxin/graphkv: Graph-guided KV cache compression for memory-efficient LLM inference.

💬LLMs Code

github.com··r/LocalLLaMA

A Unifying Lens on Supervised Fine-Tuning Through Target Distribution Design

🎮Reinforcement Learning Academic

If Claude Fable stops helping you, you'll never know

💬LLMs Blog

jonready.com··Lobsters, Hacker News

Training Deliberative Monitors for Black-Box Scheming Detection

🎮Reinforcement Learning

lesswrong.com·

Simplicity Suffices for Parameter Noise Injection in Stochastic Gradient Descent

📉Deep Learning Academic

Does anyone know what PCIe mode was used for these benchmarks?

💬LLMs Code

github.com··r/LocalLLaMA

Harness In-Context Operator Learning with Chain of Operators

💬LLMs Academic

PriFT: Prior-Support Guided Supervised Fine-Tuning

🎮Reinforcement Learning Academic

SlideCheck: Guiding Self-Supervised Pretraining of Pathology Foundation Models via Dataset Distributions

💬LLMs Academic

The Art of Interrogation: Consistency Amplifies Factuality in Spatial Reasoning

🎮Reinforcement Learning Academic

Sign up or log in to see more results

Log in to enable infinite scrolling