🤖 ML - friedrice · Scour

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

⚙️Mechanical Sympathy Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🎯Embedding Models Academic

A Unifying Lens on Reward Uncertainty in RLHF

🎲Probability Academic

Pretraining Recurrent Networks without Recurrence

🔍SPLADE Academic

Hybridizing Equilibrium Propagation with Ising Machines for Efficient Energy-Based Learning

⚛️Quantum Computing Academic

Beyond Patches: Superpixel Token-based Transformers for Attribute-Specific Fashion Retrieval

🔍Information Retrieval Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🔍Information Retrieval Academic

Sequential Data Poisoning in LLM Post-Training

🗜️Compression Algorithms Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

⚙️Adaptive Execution Academic

Signed Dual Attention: Capturing Signed Dependencies in Time Series Forecasting

🔍Information Retrieval Academic

Toward Compiler World Models: Learning Latent Dynamics for Efficient Tensor Program Search

🧮Constraint Solvers Academic

Towards Tight Bounds for Streaming Attention

🧩Complexity Theory Academic

GenAutoML: An Agentic Framework for Dynamic Architecture Generation and Optimization in Time-Series Analysis

🔄Incremental Computation Academic

Perturbative Contrastive Physical Learning

🎯Physics Simulation Academic

GOTabPFN: From Feature Ordering to Compact Tokenization for Tabular Foundation Models on High-Dimensional Data

💰Cost-Based Optimization Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

🎯Embedding Models Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

💰Cost-Based Optimization Academic

Reconstructing Multi-Decadal Forest Disturbances: A Spatio-Temporal Transformer Approach

〰️Signal Processing Academic

Q-VGM: Q-Guided Value-Gradient Matching for Flow-Matching VLA Policies

🧮SMT Solvers Academic

Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling

📉Embeddings Optimization Academic

Log in to enable infinite scrolling