🔍 Interpretability - Bingran · Scour

Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability

💬LLMs Academic

The Standard Interpretable Model: A general theory of interpretable machine learning to deductively design interpretable methods using Lagrangian mechanics

🖥️ML Systems Academic

Trajectory Geometry of Transformer Representations Across Layers

🔄Transformers Academic

Sparse probes and murky physics: a case study of interpretability challenges in a foundation model for continuum dynamics

🧠AI Research Academic

Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs

💬LLMs Academic

Inside the Visual Mind: Neuroscience-Motivated Concept Circuits for Interpreting and Steering Vision Transformers

🔄Transformers Academic

Phase Transitions in Attention: A Bayesian Theory of Copy Head Emergence

🔄Transformers Academic

Sparse Autoencoders Reveal Interpretable and Steerable Features in VLA Models

📉Deep Learning Academic

ICA Lens: Interpreting Language Models Without Training Another Dictionary

💬LLMs Academic

Where does Absolute Position come from in decoder-only Transformers?

🔄Transformers Academic

Closure-Validated Circuit Discovery in Attention Heads: Co-activation Proposes, Ablation Disposes

🔄Transformers Academic

Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

📉Deep Learning Academic

Shared Semantics, Divergent Mechanisms: Unsupervised Feature Discovery by Aligning Semantics and Mechanisms

🧠AI Research Academic

A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders

📉Deep Learning Academic

Pre-Intervention Prediction of Sparse Autoencoder Steering Side Effects

💬LLMs Academic

Steering Multirobot Behavior via Closed-Loop Affine Activation Editing

🎮Reinforcement Learning Academic

Ablation-Reversible Heads Don't Transfer: A Stress Test for Mechanistic Role Claims in Transformers

🔄Transformers Academic

LLM Self-Recognition: Steering and Retrieving Activation Signatures

🧠AI Research Academic

Temporal Preference Concepts and their Functions in a Large Language Model

💬LLMs Academic

SAEExplainer: Interpreting SAE Features with Activation-Guided Preference Optimization

🔄Transformers Academic

Log in to enable infinite scrolling