🔬 Interpretability - sunzhongxiang · Scour

A Geometric View for Understanding Concept Learning and Neuron Interpretation in Sparse Autoencoders

🧠Cognitive Neurosciens for AI Academic

Self-Explainability in Self-Adaptive and Self-Organising Systems: Status and Research Directions

🎯Alignment Academic

Shared Semantics, Divergent Mechanisms: Unsupervised Feature Discovery by Aligning Semantics and Mechanisms

💾Memory Systems Academic

Decoding Naturalistic Emotion Dynamics from the Brain: An LLM-Enhanced Regression Framework

🧠Neuroscience Academic

Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

🌀Hallucination Academic

Shared Latent Structures Enable Unified Backdoor Detection and Mitigation in LLMs

💾Memory Systems Academic

Temporal Preference Concepts and their Functions in a Large Language Model

💾Memory Systems Academic

TEVI: Text-Conditioned Editing of Visual Representations via Sparse Autoencoders for Improved Vision-Language Alignment

🎨Multimodal AI Academic

AI-Native Closed-Loop Security for 6G-Enabled Cyber-Physical Systems: From Edge Detection to Network-Wide Mitigation

🎯Alignment Academic

Explainable AI-Driven Cyber Risk Analytics and Model Reliability Assessment for Intelligent Governance of U.S. Critical Infrastructure: An XGBoost and SHAP-Based Intrusion Detection Framework

🎯Alignment Academic

Mechanistic Insights into Functional Sparsity in Multimodal LLMs via CoRe Heads

🎨Multimodal AI Academic

A Unifying Framework for Concept-Based Representational Similarity

🔍RAG Academic

The Tell-Tale Norm: $\ell_2$ Magnitude as a Signal for Reasoning Dynamics in Large Language Models

🧠Cognitive Neurosciens for AI Academic

Priors Persist Through Suppression: A Stroop Paradigm for Lexical Override

💾Memory Systems Academic

Vision-Language Asymmetry in Bistable Image Captioning

🎨Multimodal AI Academic

The Amplifying Mirror: Locating and Steering the Partisan Direction inside a Large Language Model

🔍RAG Academic

DiffoR: A Unified Continuous Generative Framework for Universal Ordinal Regression

🎯Alignment Academic

When Built-in Thinking Helps and Hurts: Constraint-Level Error Shifts in Instruction Following

💾Memory Systems Academic

Position: Don't Just "Fix it in Post": A Science of AI Must Study Training Dynamics

🧠Cognitive Neurosciens for AI Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🎯Alignment Academic

Sign up or log in to see more results

Log in to enable infinite scrolling