🔎 AI Interpretability - inarcissuss

Ensemble Feature Selection and Harris Hawks Optimization for Explainable Mental Health Risk Prediction in Female Sex Workers

🤖AI arXiv·

Asset Pricing in Pre-trained Transformer

🤖人工智能 arXiv·

Similarity of Neural Network Representations in Superposition

🔍Interpretability arXiv·

A Differentiable Atari VCS:A Complex, Fully Known Ground Truth for Explainable AI

🔬ML Research arXiv·

Localizing RL-Induced Tool Use to a Single Crosscoder Feature

🔬AI Research arXiv·

Refusal Lives Downstream of Persona in Chat Models

🗣️Large Language Models arXiv·

Sentence-Level Contextual Entrainment in Large Language Models

🔍Interpretability arXiv·

Towards Transparent Mental Health Insights: An Explainable AI Model for Career-Related Depression and Anxiety Among University Students Using Structured Data

🧠LLM Research arXiv·

Beyond Importance: Interchange-Sobol Sensitivity Reveals Task-Specific Content Channels in Transformer Components

🔍Interpretability arXiv·

From Weights to Features: SAE-Guided Activation Regularization for LLM Continual Learning

🔬ML Research arXiv·

Few-Shot Hyperspectral Aphid Detection via FastGAN Synthetic Data Generation, Transformer-Based Classification and Explainable AI

⚡Transformers arXiv·

Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention

Covered by ai-brief.liziran.com, Turing Post

⚡LLM Optimization arXiv·

CompressKV: Semantic-Retrieval-Guided KV-Cache Compression for Resource-Efficient Long-Context LLM Inference

🧠LLM Training arXiv·

Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models

🤖人工智能 arXiv·

Explanations for Automatic Speech Recognition

🤖人工智能 arXiv·

Themis: An explainable AI-enabled framework for Reinforcement Learning with Human Feedback

Cascaded Multi-Granularity Pruning for On-Device LLM Inference in Industrial IoT

Evaluating the Interpretability of Sparse Autoencoders with Concept Annotations

What's in an Earth Embedding? An Explainability Analysis of Location Encoders

Ensemble Feature Selection and Harris Hawks Optimization for Explainable Mental Health Risk Prediction in Female Sex Workers

Asset Pricing in Pre-trained Transformer

Similarity of Neural Network Representations in Superposition

A Differentiable Atari VCS:A Complex, Fully Known Ground Truth for Explainable AI

Localizing RL-Induced Tool Use to a Single Crosscoder Feature

Refusal Lives Downstream of Persona in Chat Models

Sentence-Level Contextual Entrainment in Large Language Models

Towards Transparent Mental Health Insights: An Explainable AI Model for Career-Related Depression and Anxiety Among University Students Using Structured Data

Beyond Importance: Interchange-Sobol Sensitivity Reveals Task-Specific Content Channels in Transformer Components

From Weights to Features: SAE-Guided Activation Regularization for LLM Continual Learning

Few-Shot Hyperspectral Aphid Detection via FastGAN Synthetic Data Generation, Transformer-Based Classification and Explainable AI

Grouped Query Experts: Mixture-of-Experts on GQA Self-Attention

CompressKV: Semantic-Retrieval-Guided KV-Cache Compression for Resource-Efficient Long-Context LLM Inference

Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models

Explanations for Automatic Speech Recognition

Extraction and Analysis of Multimodal Concepts in Vision Language Models through Sparse Autoencoders