AgentLens: Interpretable Safety Steering via Mechanistic Subspaces for Multi-Turn Coding Agent (opens in new tab)

Coding agents based on large language models (LLMs) demonstrate remarkable autonomous capabilities, but they also introduce significant safety and misuse risks during multi-turn interactions with external environments. Existing safety mechanisms mainly rely on external guardrails, which have a limited ability to perform fine-grained behavioral control during execution. Meanwhile, recent mechanistic interpretability methods for LLM safety are mos...

Read the original article