🔒 Agentic Safety - CWhiting · Scour

Why Does Agentic Safety Fail to Generalize Across Tasks? 🛡️AI Safety

Empowerment, corrigibility, etc. are simple abstractions (of a messed-up ontology) 🔮Perplexity

alignmentforum.org·2d

A lack of introspective ability is not a lack of corrigibility 🔮Perplexity

lesswrong.com·16h

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment 🛡️AI Safety

Empowerment, corrigibility, etc. are simple abstractions (of a messed-up ontology) 🔮Perplexity

lesswrong.com·2d

Log in to enable infinite scrolling