网络安全研究人员质疑Anthropic Fable安全护栏过于严格 - AI 人工智能 (opens in new tab)

Anthropic 在今年 4 月推出 Mythos 时，选择通过名为“Project Glasswing”的计划，仅向少量企业和机构开放，意在借助该模型帮助保护关键软件和基础设施。上周，Anthropic 又宣布将 Mythos 的使用范围扩展到 15 个国家的数百家机构，进一步推动这类高能力安全模型在关键行业落地。不过，在 Fable 面向公众开放后，其“降配版”安全策略在专业用户中遭到强烈质疑，不少人认为实际体验与官方宣传存在明显落差。长期从事网络安全工作的 Matt Suiche 表示，Fable 在判断请求是否与网络安全相关时表现得非常生硬。他举例称，如果用户提出“编写安全代码”的需求，Fable 会倾向于将其视为网络安全工作，而非软件工程最佳实践指导，从而直接触发降级机制。一旦触发护栏，Fable 会自动回退至能力更弱的 Claude Opus 4.8 来继续对话。 Suiche 认为，Fable 的判断逻辑看起来高度依赖关键词，“只要落在‘网络安全’语义场里的词，很容易就被安全系统拦截”。尽管如此，Suiche 也对当前阶段的严苛设置表示一定程度理解，认为在...

Read the original article