网络安全研究人员质疑Anthropic Fable安全护栏过于严格 - AI 人工智能 (opens in new tab)
Anthropic 在今年 4 月推出 Mythos 时,选择通过名为“Project Glasswing”的计划,仅向少量企业和机构开放,意在借助该模型帮助保护关键软件和基础设施。 上周,Anthropic 又宣布将 Mythos 的使用范围扩展到 15 个国家的数百家机构,进一步推动这类高能力安全模型在关键行业落地。 不过,在 Fable 面向公众开放后,其“降配版”安全策略在专业用户中遭到强烈质疑,不少人认为实际体验与官方宣传存在明显落差。长期从事网络安全工作的 Matt Suiche 表示,Fable 在判断请求是否与网络安全相关时表现得非常生硬。 他举例称,如果用户提出“编写安全代码”的需求,Fable 会倾向于将其视为网络安全工作,而非软件工程最佳实践指导,从而直接触发降级机制。 一旦触发护栏,Fable 会自动回退至能力更弱的 Claude Opus 4.8 来继续对话。 Suiche 认为,Fable 的判断逻辑看起来高度依赖关键词,“只要落在‘网络安全’语义场里的词,很容易就被安全系统拦截”。尽管如此,Suiche 也对当前阶段的严苛设置表示一定程度理解,认为在...
Read the original article