我们用150个任务测试了30个skill，跑出7个反直觉结论 (opens in new tab)

文｜lambda、晓静编辑｜徐青阳 2026上半年，skill数量井喷。很多公司在把所有的内部工作流程skill化，给大模型加上一个skill，模型就被期待能“立刻变专业”。但当Skill数量从十几个膨胀到几百个，一个朴素的问题被反复提起：装上Skill，是不是真的就一定更强大？带着这个疑问，我们在TRACE严选评测中做了系统化的实验。我们没有采用“看下载榜”或“跑一次给个分”的轻量做法，而是在统一的prompt、统一的裁判和统一的评测口径下，让每个Skill与“裸模型”（no-skill）跑完150 组任务级对比、30个Skill的成本与稳定性、107 条规范性问题、以及一轮跨模型推理强度的可迁移性测试。关于TRACE严选评测的详细介绍，可以查看《3张图、5000字，认真聊聊什么才是好的skill》。在持续评测Skill的过程中，我们整理出7个最值得关注的发现，并将相关实验数据、评测过程和机制解释集中公开。其中很多结论，出乎我们的意料。 01 有Skill不一定效果更好我们装Skill的最初想法，是让大模型或通用Agent，获得更强的某方面的专业能力。但是在实...

Read the original article