weixin.sogou.com

我们用150个任务测试了30个skill,跑出7个反直觉结论 (opens in new tab)

文|lambda、晓静 编辑|徐青阳 2026上半年,skill数量井喷。很多公司在把所有的内部工作流程skill化,给大模型加上一个skill,模型就被期待能“立刻变专业”。 但当Skill数量从十几个膨胀到几百个,一个朴素的问题被反复提起: 装上Skill,是不是真的就一定更强大? 带着这个疑问,我们在TRACE严选评测中做了系统化的实验。我们没有采用“看下载榜”或“跑一次给个分”的轻量做法,而是在统一的prompt、统一的裁判和统一的评测口径下,让每个Skill与“裸模型”(no-skill)跑完150 组任务级对比、30个Skill的成本与稳定性、107 条规范性问题、以及一轮跨模型推理强度的可迁移性测试。 关于TRACE严选评测的详细介绍,可以查看 《3张图、5000字,认真聊聊什么才是好的skill》 。 在持续评测Skill的过程中,我们整理出7个最值得关注的发现,并将相关实验数据、评测过程和机制解释集中公开。其中很多结论,出乎我们的意料。 01 有Skill不一定效果更好 我们装Skill的最初想法,是让大模型或通用Agent,获得更强的某方面的专业能力。但是在实...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help