很多人习惯用各类 AI 工具查资料、找答案,默认 AI 会遍历全网内容,整合出最全的信息。 最近我用开源工具 geo-optimizer-skill 做了一轮实测,专门模拟 AI 爬虫... (opens in new tab)
很多人习惯用各类 AI 工具查资料、找答案,默认 AI 会遍历全网内容,整合出最全的信息。最近我用开源工具 geo-optimizer-skill 做了一轮实测,专门模拟 AI 爬虫访问主流平台。工具主要检测三项指标:站点是否允许爬虫访问、能否正常读取内容、内容是否可引用,满分 100 分。实测结果和大众认知有不小偏差,整理了主流平台得分:百度:4 分页面明确标注禁止所有 AI 爬虫访问,这也意味着,百度百科的内容,AI 完全无法获取。微博:29 分日活极高的社交热点阵地,AI 进入页面后,仅能读取到 3 个有效词汇,全网热点讨论、用户观点,AI 基本处于 “失明” 状态。淘宝:34 分头部电商平台,AI 只能抓取到藏在代码里的 88 个零散字符,数十万商品详情、用户评价均无法读取。京东:31 分 / B 站:22 分前者对 AI 访问限制较多,后者首页被验证码拦截,海量视频内容 AI 完全无法解析。核心结论目前国内主流互联网平台,大多对 AI 爬虫存在限制:有的直接封禁、有的页面结构导致 AI 只能读到空壳。这就造成一个现实问题:无论是豆包、Kimi、ChatGPT 等大模型,...
Read the original article