Codex 的 computer use:OpenAI 展示新的 AI 队友能力 (opens in new tab)
📌 One-Sentence Summary OpenAI 演示 Codex computer use,展示智能体如何操作本地 GUI 应用、在后台多任务执行、利用 accessibility 数据,并受限于按应用授权的权限边界。 📝 Summary 这是一次信息密度很高的 Codex computer use 产品与架构演示。它的价值不只是展示功能,而是说明当一个 coding agent 能够操作图形界面后,工作边界会发生什么变化:它可以在 UTM 里创建虚拟机,在 Spotify 和 Reminders 等应用之间协同任务,快速发送消息,并用独立 cursor 在后台继续工作,不打断用户当前操作。技术部分尤其有用,因为视频明确提到系统结合了多模态屏幕理解和 accessibility framework,使 Codex 能够更准确地读取文本和交互 UI 元素,而不是只依赖截图。Spark 的讨论也很关键:在某些任务里,快速的非多模态模型可以通过结构化 UI 信息完成操作,避免图像处理带来的延迟。安全设计则落在按应用授权上,这是本地 computer use 最重要的信任边界...
Read the original article