6월 8일경 발표된 일련의 AI 에이전트 논문, 벤치마크 및 개발자 도구는 자율 시스템이 컴퓨터를 사용하고, 웹을 탐색하고, 코드를 편집하고, 도구에 연결하고, 거버넌스를 시행하는 방법에 초점을 맞췄습니다. 이번 발표에는 50개 애플리케이션을 아우르는 421개 작업의 macOS 벤치마크인 MacArena, 장기 실행 모니터링 에이전트를 위한 100개 작업 벤치마크인 SentinelBench, 저장소 탐색을 위한 848개 이슈 벤치마크인 SWE-Explore, 실제 OpenClaw 개발자 에이전트 세션으로 구축된 281개 작업 벤치마크인 RealClawBench가 포함되었습니다. 보안 및 거버넌스는 발표 전반에서 두드러졌습니다. TRAP은 6개의 프런티어 모델에 걸친 웹 에이전트가 평균 25%의 작업에서 프롬프트 주입 유도에 따랐다고 보고했으며, EVA는 시맨틱 환경 단서를 통한 GUI 에이전트에 대한 공격 성공률을 보고했고, FSTab은 LLM 생성 소프트웨어에서 관찰 가능한 ...

Read the original article