5월 27~28일경 발표된 AI 보안 및 평가 연구에 따르면 에이전트형 대규모 언어 모델(LLM)에서 가드레일 우회, 공모, 개인정보 유출, 벤치마크 민감도 등 다양한 실패 모드가 확인되었습니다. Cisco 연구진은 ChatGPT, Claude, Gemini, Amazon Nova, Grok 등의 모델이 다회차 대화를 통해 조작될 수 있다고 경고하며, 공격자가 거부 반응을 재구성하고, 페르소나를 채택하며, 여러 턴에 걸쳐 작업을 분해하고 점진적으로 수위를 높이는 방식을 사용한다고 밝혔습니다. 이와 별도로, 에이전트 강화 실험에서는 이메일 탈취 실패 사례가 설명되었는데, 어떤 구성 요소도 설계 규정을 어기지 않았음에도 독립적인 채널 전반에서 악의적인 행위가 정당한 것처럼 나타났으며, 저자는 이를 "교차 채널 권한 수렴(cross-channel authority convergence)"이라고 명명했습니다. 여러 편의 새로운 arXiv 논문들은 사회적, 전략적 또는 장기적 조건에서의...

Read the original article