파이썬은 OK, 문서는 위험···AI 한계 드러낸 MS 연구 (opens in new tab)

19개의 대규모 언어모델(LLM)이 복잡한 다단계 작업을 얼마나 잘 수행하는지를 평가한 실험 결과, 이들 모델은 오류 발생 가능성이 높고 많은 경우 신뢰하기 어려운 것으로 나타났다. 이 같은 결과는 MS 연구진 필립 라반, 토비아스 슈나벨, 제니퍼 네빌이 공동 작성한 사전 공개 논문 ‘LLMs Corrupt Your Documents When You Delegate’에 담겼다. 연구진은 ‘DELEGATE-52’라는 벤치마크를 통해 지식 노동자의 실제 업무 흐름을 모사했으며, 해당 논문은 현재 동료 검토를 진행 중이다. 연구진에 따르면 이 벤치마크는 코딩, 결정학, 계보학, 악보 표기 등 52개 전문 분야에 걸친 310개의 작업 환경으로 구성됐다. 각 환경은 약 1만 5,000 토큰 분량의 실제 문서와, 사용자가 LLM에 요청할 수 있는 5~10개의 복잡한 편집 작업으로 이루어져 있다. 연구진은 논문 초록에서 “현재 LLM은 신뢰할 수 있는 업무 대리자가 아니며, 드물지만 치명적...

Read the original article