6월 3-4일에 유포된 AI 연구 논문 및 엔지니어링 포스트들은 거대 언어 모델(LLM)이 코드를 작성하고, 위험 결정을 내리고, 텍스트를 번역하고, 사람을 시뮬레이션하며, 프로덕션 워크로드를 처리할 때 어떻게 행동하는지 조사했습니다. CodegenBench를 소개한 arXiv 논문은 최첨단 LLM이 x86_64용 최적화 코드를 생성할 수 있지만, 공개 문서와 학습 데이터가 적은 도메인 특화 Sunway 및 Kunpeng 아키텍처에서는 성능이 저하된다고 밝혔습니다. 또 다른 arXiv 논문은 46,535건의 통제된 코드 생성 실험을 보고했으며, 부수적인 프롬프트 단서가 알고리즘 제품군 선택을 최대 100퍼센트 포인트까지 변화시킬 수 있는 반면, 출력물은 여전히 동일한 테스트를 통과한다는 것을 발견했습니다. 다른 논문들은 평가 타당성과 배포를 조사했습니다. 155명의 NLP 및 관련 분야 연구원을 대상으로 한 크라우드소싱 설문 조사에 따르면, 44%가 크라우드소싱된 자유 형식 텍...

Read the original article