kite.kagi.com

새로운 연구들, 고위험 활용 분야에서 LLM 신뢰성 테스트 (opens in new tab)

6월 3-4일에 유포된 AI 연구 논문 및 엔지니어링 포스트들은 거대 언어 모델(LLM)이 코드를 작성하고, 위험 결정을 내리고, 텍스트를 번역하고, 사람을 시뮬레이션하며, 프로덕션 워크로드를 처리할 때 어떻게 행동하는지 조사했습니다. CodegenBench를 소개한 arXiv 논문은 최첨단 LLM이 x86_64용 최적화 코드를 생성할 수 있지만, 공개 문서와 학습 데이터가 적은 도메인 특화 Sunway 및 Kunpeng 아키텍처에서는 성능이 저하된다고 밝혔습니다. 또 다른 arXiv 논문은 46,535건의 통제된 코드 생성 실험을 보고했으며, 부수적인 프롬프트 단서가 알고리즘 제품군 선택을 최대 100퍼센트 포인트까지 변화시킬 수 있는 반면, 출력물은 여전히 동일한 테스트를 통과한다는 것을 발견했습니다. 다른 논문들은 평가 타당성과 배포를 조사했습니다. 155명의 NLP 및 관련 분야 연구원을 대상으로 한 크라우드소싱 설문 조사에 따르면, 44%가 크라우드소싱된 자유 형식 텍...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help