연구자 및 개발자들, LLM 추론 비용 절감 목표로 설정 (opens in new tab)
AI 연구자 및 개발자들이 대규모 언어 모델(LLM) 추론을 더 저렴하고, 빠르고, 신뢰할 수 있으며 측정하기 쉽게 만들기 위한 논문, 도구 및 강의를 발표했습니다. 여기에는 일본 북륙첨단과학기술대학원대학(JAIST)이 주도한 ADASPEC 이라는 다국어 투기적 디코딩(speculative decoding) 프레임워크, 고정된 토큰 예산을 위한 예산 가이드 MCTS에 관한 ICML 2026 논문, 캐시된 응답을 사용한 모델 평가에 관한 논문, 그리고 28가지 LLM 신뢰성 기술을 통합했다고 개발자가 밝힌 소스 공개 신뢰성 라이브러리 가 포함되었습니다. 이번 발표는 프로덕션 및 기기 측 배포 문제도 다루었습니다. 구글은 Chrome, ChromeOS, Pixel Watch 및 Google AI Edge Gallery 앱 전반에서 Gemma 4를 위한 온디바이스 생성형 AI 스택으로 LiteRT-LM을 설명했으며, vLLM과 DeepLearning.AI는 오픈 소스 LLM의 압축,...
Read the original article