AI 연구진, LLM 추론 비용 및 병목 현상 해결 목표 (opens in new tab)

연구진은 대규모 언어 모델(LLM) 및 멀티모달 모델의 실행 비용을 낮추고, 배포를 용이하게 하며, 메모리 집약도를 줄이는 데 중점을 둔 일련의 AI 시스템과 머신러닝 논문을 발표했습니다. 이번 연구에는 OffQ, PolarQuant, AAAC, MorphoQuant 및 NVFP4 중심의 증류(distillation)와 같은 저비트 양자화 방법과 함께 SigmaScale, Terastal, MACS 및 LLM 추론을 위한 클라우드 자원 할당 휴리스틱을 포함한 압축 및 스케줄링 접근 방식이 포함되었습니다. 여러 논문은 모델 아키텍처 자체보다 운영 비용에 집중했습니다. 한 논문은 vLLM 콜드 스타트 지연 시간을 분석하여 시작 프로세스가 주로 CPU에 의존한다는 점을 발견했으며, LLM 추론 가격에 대한 경제적 분석에서는 2020년부터 2026년까지 토큰 가격이 약 600배 하락했음을 기록하고 2024년 5월을 시장 변곡점으로 식별했습니다. 별도의 블로그 게시물에서는 31시간 동안...

Read the original article