AI 팀들, 더 저렴하고 제어 가능한 LLM 배포 방식 모색 (opens in new tab)

Covers 2 stories including Blazing fast on-device GenAI with LiteRT-LM

최근 AI 보고서들은 거대언어모델(LLM) 배포에 있어 추론 비용 절감, 로컬 실행 확대, 에이전트 시스템에 대한 엄격한 제어에 집중하고 있습니다. 한 arXiv 논문은 LLM 캐스케이드를 위한 보정된 라우터인 UCCI를 제안했습니다. 이 시스템은 쉬운 쿼리는 작은 모델로 보내고 어려운 쿼리는 큰 모델로 에스컬레이션하여, H100 GPU에서 4B 및 12B 인스트럭션 튜닝 모델을 사용한 75,000건의 개체명 인식(NER) 작업에서 micro-F1 0.91 기준 추론 비용을 31% 절감했다고 보고했습니다. 구글은 자사의 LiteRT-LM 인프라가 모바일 및 에지 환경에서 Gemma 4를 구동하며, 온디바이스 및 브라우저 추론을 위해 Swift 및 WebGPU 기반 JavaScript API를 추가했다고 밝혔습니다. Computerworld는 IT 리더들이 커스터마이징, 가시성, 비용 제어 및 거버넌스를 추구함에 따라 오픈 웨이트(open-weight) 모델 사용이 늘고 있으며,...

Read the original article