kite.kagi.com

AI 팀들, 더 저렴하고 제어 가능한 LLM 배포 방식 모색 (opens in new tab)

최근 AI 보고서들은 거대언어모델(LLM) 배포에 있어 추론 비용 절감, 로컬 실행 확대, 에이전트 시스템에 대한 엄격한 제어에 집중하고 있습니다. 한 arXiv 논문은 LLM 캐스케이드를 위한 보정된 라우터인 UCCI를 제안했습니다. 이 시스템은 쉬운 쿼리는 작은 모델로 보내고 어려운 쿼리는 큰 모델로 에스컬레이션하여, H100 GPU에서 4B 및 12B 인스트럭션 튜닝 모델을 사용한 75,000건의 개체명 인식(NER) 작업에서 micro-F1 0.91 기준 추론 비용을 31% 절감했다고 보고했습니다. 구글은 자사의 LiteRT-LM 인프라가 모바일 및 에지 환경에서 Gemma 4를 구동하며, 온디바이스 및 브라우저 추론을 위해 Swift 및 WebGPU 기반 JavaScript API를 추가했다고 밝혔습니다. Computerworld는 IT 리더들이 커스터마이징, 가시성, 비용 제어 및 거버넌스를 추구함에 따라 오픈 웨이트(open-weight) 모델 사용이 늘고 있으며,...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help