kite.kagi.com

개발자들, 다양한 기기에서 로컬 AI 도구 선보여 (opens in new tab)

5월 19일부터 6월 8일까지 게시되거나 업데이트된 개발자 포스트 및 프로젝트 페이지에서는 NVIDIA RTX 5090에서 Qwen3.6-35B-A3B-Q6_K를 실행하기 위한 Windows 워크스테이션 설정, Ollama 기반의 에이전트형 개발자 플랫폼, Llama 3.2-1B의 LoRA 미세 조정(fine-tune), llama.cpp 저장소, 그리고 엣지 기기 전반에 걸친 Gemma 4 배포를 위한 구글의 LiteRT-LM 런타임 등 로컬 및 온디바이스 생성형 AI에 관한 작업들이 설명되었습니다. 소스들은 상업적 출시보다는 구현 세부 사항에 집중하고 있습니다. RTX 5090 관련 포스트에 따르면 llama.cpp 포크와 TurboQuant KV-캐시 압축을 통해 단일 32GB GPU에서 35B 전문가 혼합(MoE) 모델에 대해 450,000 토큰의 컨텍스트 창을 확보할 수 있었으며, 구글은 LiteRT-LM이 LiteRT, 가속 커널 및 최적화된 오케스트레이션을 사용하여...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help