개발자들, 다양한 기기에서 로컬 AI 도구 선보여 (opens in new tab)

Covers 2 stories including GitHub here . You can follow the build instructions below as well. Change -DGGML_CUDA=ON to -DGGML_CUDA=OFF if you don't have a GPU or just want CPU inferen...

5월 19일부터 6월 8일까지 게시되거나 업데이트된 개발자 포스트 및 프로젝트 페이지에서는 NVIDIA RTX 5090에서 Qwen3.6-35B-A3B-Q6_K를 실행하기 위한 Windows 워크스테이션 설정, Ollama 기반의 에이전트형 개발자 플랫폼, Llama 3.2-1B의 LoRA 미세 조정(fine-tune), llama.cpp 저장소, 그리고 엣지 기기 전반에 걸친 Gemma 4 배포를 위한 구글의 LiteRT-LM 런타임 등 로컬 및 온디바이스 생성형 AI에 관한 작업들이 설명되었습니다. 소스들은 상업적 출시보다는 구현 세부 사항에 집중하고 있습니다. RTX 5090 관련 포스트에 따르면 llama.cpp 포크와 TurboQuant KV-캐시 압축을 통해 단일 32GB GPU에서 35B 전문가 혼합(MoE) 모델에 대해 450,000 토큰의 컨텍스트 창을 확보할 수 있었으며, 구글은 LiteRT-LM이 LiteRT, 가속 커널 및 최적화된 오케스트레이션을 사용하여...

Read the original article