5월 29-30일에 게시된 AI 인프라 포스트들은 대규모 언어 모델 학습 및 추론을 사용자 기기에 더 가깝게 이동시키는 동시에, 여전히 관리형 클라우드 환경에서 실행되는 시스템에 대한 프로덕션 모니터링을 추가하려는 노력들을 다루었습니다. Google은 자사의 LiteRT-LM 엔진이 모바일 및 엣지 환경 전반에서 Gemma 4를 실행하며, 동적 로딩, 최대 2.2배 속도 향상을 위한 멀티 토큰 예측(Multi-Token Prediction), Apple 플랫폼을 위한 새로운 Swift API, 그리고 브라우저 추론을 위해 WebGPU로 가속화된 JavaScript API를 언급했습니다. AWS는 처리량, 지연 시간, GPU 활용률, 토큰 소비 및 오류와 같은 인프라 지표를 샘플링된 LLM 출력 품질, 드리프트 및 규정 준수 모니터링과 결합하는 Amazon SageMaker AI 관측성 접근 방식을 설명했습니다. 개발자들은 또한 LLM 실험을 위한 하위 수준 및 로컬 대안들을 설...

Read the original article