SANA-WM, 1분 720p 비디오를 위한 26억 파라미터 오픈소스 월드 모델 (opens in new tab)
NVIDIA의 SANA-WM은 이미지 1장과 6-DoF 카메라 궤적을 입력받아 단일 GPU에서 720p, 1분 길이의 제어 가능한 비디오를 생성함Hybrid Linear Diffusion Transformer가 프레임 단위 Gated DeltaNet과 주기적 softmax를 결합해 긴 롤아웃의 일관성을 유지함학습은 64개 H100에서 15일 걸렸고, 증류
Read the original article