구글, 텍스트 생성 속도 4배 높인 'DiffusionGemma' 공개 — 토큰을 동시에 인쇄하다

구글 DiffusionGemma — 텍스트 생성 4배 빠르게

기존 LLM과 완전히 다른 방식으로 텍스트를 생성해요

1,000+

H100 단일 GPU 기준 생성 속도

기존 LLM: 토큰 1개씩 순서대로 생성 DiffusionGemma: 256개 토큰 동시에 정제

➜ GPU 병렬 처리로 최대 4배 속도 향상

18GB

양자화 시 소비자 GPU에서도 로컬 실행 가능

26B MoE (실제 3.8B 활성) · 256K 컨텍스트 18GB VRAM (양자화 시) · 140+ 지원 언어

Apache 2.0 · HuggingFace 무료 배포

Hugging Face에서 무료 다운로드 · vLLM · HF Transformers · MLX 지원 llama.cpp 지원 예정 · 상업적 수정·배포 허용

구글이 직접 인정한 한계 — 실험적 단계 모델 로컬·저동시성 환경 최적화, Apple Silicon 비최적, 클라우드 서빙엔 장점 적음