구글 DiffusionGemma — 텍스트 생성 4배 빠르게
기존 LLM과 완전히 다른 방식으로 텍스트를 생성해요
기존 LLM과 완전히 다른 방식으로 텍스트를 생성해요
1,000+
H100 단일 GPU 기준 생성 속도
기존 LLM: 토큰 1개씩 순서대로 생성 DiffusionGemma: 256개 토큰 동시에 정제
➜ GPU 병렬 처리로 최대 4배 속도 향상
18GB
양자화 시 소비자 GPU에서도 로컬 실행 가능
26B MoE (실제 3.8B 활성) · 256K 컨텍스트 18GB VRAM (양자화 시) · 140+ 지원 언어
Apache 2.0 · HuggingFace 무료 배포
Hugging Face에서 무료 다운로드 · vLLM · HF Transformers · MLX 지원 llama.cpp 지원 예정 · 상업적 수정·배포 허용
구글이 직접 인정한 한계 — 실험적 단계 모델 로컬·저동시성 환경 최적화, Apple Silicon 비최적, 클라우드 서빙엔 장점 적음