구글 딥마인드가 텍스트 확산 기법을 활용한 오픈소스 AI 모델 DiffusionGemma를 오늘 공개했어요. 26B MoE 구조로 H100 한 장에서 초당 1,000토큰 이상을 처리하며, 기존 대비 최대 4배 빠릅니다. Apache 2.0 라이선스로 Hugging Face에서 즉시 무료로 내려받을 수 있어요.
구글 딥마인드가 오늘(6월 10일) 꽤 흥미로운 모델을 내놨어요. 이름은 DiffusionGemma, 텍스트 생성 방식 자체를 바꾼 오픈소스 AI 모델이에요. 이미지 생성에서 익숙한 "확산(Diffusion)" 기법을 텍스트에 그대로 적용했고, 그 결과 속도가 기존 자기회귀 방식 대비 최대 4배 빨라졌어요. 📊
기존 LLM들은 전부 자기회귀(Autoregressive) 방식이에요. "안녕하세요" 같은 문장을 생성할 때 "안", "녕", "하" 이런 식으로 토큰을 하나씩 순서대로 뽑아내요. 이전 토큰이 확정돼야 다음 토큰을 생성할 수 있어서, GPU가 놀게 되는 시간이 꽤 생겨요. 근데 DiffusionGemma는 달라요. 256개 토큰을 통째로 블록으로 잡고, 처음엔 랜덤 노이즈 토큰들을 깔아놓은 다음 여러 패스(pass)를 거쳐 전체를 동시에 정제해 나가는 방식이에요. 구글은 이걸 "한 글자씩 치는 타자기" vs "전체 페이지를 한 번에 찍는 인쇄기"로 비유했는데, 꽤 정확한 비유인 것 같아요.
속도를 구체적으로 보면, NVIDIA H100 한 장으로 초당 1,000토큰 이상을 처리해요. RTX 5090 같은 고급 소비자용 GPU에서도 700토큰 이상이 나와요. 무엇보다 이 모델의 핵심은 로컬 추론이에요. 클라우드 API가 아니라 본인 컴퓨터에서 고속 처리가 가능하다는 게 포인트예요.
기술 스펙을 보면, Gemma 4 패밀리 기반의 26B Mixture of Experts 모델이고 실제 추론 때는 3.8B 파라미터만 활성화돼요. 컨텍스트 창은 256K 토큰이고, 140개 이상 언어를 지원해요. 양자화를 하면 18GB VRAM 안에 들어가서 최신 소비자용 GPU로도 돌릴 수 있는 수준이에요. Hugging Face에서 가중치를 무료로 내려받을 수 있고, vLLM, Hugging Face Transformers, MLX를 지원해요. llama.cpp 지원도 곧 추가될 예정이고요. 라이선스는 Apache 2.0이라 상업적 사용과 수정·배포도 자유로워요. 🚀
물론 제