지난 6월 3일, Google DeepMind가 Gemma 4 12B를 공개했다. 공지가 조용했는데도 개발자 커뮤니티 반응이 꽤 뜨겁다. 이유는 단순하다. 12B 파라미터짜리 모델이 텍스트, 이미지, 오디오, 영상을 — 별도 인코더 없이 — 한 번에 처리하면서 16GB VRAM 노트북에서도 로컬로 돌아간다. Apache 2.0 라이선스라서 상업적으로도 자유롭게 쓸 수 있다. 🚀
기술적으로 뭐가 다른지 먼저 얘기하면, 기존 멀티모달 모델들은 이미지를 이해하기 위한 별도 비전 인코더, 오디오를 처리하기 위한 별도 오디오 인코더를 따로 붙이는 구조였다. Gemma 4 12B는 이걸 하나로 통합했다. 이미지 입력은 35M 파라미터짜리 가벼운 임베딩 모듈로, 오디오는 40밀리초 단위의 raw 16kHz 프레임을 그대로 LLM의 입력 공간으로 투영하는 방식이다. 인코더가 없으니 멀티모달 처리 레이턴시가 줄고, 전체 메모리 효율도 높아진다.
성능 면에서는 Google의 26B MoE 모델에 근접한다는 게 Google의 주장이다. 📊 파라미터 수는 절반도 안 되는데 비슷한 수준이라면, 단순히 "작은 모델"이 아닌 거다. 특히 눈에 띄는 건 오디오 처리 능력이다. 이 크기의 오픈소스 모델 중 오디오를 네이티브로 처리할 수 있는 건 Gemma 4 12B가 처음이라고 한다.
어디서 쓸 수 있냐면, 지금 바로 Hugging Face에 올라와 있다. Ollama, LM Studio, Google AI Edge Gallery 앱에서도 즉시 사용 가능하다. 개발 프레임워크는 llama.cpp, MLX, vLLM, SGLang 등 익숙한 것들을 다 지원하고, 파인튜닝은 Unsloth를 통해서 할 수 있다. Google Cloud 쪽도 Cloud Run과 GKE로 배포를 지원한다.
클라우드 API로만 접근 가능한 모델이 아니라 내 로컬에서, 내 데이터로 돌릴 수 있다는 게 이 모델의 핵심이다. 기업 입장에선 데이터 프라이버시 걱정 없이 쓸 수 있고, 개인 개발자 입장에선 API 비용 없이 멀티모달 기능을 실험해볼 수 있다.
개인적으로 가장 인상적인 건 오디오 처리 부분이다. GPT-4o 수준의 음성+이미지 멀티모달을 로컬 오픈소스로 구현할 수 있는 시대가 오고 있다는 게 실감나는 릴리즈다. 아직 GPT-5.5나 Claude Opus 4.8을 넘는다거나 하는 건 아니지만, 클라우드 없이 이 정도면 충분히 쓸 수 있는 시나리오가 꽤 많아질 것 같다. 어떤 애플리케이션이 이 모델로 가장 먼저 만들어질지가 궁금하다.
출처