샤오미가 1조 파라미터 AI 모델로 초당 1,000 토큰 장벽을 세계 최초로 돌파했어요. 전용 칩 없이 일반 상용 GPU 8개짜리 서버 한 대로 이 속도를 냈다는 게 핵심이에요. AI 추론 비용과 접근성의 판도가 또 한 번 바뀔 수 있는 분기점입니다.
솔직히 초당 1,000 토큰이라는 숫자가 처음엔 잘 와닿지 않을 수 있어요. 이걸 실감하는 가장 쉬운 방법은 사람과 비교해 보는 거예요. 분당 750단어 이상을 쏟아내는 속도인데, 빠른 독자가 읽는 속도의 4~5배예요. 모델이 결과를 토해내는 속도가 사람이 읽는 속도를 한참 전에 넘어섰고, 이제는 생각도 따라가기 벅찬 수준으로 가고 있어요.
오늘(6월 9일) 샤오미가 공개한 MiMo-V2.5-Pro-UltraSpeed는 TileRT라는 시스템 소프트웨어 팀과 공동으로 개발됐어요. 🤖 1조 파라미터짜리 MoE(Mixture of Experts) 모델인데, 일반 8-GPU 단일 서버에서 1,000 토큰/초를 넘겼다는 게 포인트예요. Decrypt 보도에 따르면 ChatGPT나 Claude 최신 버전보다 15배 빠르다고 해요.
어떻게 이게 가능했냐고 하면, 크게 두 가지 기술 조합이에요. 첫 번째는 FP4 양자화. MoE 전문가 레이어의 가중치를 4비트로 압축해서 메모리 대역폭 병목을 대폭 줄였어요. 두 번째는 DFlash 투기적 디코딩(speculative decoding)이에요. 블록 단위로 여러 토큰을 병렬로 예측하고 검증하는 방식으로, 순차 생성 대비 훨씬 많은 토큰을 한 번에 처리할 수 있어요. 이 두 기술의 시너지로 기존 MiMo-V2-Flash 대비 약 10배 빠른 속도를 냈다고 해요.
📊 성능 수치도 주목할 만해요. SWE-Bench Pro에서 **59.0%**를 기록하며 GPT-5.5와 Gemini 3.1 Pro를 앞섰다는 주장이 나왔어요. 다만 자체 인프라에서 에이전트 스캐폴딩을 붙여 측정한 결과라 독립 검증은 아직 진행 중이에요. 속도는 인상적이지만 벤치마크는 좀 더 지켜봐야 할 것 같아요.
⏰ API 트라이얼은 6월 9일부터 6월 23일까지 2주 한정이에요. 용량 제한 때문에 승인제로 운영되고, 우선순위는 기업과 전문 개발자 쪽이에요. 승인받으면 2주 무료 사용 크레딧을 받을 수 있어요. 가격은 표준 MiMo-V2.5-Pro API의 3배 수준인데, 속도를 10배 올려주는 거라 계산이 안 맞는 건 아니에요.
개인적으로 이 발표에서 가장 흥미로운 부분은 '전용 칩 없이'라는 점이에요. 🔥 NVIDIA H100/H200 같은 최신 AI 전용 칩이 아니라 일반 상용 GPU로 이 속도를 냈다는 건, 중국 AI 기업들이 서방 수출 통제 속에서도 소프트웨어 최적화로 갭을 좁혀가고 있다는 걸 잘 보여줘요. Hacker News 커뮤니티 반응도 엇갈려요. 한쪽은 "드디어 자리 안 떠나도 되겠다"며 환영하고, 다른 쪽은 "어차피 병목은 CI 체크와 컴파일"이라며 냉정하게 보기도 해요.
어쨌든 초당 1,000 토큰이라는 이정표는 의미가 커요. 실시간 음성 대화, 초저지연 에이전트 루프 같은 응용이 훨씬 현실적인 범위 안으로 들어왔고, 오픈 가중치가 10일 안에 공개 예정이라는 것도 주목할 포인트예요.
출처