샤오미가 1조 파라미터 AI 모델로 초당 1,000 토큰 장벽을 세계 최초로 돌파했어요. 전용 칩 없이 일반 상용 GPU 8개짜리 서버 한 대로 이 속도를 냈다는 게 핵심이에요. AI 추론 비용과 접근성의 판도가 또 한 번 바뀔 수 있는 분기점입니다.
솔직히 초당 1,000 토큰이라는 숫자가 처음엔 잘 와닿지 않을 수 있어요. 이걸 실감하는 가장 쉬운 방법은 사람과 비교해 보는 거예요. 분당 750단어 이상을 쏟아내는 속도인데, 빠른 독자가 읽는 속도의 4~5배예요. 모델이 결과를 토해내는 속도가 사람이 읽는 속도를 한참 전에 넘어섰고, 이제는 생각도 따라가기 벅찬 수준으로 가고 있어요.
오늘(6월 9일) 샤오미가 공개한 MiMo-V2.5-Pro-UltraSpeed는 TileRT라는 시스템 소프트웨어 팀과 공동으로 개발됐어요. 🤖 1조 파라미터짜리 MoE(Mixture of Experts) 모델인데, 일반 8-GPU 단일 서버에서 1,000 토큰/초를 넘겼다는 게 포인트예요. Decrypt 보도에 따르면 ChatGPT나 Claude 최신 버전보다 15배 빠르다고 해요.
어떻게 이게 가능했냐고 하면, 크게 두 가지 기술 조합이에요. 첫 번째는 FP4 양자화. MoE 전문가 레이어의 가중치를 4비트로 압축해서 메모리 대역폭 병목을 대폭 줄였어요. 두 번째는 DFlash 투기적 디코딩(speculative decoding)이에요. 블록 단위로 여러 토큰을 병렬로 예측하고 검증하는 방식으로, 순차 생성 대비 훨씬 많은 토큰을 한 번에 처리할 수 있어요. 이 두 기술의 시너지로 기존 MiMo-V2-Flash 대비 약 10배 빠른 속도를 냈다고 해요.
📊 성능 수치도 주목할 만해요. SWE-Bench Pro에서 **59.0%**를 기록하며 GPT-5.5와 Gemini 3.1 Pro를 앞섰다는 주장이 나왔어요. 다만 자체 인프라에서 에이전트 스캐폴딩을 붙여 측정한 결과라 독립 검증은 아직 진행 중이에요. 속도는 인상적이지만 벤치마크는 좀 더 지켜봐야 할 것 같아요.
⏰ API 트라이얼은 6월 9일부터 6월 23일까지 2주 한정이에요. 용량 제한 때문에 승인제로 운영되고, 우선순위는 기업과 전문 개발자 쪽이에요. 승인받으면 2주 무료 사용 크레딧을 받을 수 있어요. 가격은 표준 MiMo-V2.5-Pro API의 3배 수준인데, 속도를 10배 올려주는 거라 계산이 안 맞는 건