초당 1,000 토큰 돌파 — 샤오미가 벽을 넘었다
일반 GPU 8대, 1조 파라미터, 세계 최초 🚀
일반 GPU 8대, 1조 파라미터, 세계 최초 🚀
1,000+
토큰/초 @ 1조 파라미터 모델
ChatGPT·Claude 대비 최대 15배 빠른 속도
두 가지 핵심 기술 조합:
FP4 양자화 — MoE 가중치를 4비트로 압축, 메모리 대역폭 병목 제거
DFlash 디코딩 — 블록 단위 토큰 병렬 예측·검증으로 순차 생성 대체
→ 일반 8-GPU 서버에서 ×10 속도 달성
59.0%
GPT-5.5·Gemini 3.1 Pro 상회 (자체 측정)
📅 2주 한정 API 트라이얼