문샷AI가 오늘 1조 파라미터 규모의 오픈소스 코딩 에이전트 모델 Kimi K2.7 Code를 허깅페이스에 공개했어요. API 출력 가격이 백만 토큰당 $4.00으로, GPT-5.5 대비 7.5배, Claude Fable 5 대비 최대 12배 저렴해요. 에이전트 벤치마크 MCPMark Verified에선 81.1점으로 Claude Opus 4.8의 76.4점을 넘어섰어요.
솔직히 이 숫자를 처음 봤을 때 오타인 줄 알았어요. GPT-5.5 출력 토큰 가격이 백만 토큰에 30달러, Claude Opus 4.8이 25달러인데, Kimi K2.7 Code는 단 4달러예요. 게다가 총 1조(1 trillion) 파라미터짜리 모델이에요. 중국 AI 스타트업 문샷AI(Moonshot AI)가 오늘 허깅페이스에 그냥 올려버렸어요. 라이선스는 Modified MIT라서, 월 1억 명 미만 사용자 서비스거나 월 매출 2천만 달러 미만이면 상업적으로도 자유롭게 사용할 수 있어요. 모델 ID는 kimi-k2.7-code고, Moonshot AI API에서 바로 호출하거나 허깅페이스에서 가중치를 받아서 직접 돌릴 수 있어요.
모델 아키텍처를 보면, 파라미터는 총 1조 개지만 토큰 하나를 처리할 때 실제로 활성화되는 건 320억 개예요. 384개의 전문가 모듈로 구성된 MoE(Mixture-of-Experts) 방식 덕분이에요. 컨텍스트 윈도우는 256,000 토큰이고, 자체 개발한 MoonViT 비전 인코더(4억 파라미터)도 내장돼 있어서 이미지 같은 멀티모달 입력도 처리해요. 전작 K2.6과 비교하면 추론 토큰을 30% 줄이면서 Kimi Code Bench v2에서 21.8% 개선, Program Bench에서 11.0%, 다국어 벤치마크 MLS Bench Lite에선 31.5% 향상을 기록했어요. 📈
성능은 솔직히 복잡한 그림이에요. 순수 코딩 벤치마크에서는 GPT-5.5에 밀려요. Kimi Code Bench v2 기준으로 K2.7이 62.0점, GPT-5.5가 69.0점이고, Program Bench에서는 53.6 대 69.1로 차이가 꽤 나요. 근데 MCP 도구 호출과 멀티스텝 에이전트 작업을 측정하는 MCPMark Verified 벤치마크에서는 Kimi K2.7이 81.1점으로 Claude Opus 4.8의 76.4점을 넘어서요. "실제 에이전트로 업무를 시켰을 때"는 더 비싼 모델들을 이기고 있는 거예요.
사실 이게 단순한 모델 출시가 아닌 이유가 있어요 📊. 문샷AI는 지금 업계의 가격 기준점 자체를 흔들고 있어요. 비싼 서방 플래그십 모델들이 '더 똑똑하다'는 이유로 높은 가격을 유지하는 동안, Kimi K2.7 Code는 에이전트 작업 실전 성능에서 경쟁력을 증명하면서 가격은 최대 12배나 저렴한 거예요. 특히 코딩 에이전트 파이프라인을 운영하는 스타트업이나 개인 개발자라면 이 차이를 무시하기 어렵죠. INT4 양자화도 지원해서 자체 서버에 올리면 비용이 더 내려가요.
개인적으로는 이 모델이 오픈소스 생태계에서 Llama 3처럼 산업 기준점이 되는 모델이 될 것 같아요 🚀. 처음엔 "서방 플래그십보다 벤치마크가 낮다"며 지나칠 수 있겠지만, 에이전트 실용 성능과 12배 이상 저렴한 가격은 무시하기 어려운 조합이에요. 얼마 전 Kimi 기업 가치가 6개월 만에 7배 뛰었다는 뉴스가 엊그제 같은데, 이젠 모델로도 직접 증명하는 단계에 왔네요.
GPT-5.5나 Claude가 가격 대응에 나설지, 그리고 Kimi가 순수 코딩 벤치마크까지 따라잡을지 — 두고 볼 만한 흐름이에요.
출처