젠슨 황이 오늘 타이베이 뮤직 센터 무대에 올랐을 때, 사람들은 또 새 GPU 얘기가 나오겠구나 했을 겁니다. 근데 Computex 2026 키노트에서 가장 화제를 모은 건 의외로 칩이 아니라 모델이었어요. 엔비디아가 공개한 Nemotron 3 Ultra — 총 5500억(550B) 파라미터짜리 오픈웨이트 AI 모델입니다. 미국산 오픈소스 모델 중 역대 최대 규모라고 하니, 솔직히 좀 놀랍죠.
이 숫자만 들으면 "그냥 크기만 키운 거 아냐?" 싶을 수 있는데, 사실 구조 자체가 흥미롭습니다. MoE(Mixture-of-Experts) 아키텍처를 썼기 때문에, 5500억 개 파라미터가 전부 한꺼번에 돌아가는 게 아니라 토큰당 550억(55B)만 활성화됩니다. 실제 연산 효율은 훨씬 낫다는 거죠. 하이브리드 맘바-트랜스포머 구조도 결합됐고, 특히 에이전틱 AI 워크플로우 — 사람이 지시를 내리면 알아서 계획 세우고 실행하고 반복하는 멀티스텝 태스크 — 에 최적화돼 있다고 강조했어요.
성능 수치도 꽤 인상적입니다. Artificial Analysis 기준 인텔리전스 인덱스 48점으로, 구글 Gemma 4 31B(39점)나 이전 모델인 Nemotron 3 Super(36점)를 훌쩍 뛰어넘어요. 코딩 벤치마크 HumanEval에서 92.1%, 지식 평가 MMLU에서 89.4%를 기록했고, DeepInfra 엔드포인트 기준으로 초당 300 토큰 이상을 뽑아낸다고 합니다.
근데 여기서 재미있는 비교가 하나 있어요. 지능 지표에선 중국 모델 Kimi K2.6가 인덱스 54점으로 여전히 앞서 있거든요. 그런데 속도에서는 이쪽이 훨씬 빠릅니다. 중국 경쟁 모델들이 초당 50~100 토큰 수준인 데 반해, Nemotron 3 Ultra는 300 토큰 이상이라니 3~6배 차이예요. 실제 배포 환경에서 API 비용, 레이턴시, 실시간 에이전트 운영을 생각하면 이 속도 격차가 꽤 의미 있는 변수가 됩니다.
Nemotron 3 Ultra 말고도 이번 키노트엔 볼 게 많았어요. Cosmos 3는 비전 추론, 세계 시뮬레이션, 로봇 액션 생성을 하나로 합친 오픈 옴니모델인데, Physics-IQ, PAI-Bench, RoboLab 등 7개 로보틱스 벤치마크에서 1위를 차지했다고 합니다. Super(32B)와 Nano(8B) 두 사이즈로 나왔고요. 로봇 AI 연구자들한테는 꽤 반가운 소식이겠죠.
**RTX