xAI가 터미널 기반 코딩 에이전트 Grok Build를 베타 출시하며 Claude Code·Codex CLI에 정면 도전했어요. 최대 8개 병렬 에이전트와 Arena Mode 자동 평가가 특징이며, 소스코드는 서버에 전송되지 않습니다. SWE-bench 점수는 70.8%로 경쟁작보다 낮지만, 입력 토큰 $0.20이라는 가격 경쟁력을 내세웁니다.
AI 코딩 에이전트 시장이 3파전이 됐어요. 🤖 지금까지는 사실상 Anthropic의 Claude Code와 OpenAI의 Codex CLI가 양분하는 구도였는데, 일론 머스크의 xAI가 Grok Build를 베타로 내놓으면서 구도가 달라졌습니다. 아직 초기 베타지만 방향성이 꽤 흥미로운 제품이에요.
Grok Build는 터미널 TUI 기반 코딩 에이전트로, 기반 모델은 Grok 4.3 위에 올라간 grok-code-fast-1입니다. 가장 눈에 띄는 기능은 병렬 에이전트예요. 최대 8개의 에이전트가 동시에 같은 문제를 공격하는 방식이에요. 각 에이전트는 계획(Plan) → 검색(Search) → 빌드(Build) 3단계로 작업을 처리하고, 끝나면 Arena Mode라는 자동 평가 레이어가 결과물들을 비교해서 가장 좋은 걸 골라줍니다. 개발자가 여러 결과를 직접 비교하는 수고를 없애준다는 발상이에요.
근데 벤치마크 성적은 솔직히 좋지 않아요. SWE-bench Verified 기준으로 Codex CLI(GPT-5.5)가 88.7%, Claude Code(Opus 4.7)가 87.6%인데, Grok Build는 70.8%에 그쳤어요. 물론 벤더가 스스로 보고한 숫자라 완전히 믿기는 어렵지만, 격차 자체는 상당합니다.
그래도 몇 가지 차별화 포인트는 있어요. 가장 눈에 띄는 건 로컬 우선 설계입니다. Grok Build는 소스코드를 xAI 서버로 전송하지 않아요. 독점 코드베이스를 다루거나 금융·의료 같은 규제 산업에 있는 팀에게는 의미 있는 선택지가 될 수 있어요. 가격도 경쟁적이에요. 입력 토큰 100만 개당 $0.20으로, Claude Code나 Codex CLI에 비해 상당히 저렴합니다.
현재는 SuperGrok Heavy 구독자에게만 얼리 베타로 열려 있어요. 일반 공개는 미정이고요.
개인적으로는 아직 갈 길이 먼 제품이라고 생각해요. SWE-bench 70%대는 현업에서 신뢰하기엔 솔직히 낮은 숫자거든요. 근데 Arena Mode 같은 아이디어는 흥미롭고, 로컬 실행 원칙은 분명 틈새 수요를 건드려요. 지금은 1라운드, 앞으로 어떻게 따라붙느냐가 관건이에요.
출처