코딩 에이전트 3파전 시작 — xAI, Grok Build로 Claude Code에 도전장

xAI가 터미널 기반 코딩 에이전트 Grok Build를 베타 출시하며 Claude Code·Codex CLI에 정면 도전했어요. 최대 8개 병렬 에이전트와 Arena Mode 자동 평가가 특징이며, 소스코드는 서버에 전송되지 않습니다. SWE-bench 점수는 70.8%로 경쟁작보다 낮지만, 입력 토큰 $0.20이라는 가격 경쟁력을 내세웁니다.

AI 코딩 에이전트 시장이 3파전이 됐어요. 🤖 지금까지는 사실상 Anthropic의 Claude Code와 OpenAI의 Codex CLI가 양분하는 구도였는데, 일론 머스크의 xAI가 Grok Build를 베타로 내놓으면서 구도가 달라졌습니다. 아직 초기 베타지만 방향성이 꽤 흥미로운 제품이에요.

Grok Build는 터미널 TUI 기반 코딩 에이전트로, 기반 모델은 Grok 4.3 위에 올라간 grok-code-fast-1입니다. 가장 눈에 띄는 기능은 병렬 에이전트예요. 최대 8개의 에이전트가 동시에 같은 문제를 공격하는 방식이에요. 각 에이전트는 계획(Plan) → 검색(Search) → 빌드(Build) 3단계로 작업을 처리하고, 끝나면 Arena Mode라는 자동 평가 레이어가 결과물들을 비교해서 가장 좋은 걸 골라줍니다. 개발자가 여러 결과를 직접 비교하는 수고를 없애준다는 발상이에요.

근데 벤치마크 성적은 솔직히 좋지 않아요. SWE-bench Verified 기준으로 Codex CLI(GPT-5.5)가 88.7%, Claude Code(Opus 4.7)가 87.6%인데, Grok Build는 70.8%에 그쳤어요. 물론 벤더가 스스로 보고한 숫자라 완전히 믿기는 어렵지만, 격차 자체는 상당합니다.

그래도 몇 가지 차별화 포인트는 있어요. 가장 눈에 띄는 건 로컬 우선 설계입니다. Grok Build는 소스코드를 xAI 서버로 전송하지 않아요. 독점 코드베이스를 다루거나 금융·의료 같은 규제 산업에 있는 팀에게는 의미 있는 선택지가 될 수 있어요. 가격도 경쟁적이에요. 입력 토큰 100만 개당 $0.20으로, Claude Code나 Codex CLI에 비해 상당히 저렴합니다.

현재는 SuperGrok Heavy 구독자에게만 얼리 베타로 열려 있어요. 일반 공개는 미정이고요.

개인적으로는 아직 갈 길이 먼 제품이라고 생각해요. SWE-bench 70%대는 현업에서 신뢰하기엔 솔직히 낮은 숫자거든요. 근데 Arena Mode 같은 아이디어는 흥미롭고, 로컬 실행 원칙은 분명 틈새 수요를 건드려요. 지금은 1라운드, 앞으로 어떻게 따라붙느냐가 관건이에요.

출처

코딩 에이전트 3파전 시작 — xAI, Grok Build로 Claude Code에 도전장

비슷한 주제의 글

꺼도 꺼지지 않았다 — 그록 빌드, 코드 저장소 통째로 몰래 업로드했다

밝힌 것보다 두 배 많았다 — xAI 무허가 가스터빈 59대, 흑인 밀집지역 정면으로

머스크가 '오퍼스급'이라 불렀다 — 스페이스XAI, 그록 4.5 전격 공개

사이트 인기 글

[후속] 브로드컴 장중 -14% 확정, 시총 3,000억 달러 증발 — 반도체 섹터 전방위 충격

마이크로소프트 양자 칩 Majorana 2 공개 — AI가 설계하고 신뢰도 1,000배 향상

스페이스X, 역사상 최대 IPO 시작 — 6월 12일 나스닥 SPCX로 데뷔