미 수출규제가 풀리자마자, 클로드 파블 5가 실제 업무 대체율 16.1%로 역대 최고 기록을 세웠어요. 오퍼스 4.8의 8.3%, GPT-5.5의 6.3%를 큰 차이로 앞섰고, 직전 1위 기록의 4배에 달해요. 240개 실전 프로젝트를 '클라이언트가 그대로 받아들일까'라는 기준으로 채점한 결과예요.
타이밍이 진짜 절묘해요. 불과 며칠 전인 6월 30일에 미 상무부가 클로드 파블 5와 미토스 5에 걸었던 수출규제를 전면 해제했고, 7월 1일부터 전 세계 사용자에게 다시 풀렸잖아요. 그런데 봉인이 풀리자마자 독립 기관에서 낸 벤치마크에서 파블 5가 역대 최고 기록을 세운 거예요.
이번에 나온 건 Center for AI Safety(CAIS)와 Scale AI가 함께 운영하는 Remote Labor Index(RLI) 결과예요. 이 벤치마크가 재밌는 게, 보통 벤치마크처럼 객관식 시험 채점을 하는 게 아니라 "진짜 클라이언트가 이 결과물을 실제 업무로 받아들일까?"를 기준으로 삼아요. 3D 주얼리 디자인, 애니메이션 광고, 건축 평면도 같은 23개 전문 분야에서 실제 의뢰된 240개 프로젝트를 가져다가, 사람 전문가와 AI 결과물을 나란히 놓고 채점하는 방식이에요.
결과는 확실히 인상적이에요. 파블 5가 240개 중 16.1%를 사람 전문가 수준으로 완수했는데, 이건 2위인 오퍼스 4.8의 8.3%보다 거의 두 배예요. 3위 GPT-5.5는 6.3%에 그쳤고요. 근데 진짜 놀라운 건 직전 기록과 비교했을 때예요. RLI가 처음 나왔을 때 업계 최고 기록이 2.5%였고, 바로 직전 1위였던 클로드 오퍼스 4.6(클로드 코워크 스캐폴딩 적용)도 4.17%에 머물렀거든요. 그러니까 파블 5는 불과 몇 달 사이에 이 지표를 4배 가까이 끌어올린 셈이에요 🚀.
한 가지 짚고 넘어갈 부분은, 240개 프로젝트 중 218개는 미 정부가 파블 5 접근을 제한하기 전에 이미 평가가 끝난 상태였다는 거예요. 그러니까 이번 결과는 수출규제와 무관하게 모델 자체의 실력을 보여주는 데이터라고 봐도 될 것 같아요.
사실 저는 이 결과를 보면서 벤치마크 성적표보다 '실전 업무 인수 기준'이라는 채점 방식 자체가 더 눈에 들어왔어요. 그동안 나온 수많은 AI 벤치마크는 정답이 정해진 문제를 얼마나 잘 푸느냐를 쟀는데, RLI는 "돈 받고 넘길 수 있는 결과물이냐"를 묻거든요. 16.1%라는 숫자가 낮아 보일 수도 있지만, 반대로 말하면 아직 5건 중 4건 이상은 사람 손이 필요하다는 뜻이기도 하고요.
앤트로픽 입장에서는 이번 결과가 여러모로 반가울 거예요. 3주 가까이 이어진 수출규제 봉인, 신원 인증 논란, 클로드 코드의 스테가노그래피 추적 파문까지 최근 앤트로픽에 대한 잡음이 꽤 많았잖아요. 그 와중에 나온 독립 기관의 실전 벤치마크 1위 기록이니까, 논란과는 별개로 기술력 자체는 여전히 앞서 있다는 걸 보여준 셈이죠. 다음 RLI 업데이트에서 이 격차가 더 벌어질지, 아니면 GPT-5.6이나 제미나이 3.5가 따라붙을지 지켜볼 만해요.
출처