Artificial Analysis가 6월 18일 공개한 AA-Briefcase는 현실 지식노동 환경으로 AI를 테스트하는 새 벤치마크예요. 1위 Claude Fable 5도 전체 91개 과제 중 3%만 모든 기준을 완전히 통과했어요. 기존 벤치마크 점수와 실제 업무 성능 사이의 간극이 수치로 처음 드러났어요.
Artificial Analysis가 6월 18일 새 벤치마크 AA-Briefcase를 공개했어요. 이름부터 느낌이 오죠 — 직장인의 서류가방. 기존 AI 평가들이 수학 문제·코딩 스니펫·독해 지문을 다뤘다면, AA-Briefcase는 실제 직장에서 몇 주에 걸쳐 처리하는 복잡한 프로젝트를 AI에게 맡겨요 💼.
평가 시나리오는 네 가지예요. 데이터 사이언스, 프로덕트 매니지먼트, 뱅킹 운영, 중공업 전략. 각 시나리오마다 수천 개의 소스 파일과 연결된 다중 태스크가 있어요. 사람이라면 팀으로 달라붙어 몇 주 동안 작업할 분량이에요.
결과가 충격적이에요. 전체 리더보드 1위인 Claude Fable 5도 91개 과제 중 모든 평가 기준을 완전히 통과한 건 딱 3%예요. 솔직히 처음 이 숫자를 봤을 때 '이게 진짜?' 싶었는데, 실제로 91개 과제 중 31개는 어떤 모델도 50% 기준 통과율조차 넘지 못했어요. Claude Fable 5 다음으로는 Claude Opus 4.8과 GLM-5.2가 뒤를 이어요.
비용 차이도 흥미롭고 아이러니해요. 최고 성능 Claude Fable 5의 과제당 비용은 약 $31인 반면, DeepSeek V4 Flash는 약 $0.04예요. 약 800배 차이죠. 비싼 모델이 확실히 더 잘 하긴 하지만, 현실 업무를 완전히 처리한다는 기준에선 둘 다 크게 부족해요.
이게 왜 중요하냐면, 지금까지 AI 업계가 경쟁해온 SWE-Bench, MMLU, GPQA 같은 벤치마크들이 실제 직장 환경을 거의 반영하지 못한다는 비판이 있었어요. AA-Briefcase는 그 간극을 메우려는 시도예요. 데이터 사이언티스트가 실제로 하는 분석 업무, PM이 작성하는 기획 문서, 뱅킹 운영 태스크를 그대로 가져와서 테스트해요 📊.
근데 이걸 단순히 "AI가 3%밖에 못 한다"고 읽으면 너무 단순화한 거예요. 1~2년 전 비슷한 현실적 테스트에선 거의 0%였다는 걸 생각하면 엄청난 진전이에요. 문제는 AI 능력이 아니라 기대치 격차예요. 기업에서 "AI가 다 알아서 해줄 것"이라고 도입했다가 실망하는 패턴이 반복되고 있어요 ⚠️.
개인적으로는 AA-Briefcase가 앞으로 AI 제품 평가의 새 기준이 될 것 같아요. "벤치마크 몇 퍼센트냐"보다 "실제 우리 업무 케이스에서 완전 자동화 비율이 얼마냐"가 훨씬 의미 있는 질문이니까요. 그리고 지금 그 답이 3%라면, 기대치를 현실에 맞게 조정하면서 도입 전략을 세워야 할 것 같아요. 뭐, 3%라도 올해 기준이니 내년엔 얼마일지가 더 기대되기도 해요.
출처