현실 업무는 달랐다 — 최고 AI도 실제 프로젝트의 3%만 완전히 완수

최고 AI도 현실 업무 3%만 통과했다

91개 실제 지식노동 과제 — 1위 모델도 여기선 무너졌어요 📊

3%

Claude Fable 5 · 전체 리더보드 1위 모델의 성적

📊 데이터 사이언스 — 수천 개 파일 분석 📋 프로덕트 매니지먼트 — 실제 기획 문서 작성 🏦 뱅킹 운영 — 금융 태스크 + 규정 준수 🏭 중공업 전략 — 산업 전략 다단계 의사결정

수천 개 소스 파일 + 주 단위 업무량 — 진짜 지식노동 테스트예요.

31개 / 91개

전체 과제의 34% — 모든 최신 AI가 포기한 현실 업무들

비용 800배 차이, 완전 완수율은 둘 다 5% 미만 — 기대치가 문제예요.

기존: 단일 문제 → 정답 여부 → 60~90% 통과 🟢

AA-Briefcase: 수천 파일 + 다중 태스크 → 루브릭 채점 → 3% 통과 🔴