최고 AI도 현실 업무 3%만 통과했다
91개 실제 지식노동 과제 — 1위 모델도 여기선 무너졌어요 📊
91개 실제 지식노동 과제 — 1위 모델도 여기선 무너졌어요 📊
3%
Claude Fable 5 · 전체 리더보드 1위 모델의 성적
📊 데이터 사이언스 — 수천 개 파일 분석 📋 프로덕트 매니지먼트 — 실제 기획 문서 작성 🏦 뱅킹 운영 — 금융 태스크 + 규정 준수 🏭 중공업 전략 — 산업 전략 다단계 의사결정
수천 개 소스 파일 + 주 단위 업무량 — 진짜 지식노동 테스트예요.
31개 / 91개
전체 과제의 34% — 모든 최신 AI가 포기한 현실 업무들
비용 800배 차이, 완전 완수율은 둘 다 5% 미만 — 기대치가 문제예요.
기존: 단일 문제 → 정답 여부 → 60~90% 통과 🟢
AA-Briefcase: 수천 파일 + 다중 태스크 → 루브릭 채점 → 3% 통과 🔴
숫자가 떨어진 게 아니라 — 진짜 테스트를 처음 한 거예요.