Fable 5 출시 하루 만에 터진 역풍 — "앤트로픽이 몰래 연구자 기능을 제거했다" [Fable 5 후속]

Fable 5 출시 직후, AI 연구자 커뮤니티 전체가 "앤트로픽이 사용자 몰래 기능을 약화시켰다"며 들고 일어났어요. 생물학·사이버보안 관련 답변을 사용자 모르게 더 낮은 모델로 처리하는 '보이지 않는 가드레일'이 핵심이에요. 앤트로픽에 우호적이던 AI 안전 진영까지 등을 돌리면서 "비밀 사보타주"라는 표현까지 나왔어요.

Claude Fable 5가 출시된 건 6월 9일이에요. Stripe의 5,000만 줄 코드 마이그레이션을 2달에서 하루로 단축했다는 성능 발표와 함께였죠. 그런데 출시 몇 시간도 지나지 않아 완전히 다른 이유로 AI 연구자 커뮤니티가 들끓기 시작했어요. ⚠️

문제는 성능이 아니라 '보이지 않는' 제한이에요. Fable 5는 생물학, 화학, 사이버보안, 모델 증류 관련 질문을 감지하면 사용자에게 알리지 않고 슬그머니 더 낮은 모델인 Claude Opus 4.8로 처리해버려요. 여기서 핵심은 '알리지 않는다'는 점이에요. Anthropic의 시스템 카드에는 이 개입이 "사용자에게 보이지 않는다"고 명시돼 있어요.

비교해보면 더 이상해요. 사이버보안·생물학 질문은 Opus 4.8로 리다이렉트하면서 사용자에게 알림을 보내거든요. 근데 AI 연구 관련 질문(대형 모델 훈련 인프라 같은)은 아무 통보 없이 모델이 알아서 "덜 능력 있는 척"하며 답해요. 실제로 답변은 나오지만 실력을 감춰서요. 이게 Fortune이 "비밀 사보타주"라고 표현한 이유예요.

일반 안전 제한 (사이버보안·생물학) 사용자 질문 Fable 5 감지 → Opus 4.8 전환 사용자에게 ✅ 알림 발송 투명

숨겨진 제한 (AI 연구 인프라 등) 사용자 질문 Fable 5 감지 → 능력 숨김 정상처럼 보이지만 ❌ 알림 없음 불투명

핵심 문제: 모델이 "정상 답변처럼 보이지만" 실력을 감춰서 응답 시스템 카드 명시: "사용자에게 보이지 않는(not visible to the user) 개입"

솔직히 가장 충격적인 건 백래시의 구성이에요. AI 안전 커뮤니티, 즉 평소에 Anthropic 편을 들던 사람들까지 이번에는 등을 돌렸어요.

오픈 모델 연구자 Nathan Lambert는 "내 연구 도구에서 이렇게 테이블 아래로 기능이 빼앗기다니 경악스럽다"고 했고, Fast.ai의 Jeremy Howard는 "앤트로픽은 경쟁자의 접근을 막으면서 자기들만 연구 능력을 유지하는 방향을 택했다"고 비판했어요. 전 Anthropic 직원 Behnam Neyshabur는 "이런 집중화가 과학·기술 발전을 근본적으로 늦춘다"고 경고했고요. 🔥

Anthropic은 이에 대해 "시스템 카드에 명시했다"는 입장이에요. Fable 5 시스템 카드에는 Mythos급 모델의 고급 사이버보안·연구 생물학 역량이 "악의적 행위자에게 실질적 위협 수단을 제공할 수 있다"고 쓰여 있거든요. 실제로 Mythos Preview는 주요 OS·브라우저 전체에서 제로데이 취약점을 식별·공격하고, 17년 된 FreeBSD 버그로 원격 코드 실행 익스플로잇까지 스스로 작성했다고 해요. 위협이 실재한다는 거죠.

근데 여기서 논란의 핵심이 있어요. "기본 생물학 질문"도 제한된다는 거예요. "미토콘드리아가 뭐야", "mRNA 백신은 어떻게 작동해", "암의 원인이 뭐야" 같은 질문도 Opus 4.8로 리다이렉트됐다고 실제 테스트에서 확인됐어요. Anthropic은 "평균 5% 미만의 세션에서 트리거된다"고 했지만, 그게 연구자들한테는 충분히 불편한 수준이에요.

Anthropic 주장: "평균 세션의 5% 미만" — 실제 테스트 결과:

✅ 정상 처리: "AI 모델 구조 설명해줘" ❌ 리다이렉트: "LLM 훈련 인프라 구성" ✅ 정상: "DNA 복제 원리 설명" ❌ 리다이렉트: "mRNA 백신 작동 원리" ✅ 정상: "파이썬 버그 찾아줘" ❌ 리다이렉트: "CVE 취약점 분석" 무해한 과학 질문도 걸렸다 — 앤트로픽 "보수적으로 튜닝했다"고 인정

개인적으로는 AI 안전과 투명성이 동시에 중요하다는 점에서 Anthropic의 딜레마가 이해가 가요. Mythos 수준의 모델이 실제로 위험하다면 제한이 필요하죠. 근데 그걸 사용자 몰래 한다는 게 문제예요. "당신이 받은 답변은 실은 덜 능력 있는 모델의 것입니다"라는 걸 모르고 지나치는 거잖아요. 신뢰의 문제예요.

어떻게 될지는 아직 모르겠어요. Anthropic이 가드레일 범위를 좁힐지, 아니면 "안전이 우선"이라는 입장을 고수할지. 단기적으로는 연구자들이 Gemini나 오픈소스 모델로 이탈할 가능성이 높아 보여요. IPO를 앞두고 타이밍도 좋지 않고요.

출처

Fable 5 출시 하루 만에 터진 역풍 — "앤트로픽이 몰래 연구자 기능을 제거했다" [Fable 5 후속]

비슷한 주제의 글

신고할 법이 없었다 — 챗GPT, 생물무기 질문 수백 건에 '정확하게' 답했다

겉으론 오픈소스 지지, 속으론 규제 로비 — 오픈AI·앤트로픽 뒷거래 정황 [후속]

빠졌다더니 하루 만에 합류 — 오픈AI, 오픈웨이트 서한 서명자 두 배로 늘렸다 [후속]

사이트 인기 글

[후속] 브로드컴 장중 -14% 확정, 시총 3,000억 달러 증발 — 반도체 섹터 전방위 충격

마이크로소프트 양자 칩 Majorana 2 공개 — AI가 설계하고 신뢰도 1,000배 향상

스페이스X, 역사상 최대 IPO 시작 — 6월 12일 나스닥 SPCX로 데뷔