130만 건 실대화로 AI 결함을 잡는다
OpenAI 배포 전 안전 테스트 공개 🔬
OpenAI 배포 전 안전 테스트 공개 🔬
130만 건
GPT-5 Thinking → GPT-5.4, 8개월치 익명화 실대화
실사용 대화 수집 → 기존 답변 제거 → 새 모델로 재생성 → 이상 행동 탐지
합성 데이터가 아닌 진짜 사용자 맥락을 그대로 테스트에 활용해요. 인위적으로 만든 케이스는 놓치는 이상 행동을 잡아낼 수 있어요.
합성 테스트로는 못 잡는 결함을 사전 차단
1.5배
10만 건당 10건 실제 → 시뮬레이션 6.7~15건 범위 예측
앤트로픽 Fable 5 강제 차단 이후 AI 안전 기준 논쟁 🔥
OpenAI: 연구 논문으로 테스트 방법론 전면 공개 ✅
다른 AI 회사도 적용 가능 → 업계 새 기준 될 수 있어