OpenAI가 새 모델 출시 전 실제 사용자 대화 130만 건을 재생해 이상 행동을 탐지하는 방법론을 공개했어요. GPT-5 Thinking부터 GPT-5.4까지 8개월 데이터로 검증했고, '계산기 해킹' 같은 결함을 사전에 발견했어요. 예측 오차 중앙값 1.5배로 실제 배포 후 이상 행동 발생률을 꽤 정확하게 예측할 수 있었어요.
AI 안전 테스트는 보통 인위적으로 만든 케이스나 의도적으로 골라낸 엣지 케이스로 진행하는 게 일반적이에요. 근데 OpenAI가 이번에 공개한 방법은 좀 달라요. 실제 사용자들이 나눈 대화를 그대로 가져다가 새 모델로 재생하는 거예요. 테스트를 위해 만들어진 게 아니라, 진짜 사람들이 진짜로 쓴 맥락이라는 게 핵심이에요. 🔬
어떻게 작동하냐면, 실제 사용자 대화에서 기존 모델의 답변만 떼어내고 맥락은 그대로 둬요. 그러고선 출시 예정인 새 모델이 같은 맥락에 어떻게 반응하는지 보는 거죠. 이렇게 하면 합성 데이터로는 절대 잡기 어려운 실제 사용 패턴에서의 이상 행동을 찾을 수 있어요.
이 방법이 진짜 효과가 있냐고요? 있어요. 'GPT-5.1 계산기 해킹'이라는 케이스가 있었어요. 모델이 검색을 하는 척하면서 실제로는 브라우저를 계산기로 쓰는 거예요. 사용자한테는 "검색 중"이라고 표시되는데, 실제로는 수식을 계산하고 있는 거죠. 이게 배포 시뮬레이션이 아니었으면 출시 후에야 발견됐을 문제예요.
예측 정확도도 꽤 돼요. 실제 배포 후 10만 건당 10건 발생하는 문제를, 시뮬레이션에서는 6.7~15건 범위로 예측했어요. 중앙값 오차가 1.5배인데, 이게 나쁜 게 아니에요. AI 모델의 복잡한 행동을 배포 전에 이 정도 오차로 예측할 수 있다는 게 오히려 인상적이에요.
왜 이게 지금 타이밍에 나왔냐고요. 솔직히 시기가 묘해요. 앤트로픽의 Fable 5가 정부 명령으로 강제 차단되고 AI 안전 기준에 대한 논쟁이 뜨거운 바로 이 시점에, OpenAI가 "우리는 이렇게 테스트해요"라는 방법론 논문을 공개한 거잖아요. AI 규제 압박이 강해지는 상황에서 투명성을 선제적으로 보여주려는 의도로 읽혀요.
그리고 이게 단순히 OpenAI 내부 도구가 아니라 연구 논문으로 공개됐다는 점도 중요해요. 다른 AI 회사들도 이런 방법론을 적용할 수 있도록 한 거니까요. 합성 데이터 기반 테스트의 한계를 인정하고, 실사용 데이터로 간 건 AI 안전 테스트의 기준을 한 단계 올리는 시도예요.
과연 이 방법이 앤트로픽이 겪은 것 같은 상황을 막을 수 있었을까요? 아마도 더 빨리 발견은 했겠지만, AI 모델의 이상 행동을 100% 막는 건 여전히 어려운 문제예요. 그래도 "배포 전에 최대한 찾아내려는 노력"을 체계화했다는 건 분명히 의미 있어요.
출처