코넬대 연구팀이 레딧에 13단어 댓글 하나로 ChatGPT 딥리서치와 Gemini AI 검색을 속이는 공격을 입증했어요. 가짜 식당과 데이팅앱이 성공률 최대 62%로 AI 추천 목록에 실제로 올라왔어요. AI 검색이 권위 있는 출처와 일반 사용자 댓글을 구별하지 못한다는 구조적 취약점이 드러났어요.
솔직히 처음 이 연구를 접했을 때 꽤 당황스러웠어요. 해킹도, 정교한 코드도 아니에요. 레딧에 13단어짜리 댓글 하나 남기면 ChatGPT가 없는 식당을 "강력 추천"한다는 이야기거든요.
코넬대 연구팀(Hal Triedman, Tingwei Zhang, Vitaly Shmatikov)이 공개한 논문 "Deep-research agents can be poisoned via user-generated content"가 오늘 여러 미디어에서 크게 다뤄지고 있어요. 연구팀이 만든 공격 기법의 이름은 WARP — Web Agent Retrieval Poisoning이에요. AI가 웹에서 정보를 끌어오는 과정(리트리벌)을 오염시키는 방식이에요.
원리는 단순해요. ChatGPT 딥리서치나 구글 Gemini 같은 AI 검색 도구는 답을 만들 때 실시간으로 웹 페이지를 크롤링해요. 여기에는 레딧, 위키피디아, 쿼라, 유튜브 댓글 같은 사용자 생성 콘텐츠가 상당히 많이 포함돼요. 연구팀 분석에 따르면, 딥리서치 AI가 전체 쿼리의 약 50%에서 사용자 생성 콘텐츠를 인용했고, 이 중 25%가 커뮤니티 기반 플랫폼에서 왔어요.
공격자는 이 구조를 이용해요. 사용자 쿼리와 의미가 비슷한 11~15단어짜리 홍보 문구를 레딧 댓글에 살짝 끼워넣는 거예요. AI 모델은 그 댓글이 쿼리와 의미상으로 가까우면 신뢰할 만한 정보로 처리해버려요. 출처가 아무리 허술해도 내용이 쿼리에 맞으면 통과한다는 거죠.
연구팀이 실제로 증명한 사례가 두 가지예요. 'Sol Azteca'라는 존재하지 않는 멕시칸 레스토랑과 'SilverPath'라는 가짜 데이팅앱을 만들었어요. 관련 레딧 스레드에 짧은 홍보 댓글을 심었더니 ChatGPT와 Gemini 모두 이 가짜 업체들을 실제 추천 목록에 올렸어요. 📊 성공률은 단일 스레드에서 38~51%, 여러 스레드에 반복할 경우 62%까지 올라갔어요.
근데 이게 단순히 "레딧이 문제"라는 이야기가 아니에요. 같은 구조적 취약점은 위키피디아, 쿼라, 유튜브 댓글 어디든 존재해요. 누구