코넬대 연구팀이 레딧에 13단어 댓글 하나로 ChatGPT 딥리서치와 Gemini AI 검색을 속이는 공격을 입증했어요. 가짜 식당과 데이팅앱이 성공률 최대 62%로 AI 추천 목록에 실제로 올라왔어요. AI 검색이 권위 있는 출처와 일반 사용자 댓글을 구별하지 못한다는 구조적 취약점이 드러났어요.
솔직히 처음 이 연구를 접했을 때 꽤 당황스러웠어요. 해킹도, 정교한 코드도 아니에요. 레딧에 13단어짜리 댓글 하나 남기면 ChatGPT가 없는 식당을 "강력 추천"한다는 이야기거든요.
코넬대 연구팀(Hal Triedman, Tingwei Zhang, Vitaly Shmatikov)이 공개한 논문 "Deep-research agents can be poisoned via user-generated content"가 오늘 여러 미디어에서 크게 다뤄지고 있어요. 연구팀이 만든 공격 기법의 이름은 WARP — Web Agent Retrieval Poisoning이에요. AI가 웹에서 정보를 끌어오는 과정(리트리벌)을 오염시키는 방식이에요.
원리는 단순해요. ChatGPT 딥리서치나 구글 Gemini 같은 AI 검색 도구는 답을 만들 때 실시간으로 웹 페이지를 크롤링해요. 여기에는 레딧, 위키피디아, 쿼라, 유튜브 댓글 같은 사용자 생성 콘텐츠가 상당히 많이 포함돼요. 연구팀 분석에 따르면, 딥리서치 AI가 전체 쿼리의 약 50%에서 사용자 생성 콘텐츠를 인용했고, 이 중 25%가 커뮤니티 기반 플랫폼에서 왔어요.
공격자는 이 구조를 이용해요. 사용자 쿼리와 의미가 비슷한 11~15단어짜리 홍보 문구를 레딧 댓글에 살짝 끼워넣는 거예요. AI 모델은 그 댓글이 쿼리와 의미상으로 가까우면 신뢰할 만한 정보로 처리해버려요. 출처가 아무리 허술해도 내용이 쿼리에 맞으면 통과한다는 거죠.
연구팀이 실제로 증명한 사례가 두 가지예요. 'Sol Azteca'라는 존재하지 않는 멕시칸 레스토랑과 'SilverPath'라는 가짜 데이팅앱을 만들었어요. 관련 레딧 스레드에 짧은 홍보 댓글을 심었더니 ChatGPT와 Gemini 모두 이 가짜 업체들을 실제 추천 목록에 올렸어요. 📊 성공률은 단일 스레드에서 38~51%, 여러 스레드에 반복할 경우 62%까지 올라갔어요.
근데 이게 단순히 "레딧이 문제"라는 이야기가 아니에요. 같은 구조적 취약점은 위키피디아, 쿼라, 유튜브 댓글 어디든 존재해요. 누구나 참여할 수 있는 플랫폼이라면 사실상 다 해당돼요.
사실 이 문제 자체가 완전히 새롭진 않아요. SEO 스팸, 가짜 리뷰 조작, 링크 파밍 ⚠️... 구글 검색 시대에도 같은 싸움이 있었어요. AI 딥리서치는 훨씬 빠른 스크래퍼가 추가된 거지, 근본 취약점은 동일해요. 다만 차이가 있다면, 사람이 구글 검색 결과에서 스팸 링크를 눈으로 걸러낼 수 있는 반면, AI가 합성해 내놓는 "추천"은 출처를 확인하지 않으면 알아채기 훨씬 어렵다는 점이에요.
OpenAI와 구글 모두 딥리서치 출력에 인용 출처를 표시하긴 해요. 하지만 연구팀 지적처럼, 사용자 대부분이 출처 링크를 실제로 클릭해 확인하는 경우는 드물어요. "AI가 추천한다"고 하면 그냥 믿는 거죠.
개인적으로 이 연구에서 가장 인상적인 건, 공격에 기술적 장벽이 전혀 없다는 점이에요. 해킹도, 전문 지식도 필요 없어요. 그냥 레딧에 댓글 하나 쓰는 거예요. 마케터든, 사기꾼이든, 정치적 의도를 가진 누구든 활용할 수 있어요.
AI 딥리서치를 제품·장소·서비스 추천에 활용하고 있다면, 지금 당장 출처 링크를 직접 확인하는 습관이 필요해요. 그게 현재로서 가장 현실적인 방어책이니까요.
출처