AI 챗봇과의 대화 내용을 복원하는 공격법을 설명한 논문이 발표됐다  [사진: 셔터스톡]
AI 챗봇과의 대화 내용을 복원하는 공격법을 설명한 논문이 발표됐다  [사진: 셔터스톡]

[디지털투데이 AI리포터] 오픈AI의 챗GPT와 같은 AI 챗봇의 통신 데이터를 가로채 대화 내용을 복원하는 방법에 관한 연구가 나왔다.

21일(현지시간) 일본 IT미디어에 따르면 이스라엘 네게브 벤 구리온 대학 소속 연구팀은 '당신의 메시지는 무엇이었나요? AI 챗봇에 대한 원격 키로깅 공격'이라는 제목의 논문을 발표했다. 이는 대규모언어모델(LLM)을 활용한 AI 챗봇의 텍스트 답변을 복원하는 사이드 채널 공격을 제안한 보고서다.

해당 공격법은 사용자와 LLM 간의 암호화된 패킷 통신을 가로채는 것부터 시작한다. 가로챈 트래픽을 통해 LLM의 응답 메시지 위치를 파악하는 방식이다. 응답 메시지가 확인되면 각 메시지 크기의 변화를 분석해 응답에 포함된 토큰의 길이를 추측할 수 있다.

이후 추출한 토큰 길이를 문장 등 의미있는 묶음으로 분할해 두 개의 전용 LLM으로 구성된 모델에 전달, 응답의 텍스트를 추론하면 된다. 아울러 공격 대상 AI 챗봇이 생성한 대량의 응답 예시를 학습 데이터에 추가해 추론 모델의 정확도를 더욱 높일 수 있다.

연구팀은 유효성 평가를 위해 오픈AI, 마이크로소프트(MS), 구글 등의 서비스를 대상으로 실험을 진행했다. 그 결과 GPT-4로 생성한 1만개의 응답에서 54.4%의 공격 성공률을 달성한 것으로 나타났다. 전체 응답에 대한 공격 성공률은 평균 37.96%였다.

한편 이번 연구 결과가 AI 챗봇의 보안 취약성을 드러내 이를 보완하기 위한 방안을 모색할 필요가 있다고 매체는 평가했다.

 

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사