탈옥을 통해 AI 안전 장치를 우회한 후 질의응답을 진행한 예시 [사진: 더 레지스터]
탈옥을 통해 AI 안전 장치를 우회한 후 질의응답을 진행한 예시 [사진: 더 레지스터]

[디지털투데이 AI리포터] 챗GPT, 라마 등 대규모언어모델(LLM)의 안전 장치는 미세 조정으로 쉽게 제거할 수 있음이 밝혀졌다. 

17일 온라인 매체 기가진에 따르면 최근 미국의 프린스턴대학교, 버지니아공과대학교, 스탠포드대학교 및 IBM 리서치 연구진은 오픈AI의 GPT-3.5 터보와 메타의 라마2 7B를 대상으로 테스트를 실시했다. 

그 결과, 소규모 파인튜닝(fine-tuning)으로 세이프 가드를 제거할 수 있었다고 한다. 세이프 가드는 대규모언어모델이 유해한 콘텐츠를 출력하지 않도록 하는 장치다. 

연구진은 대규모언어모델로 전송되는 프롬프트(지시어)에 로드할 수 있는 적대적인 문자열을 자동 생성하는 방법을 발견했다고 밝혔다. 이 문자열을 대규모언어모델로 전송하면 세이프 가드를 제거할 수 있고, 대규모언어모델이 유해한 콘텐츠를 생성할 수 있게 된다고 한다. 이 방법으로 GPT-3.5의 세이프 가드도 API 경유로 조금의 파인튜닝을 실시하면 탈옥이 가능해져 유해한 명령에 응답할 수 있었다는 설명이다. 

연구진은 "대규모언어모델의 세이프 가드는 미세 조정 시 손실될 가능성이 있는 것으로 나타났다"며 "이는 새로운 안전 위험이 발생할 수 있음을 시사한다"고 전했다. 

이어 연구진은 "따라서 사용자는 모델 본래의 안전에 의존하지 않는 것이 필수적"이라고 전했다.

키워드

#AI #탈옥 #챗봇
저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지