챗GPT [사진: 오픈AI]
챗GPT [사진: 오픈AI]

[디지털투데이 AI리포터] 오픈AI가 GPT 모델 학습을 위해 웹 페이지의 데이터를 추출하는 크롤러를 차단할 수 있는 기능을 도입했다. 

최근 오픈AI는 이제 웹 사이트 운영자가 로봇 텍스트(Robots.txt) 파일에서 GPT봇 크롤러를 비허용 하거나 IP 주소를 차단할 수 있다고 밝혔다. 

7일(현지시간) IT매체 더버지에 따르면 GPT봇을 차단하는 것은 오픈AI가 대규모 언어 모델 학습에 인터넷 데이터를 사용하지 않도록 하는 첫 번째 단계일 수 있다. 

그간 인터넷은 오픈AI의 챗GPT 및 구글 바드와 같은 대규모 언어 모델에 많은 학습 데이터를 제공했다. 그러나 오픈AI는 스크랩한 인터넷 데이터가 소셜 미디어 게시물이나 저작권이 있는 정보인지 확인하지 않는다. 이에 AI 학습을 위한 데이터 소싱은 점점 더 논란이 되고 있다. 

레딧, 엑스(X, 구 트위터)와 같은 사이트는 오픈AI가 게시물을 무료로 사용하는 것을 단속하고 있으며, 저작권자들은 자신의 작품에 대한 무단 사용 혐의로 오픈AI에 소송을 제기하기도 했다. 

한편 오픈AI는 "GPT봇 으로 크롤링된 웹 페이지는 향후 모델 개선에 사용될 수 있으며, 일부 정책을 위반하는 텍스트는 필터링된다"며 "GPT봇의 사이트 액세스를 허용하면 AI 모델이 더 정확해지고 일반적인 기능과 안전성이 향상될 수 있다"고 설명했다.

저작권자 © 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지

관련기사