![챗GPT [사진: 오픈AI]](https://cdn.digitaltoday.co.kr/news/photo/202308/484207_451531_3123.jpg)
[디지털투데이 AI리포터] 오픈AI가 GPT 모델 학습을 위해 웹 페이지의 데이터를 추출하는 크롤러를 차단할 수 있는 기능을 도입했다.
최근 오픈AI는 이제 웹 사이트 운영자가 로봇 텍스트(Robots.txt) 파일에서 GPT봇 크롤러를 비허용 하거나 IP 주소를 차단할 수 있다고 밝혔다.
7일(현지시간) IT매체 더버지에 따르면 GPT봇을 차단하는 것은 오픈AI가 대규모 언어 모델 학습에 인터넷 데이터를 사용하지 않도록 하는 첫 번째 단계일 수 있다.
그간 인터넷은 오픈AI의 챗GPT 및 구글 바드와 같은 대규모 언어 모델에 많은 학습 데이터를 제공했다. 그러나 오픈AI는 스크랩한 인터넷 데이터가 소셜 미디어 게시물이나 저작권이 있는 정보인지 확인하지 않는다. 이에 AI 학습을 위한 데이터 소싱은 점점 더 논란이 되고 있다.
레딧, 엑스(X, 구 트위터)와 같은 사이트는 오픈AI가 게시물을 무료로 사용하는 것을 단속하고 있으며, 저작권자들은 자신의 작품에 대한 무단 사용 혐의로 오픈AI에 소송을 제기하기도 했다.
한편 오픈AI는 "GPT봇 으로 크롤링된 웹 페이지는 향후 모델 개선에 사용될 수 있으며, 일부 정책을 위반하는 텍스트는 필터링된다"며 "GPT봇의 사이트 액세스를 허용하면 AI 모델이 더 정확해지고 일반적인 기능과 안전성이 향상될 수 있다"고 설명했다.
SNS 기사보내기
관련기사
- SKT, AI기반 교통신호 최적화 솔루션으로 차량통행시간 단축
- 구글 "모든 공개 데이터 AI 학습에 사용" 개인정보 보호 정책 변경
- KT, 구독형 AI로 네트워크 인프라 운영 효율 강화
- "AI 강사와 대화하며 공부해요"...KT, AI 코디니에 'AI 튜터' 도입
- 인도판 메가스터디 바이주스, AI 모델로 학생 학습 능력↑
- 日, AI 학습에 저작물 허가 '대담한 행보'…소니도 가세
- 오픈AI, 크리에이터를 위한 'GPT봇' 출시
- 챗GPT에 의존하면 안되는 이유…연구
- 오픈AI, 챗GPT '맞춤형 명령 기능' 무료 확대
- 오픈 소스 AI 학습 데이터셋 '북스3' 삭제 '극약처방'
- 클라우드페어, AI 봇 퇴치 도구 출시…웹 스크래핑 막는다

