editoy

공통 크롤 (Common Crawl)

웹을 대규모로 수집하여 공개적인 데이터셋을 제공하는 또 다른 비영리 프로젝트로, 인공지능 모델 학습에 광범위하게 사용되어 언론사들의 주요 차단 대상이 됨

용례

"뉴스 사이트들은 인터넷 아카이브뿐만 아니라 상업용 대규모 언어 모델 개발과 밀접하게 연관된 공통 크롤의 봇도 함께 차단하고 있는 추세입니다."