주요 메뉴 바로가기 (상단) 본문 컨텐츠 바로가기 주요 메뉴 바로가기 (하단)

내용 퍼 가지 말라는데…여전히 ‘크롤링’ 포기 않는 AI 기업들

박진수 에디터 조회수  

인공지능(AI) 챗봇에 궁금한 점을 물어보면, 챗봇은 먼저 온라인으로 관련 내용을 검색한다. 검색 결과가 어느 정도 모이면 도움 될 만한 내용을 추출해 정리하고 사용자에게 답변을 돌려준다.

이때 사용되는 대표적인 기술로 ‘크롤링(Crawling)’이 있다. 웹사이트를 돌아다니며 원하는 내용을 수집하는 기술로 1994년 상용화됐다. 크롤링에 사용하는 소프트웨어를 ‘크롤러’라고 부르는데, 서버 부담을 줄이고 웹사이트에서 필요한 내용을 얻기 용이해 검색 관련 기술을 제공하는 기업체는 대부분 크롤러를 사용한다.

그러나 모든 웹사이트가 정보를 흔쾌히 내주진 않는다. 유료 콘텐츠를 취급하거나 외부에 알려지기를 꺼리는 웹사이트는 ‘로봇’이라는 파일을 통해 크롤러의 활동을 막는다. 웹사이트를 구성하는 로봇 파일(robots.txt)에 크롤링 행위를 거부한다는 내용의 표준 코드를 입력하면 해당 사이트에서는 크롤러가 활동하지 못한다.

불펌 방지 코드 삽입했지만…AI 기업 여전히 ‘크롤링’ 중

그런 와중 일부 AI 기업이 크롤링을 금지한 웹사이트의 내용을 수집한다는 주장이 제기됐다. 로이터통신은 콘텐츠 라이선스 스타트업 ‘톨빗(TollBit)’의 제보를 인용해, AI 기업 몇 군데가 크롤링을 금지한 웹사이트의 내용을 수집하기 위해 비표준 기술을 사용하고 있다고 6월 21일(현지시간) 보도했다.

톨빗은 어느 기업이 비표준 기술을 사용했는지 밝히지 않았다. 한편 비슷한 시기에 미국 언론사 포브스(Forbes), 와이어드(Wired), 숏컷(The Shortcut)은 무료 AI 검색 엔진 개발사 ‘퍼플렉시티(Perplexity)’가 크롤링 금지 코드를 무시하고 매체 기사를 무단 인용했다고 주장했다.

매체들은 퍼플렉시티가 유료 회원만 볼 수 있는 ‘페이월(Paywall)’ 기사 내용까지 무단으로 수집해 AI 검색 결과에 활용했다고 알렸다. 포브스는 검색 결과에 출처가 표기돼 있었지만, 눈을 가늘게 뜨고 봐야 할 정도로 작은 아이콘 형태로 삽입돼 식별하기 어려웠다고 덧붙였다.

소식이 전해진 뒤 미국 경제 매체 비즈니스 인사이더(Business Insider)가 조사한 결과에 따르면 챗GPT(ChatGPT) 개발사 오픈AI(OpenAI), 클로드(Claude) 개발사 앤트로픽(Anthropic)도 웹사이트 로봇 파일에 명시한 크롤링 금지 코드를 무시하고 내용을 수집한 것으로 드러났다.

미국과 캐나다의 2,200개 이상 매체를 대표하는 뉴스미디어연합(NMA)은 크롤링 금지 코드를 무시하는 행위가 연합 회원사에 악영향을 미칠 수 있다며 우려를 표했다.

많은 매체가 중요한 기사나 칼럼을 유료 고객에게 제공해 수익을 창출하는데, 유료 기사의 내용을 누구나 AI 챗봇으로 검색할 수 있다면 멤버십에 가입하는 소비자가 줄어 매체 수익 감소로 이어질 가능성이 높다. 또한 AI 챗봇이 기사 내용을 허가 없이 인용하면 저작권 위반으로 간주될 수도 있다.

크롤링 방지 우회는 불법 아냐, AI 기업 양심에 기대야

크롤링 방지를 우회하는 행위 자체는 법에 위배되지 않는다. 로봇을 활용한 크롤링 금지 코드는 웹 표준 기술일 뿐이며, 이 기술을 준수할지 여부는 기업체가 결정할 일이다. 따라서 로봇 파일에 적힌 크롤링 금지 코드를 비표준 기술로 무시한다고 법적 제재를 가하진 못한다.

모든 비표준 크롤링 기술을 차단하는 건 현실적으로 불가능한 이야기다. 결국 AI 챗봇이 기사 내용을 무단 인용하지 않으려면 개발사가 표준 기술을 자의적으로 준수해야 한다.

퍼플렉시티는 자체 크롤러 외에 다른 개발사가 만든 크롤러도 함께 사용하고 있다며, 최근 매체 기사 내용을 수집한 크롤러는 자사 소프트웨어가 아니라고 책임 소재를 부인했다. 그러나 특정 매체를 수집 대상에서 제외했는지 묻는 말에는 답변을 피했다.

한편 비즈니스 인사이더가 크롤링 금지 코드를 무시했다고 주장한 AI 기업 오픈AI와 앤트로픽은 온라인으로 데이터를 수집할 때 웹사이트의 로봇 파일에 명시한 크롤링 금지 규칙을 준수하겠다고 밝힌 바 있다. 매체 주장대로 이들 기업이 크롤링 방지 코드를 우회했다고 밝혀지면 비난을 면치 못할 것으로 보인다.

테크플러스 에디터 이병찬

tech-plus@naver.com​

author-img
박진수 에디터
CP-2023-0021@techpress.com

댓글0

300

댓글0

[Techpress] 랭킹 뉴스

  • 비운의 클라우드 엑박 '키스톤', 이런 기기였다
  • 서피스 듀오 3가 나왔다면 이런 모습일까
  • 2025년형 'BMW M5'...플러그인 하이브리드로 출시된다
  • 유튜브, 유료 서비스 ‘프리미엄’ 혜택 더 늘린다
  • 외부 프로그램 필요 없다, 스팀 게임화면 녹화 기능 발표
  • 비전 프로 느낌... 메타 퀘스트, 창 배치 이렇게 바뀐다

[Techpress] 공감 뉴스

  • 모토로라 레이저폰, 윈도우 '리콜' 닮은 기능 탑재한다
  • 애플, 비전 프로 ‘헤드 밴드’ 특허 출원…착용감 개선될까?
  • 에어태그와 판박이? 모토로라 '모토 태그' 발표
  • 모토로라, ‘레이저 2024’ 시리즈 공개…커버 디스플레이 더 커졌다
  • [폰카홀릭]<6>배경 흐려지는 '인물사진 모드' 덕분에 디카 안 부럽다
  • 구글, 유튜브에 탑재할 생성 AI 챗봇 개발 중?

당신을 위한 인기글

  • ‘보안 검사 더 빨라진다’ 새로운 기내 수하물 검색 시스템 도입하는 홍콩
    ‘보안 검사 더 빨라진다’ 새로운 기내 수하물 검색 시스템 도입하는 홍콩
  • 에어비앤비가 정복하지 못한 유일한 곳에 등장한 숙박 플랫폼은?
    에어비앤비가 정복하지 못한 유일한 곳에 등장한 숙박 플랫폼은?
  • 래퍼 칸예 웨스트, 무인양품과 콜라보해 힙한 맥도날드 패키지 선보여
    래퍼 칸예 웨스트, 무인양품과 콜라보해 힙한 맥도날드 패키지 선보여
  • “역시” 한혜진 브라톱 입고 미친 몸매 뽐내며 톱모델 인증했다
    “역시” 한혜진 브라톱 입고 미친 몸매 뽐내며 톱모델 인증했다
  • 김태호 vs 나영석 김태호 완패? 시청률 6배 차이…, 시간대 변경
    김태호 vs 나영석 김태호 완패? 시청률 6배 차이…, 시간대 변경
  • 정치권 이승기 거론, ‘정신이 나갔었나 봐’ 장애인 비하?
    정치권 이승기 거론, ‘정신이 나갔었나 봐’ 장애인 비하?
  • “50대 맞아?” 30대 동안 미모 뽐낸 여배우
    “50대 맞아?” 30대 동안 미모 뽐낸 여배우
  • 동성에게 스토킹 당해 남편과 별거하게 됐다는 연예인
    동성에게 스토킹 당해 남편과 별거하게 됐다는 연예인
  • 10년 전보다 더 어려졌다는 연예인, 직접 밝힌 관리 비결은?
    10년 전보다 더 어려졌다는 연예인, 직접 밝힌 관리 비결은?
  • 신인 일 때 감독 따귀를 때려 6개월 방송정지 당했다는 여배우
    신인 일 때 감독 따귀를 때려 6개월 방송정지 당했다는 여배우
  • 노래 못해 아이돌 그만두고 배우로 전향 후 대박 쳤다는 연예인
    노래 못해 아이돌 그만두고 배우로 전향 후 대박 쳤다는 연예인
  • 열애설엔 노코멘트, “진짜 뭐 있는거 아니냐?” 현장 폭로 이어져…
    열애설엔 노코멘트, “진짜 뭐 있는거 아니냐?” 현장 폭로 이어져…

[Techpress] 인기 뉴스

  • 비운의 클라우드 엑박 '키스톤', 이런 기기였다
  • 서피스 듀오 3가 나왔다면 이런 모습일까
  • 2025년형 'BMW M5'...플러그인 하이브리드로 출시된다
  • 유튜브, 유료 서비스 ‘프리미엄’ 혜택 더 늘린다
  • 외부 프로그램 필요 없다, 스팀 게임화면 녹화 기능 발표
  • 비전 프로 느낌... 메타 퀘스트, 창 배치 이렇게 바뀐다

[Techpress] 추천 뉴스

  • 모토로라 레이저폰, 윈도우 '리콜' 닮은 기능 탑재한다
  • 애플, 비전 프로 ‘헤드 밴드’ 특허 출원…착용감 개선될까?
  • 에어태그와 판박이? 모토로라 '모토 태그' 발표
  • 모토로라, ‘레이저 2024’ 시리즈 공개…커버 디스플레이 더 커졌다
  • [폰카홀릭]<6>배경 흐려지는 '인물사진 모드' 덕분에 디카 안 부럽다
  • 구글, 유튜브에 탑재할 생성 AI 챗봇 개발 중?

당신을 위한 인기글

  • ‘보안 검사 더 빨라진다’ 새로운 기내 수하물 검색 시스템 도입하는 홍콩
    ‘보안 검사 더 빨라진다’ 새로운 기내 수하물 검색 시스템 도입하는 홍콩
  • 에어비앤비가 정복하지 못한 유일한 곳에 등장한 숙박 플랫폼은?
    에어비앤비가 정복하지 못한 유일한 곳에 등장한 숙박 플랫폼은?
  • 래퍼 칸예 웨스트, 무인양품과 콜라보해 힙한 맥도날드 패키지 선보여
    래퍼 칸예 웨스트, 무인양품과 콜라보해 힙한 맥도날드 패키지 선보여
  • “역시” 한혜진 브라톱 입고 미친 몸매 뽐내며 톱모델 인증했다
    “역시” 한혜진 브라톱 입고 미친 몸매 뽐내며 톱모델 인증했다
  • 김태호 vs 나영석 김태호 완패? 시청률 6배 차이…, 시간대 변경
    김태호 vs 나영석 김태호 완패? 시청률 6배 차이…, 시간대 변경
  • 정치권 이승기 거론, ‘정신이 나갔었나 봐’ 장애인 비하?
    정치권 이승기 거론, ‘정신이 나갔었나 봐’ 장애인 비하?
  • “50대 맞아?” 30대 동안 미모 뽐낸 여배우
    “50대 맞아?” 30대 동안 미모 뽐낸 여배우
  • 동성에게 스토킹 당해 남편과 별거하게 됐다는 연예인
    동성에게 스토킹 당해 남편과 별거하게 됐다는 연예인
  • 10년 전보다 더 어려졌다는 연예인, 직접 밝힌 관리 비결은?
    10년 전보다 더 어려졌다는 연예인, 직접 밝힌 관리 비결은?
  • 신인 일 때 감독 따귀를 때려 6개월 방송정지 당했다는 여배우
    신인 일 때 감독 따귀를 때려 6개월 방송정지 당했다는 여배우
  • 노래 못해 아이돌 그만두고 배우로 전향 후 대박 쳤다는 연예인
    노래 못해 아이돌 그만두고 배우로 전향 후 대박 쳤다는 연예인
  • 열애설엔 노코멘트, “진짜 뭐 있는거 아니냐?” 현장 폭로 이어져…
    열애설엔 노코멘트, “진짜 뭐 있는거 아니냐?” 현장 폭로 이어져…