GPTBot 크롤링 차단하기: 소규모 웹사이트를 보호하는 방법

2025년 2월 06일, 목요일

최근 몇 차례 사이트가 다운되는 일이 있었습니다. 처음에는 단순히 사용자 유입 증가 때문이라고 생각했지만, 트래픽 리셋을 반복하면서 상세 통계를 확인할 필요성을 느꼈습니다. 분석 결과, 특정 IP와 User-Agent를 가진 봇이 비정상적으로 높은 전송량을 발생시키고 있었으며, 그 주범이 OpenAI의 웹 크롤러 GPTBot이라는 것을 발견했습니다.

GPTBot은 OpenAI에서 운영하는 웹 크롤러로, 웹페이지를 수집하여 AI 모델 학습에 활용합니다. 그러나 소규모 웹사이트의 경우, 이런 크롤링이 DDoS 공격처럼 작용하여 서버에 과부하를 유발하고, 트래픽 비용 부담을 운영자에게 전가시키는 문제를 일으킬 수 있습니다.


1. GPTBot이란?

GPTBot은 OpenAI가 AI 모델 학습을 위해 만든 웹 크롤러입니다. OpenAI에 따르면, GPTBot은 개인정보 및 기타 정책을 위반하는 데이터를 걸러내며, 웹사이트 소유자는 robots.txt 파일을 통해 GPTBot의 접근을 차단할 수 있습니다.

GPTBot User-Agent 정보

GPTBot의 User-Agent는 다음과 같은 형태를 가집니다:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

이 외에도 OpenAI에서 운영하는 다양한 크롤러 및 제휴 크롤러가 있을 수 있으므로, 로그 분석을 통해 정확한 User-Agent를 확인하는 것이 중요합니다.

GPTBot 공식 문서: OpenAI 크롤러 개요 – OpenAI API


2. 모질라(Mozilla)와 User-Agent 구조

웹 브라우저와 봇들은 특정한 User-Agent 문자열을 사용하여 자신을 식별합니다. GPTBot도 일반적인 브라우저와 유사한 User-Agent 형식을 따르지만, “GPTBot/1.0” 과 같은 키워드로 구별할 수 있습니다.

User-Agent 예시:

  • 일반 사용자 브라우저:
    • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
  • GPTBot:
    • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

3. robots.txt로 웹 크롤러 차단하기

robots.txt는 검색 엔진 및 크롤러가 웹사이트를 크롤링할 때 따르는 규칙을 정의하는 파일입니다. 이를 활용하여 GPTBot을 차단할 수 있습니다.

robots.txt 설정 방법

  1. 워드프레스 관리자 페이지 접속
  2. Yoast SEO 플러그인 사용 시:
    • “도구” → “파일 편집기” → robots.txt 수정
    • 또는 “설정” → “고급” → “크롤링 최적화” → “OpenAI GPTBot 차단” (Premium 버전 필요)
  3. FTP 또는 파일 관리자에서 robots.txt 파일 직접 수정

아래 내용을 robots.txt 파일에 추가하면 GPTBot을 차단할 수 있습니다:

User-agent: *
Allow: /
Sitemap: https://travel-in-busan.com/sitemap_index.xml

User-agent: GPTBot
Disallow: /

이렇게 설정하면 OpenAI의 GPTBot이 사이트를 크롤링하지 못하도록 차단됩니다.

주의: robots.txt는 모든 봇이 반드시 따라야 하는 강제적인 규칙이 아닙니다. OpenAI는 이를 준수하지만, 다른 AI 크롤러(예: Perplexity AI)는 이를 무시하는 경우가 있습니다.


4. 기타 대응 조치

1) 웹 서버 보안 설정 강화

  • Café24 호스팅을 사용하는 경우, 보안 관리 > 봇 트래픽 차단 기능 활용
  • 방화벽(WAF)에서 특정 User-Agent 차단

2) 로그 모니터링

AI 크롤러의 크롤링 여부를 확인하려면 서버 로그를 정기적으로 점검해야 합니다.

  • access.log 또는 error.log에서 GPTBot의 User-Agent를 검색
  • 비정상적인 요청이 많다면 추가적인 방어 조치 필요

3) Cloudflare 및 방화벽(Firewall) 활용

  • Cloudflare의 “봇 관리” 기능을 활용하면 AI 크롤러를 차단할 수 있음
  • 특정 User-Agent 및 IP 대역을 차단하는 규칙을 설정

5. 결론

소규모 웹사이트 운영자에게 AI 크롤러는 예상치 못한 트래픽 부담을 유발할 수 있습니다. 특히 GPTBot과 같은 AI 크롤러가 웹사이트를 무자비하게 크롤링할 경우, 서버 과부하 및 트래픽 비용 문제가 발생할 수 있습니다.

이를 방지하기 위해서는 robots.txt 설정, 로그 모니터링, 방화벽 규칙 적용 등 적극적인 보안 조치가 필요합니다.

AI 기업들이 데이터 수집을 위해 웹사이트에 접속할 때, 사이트 운영자의 허락을 받는 것이 더욱 중요해지고 있습니다. 웹사이트를 보호하기 위해 지속적인 모니터링과 차단 조치를 수행하는 것이 필요합니다.


6. 참고 링크

GPTBot 크롤링으로 인해 사이트 운영에 부담을 느끼고 있다면, 위의 방법들을 활용하여 사이트를 보호하세요!

Last Updated: 2025년 02월 07일Categories: 워드프레스 가이드Views: 77

댓글 남기기