robots.txt 사용하기
최근에 개인 홈페이지를 만들고 있는데 외부에 노출되기 싫어서 robots.txt 작성법을 알아보았다.
robots.txt는 검색 엔진이나 웹 크롤러등의 웹 로봇이 사이트를 방문했을때
사이트의 수집 정책을 알려주기 위해 사용한다. wget에게도 사용 가능하다.
다만 정책을 알려주는 것 뿐이라 웹 로봇 작성자가 이걸 무시하고 수집해갈수도 있다.
이런 나쁜 로봇을 검출하기 위해서는 웹 로그 확인이나 트래픽 확인 등의
추가적인 작업이 필요하다.
사용법은 간단하다 웹 서버의 최상단 디렉토리에 robots.txt를 작성해서 넣어두면 된다.
http://www.sample.com/robots.txt
참고로 robots.txt는 누구나 볼 수 있다는 점을 기억하자.
간단한 작성법과 사용법은 아래와 같다.
좀더 자세한 설명을 원하는 사람은 공식 사이트에 가보자. (http://www.robotstxt.org)
작성법
User-agent: bot 이름을 따로 명시하거나 *로 전체를 나타낼 수 있다
Allow: 접근 허용하는 디렉토리 경로를 명시
Disallow: 접근을 허용하지 않는 디렉토리 경로를 명시
모두 접근 금지
User-agent: *
Disallow: /
모두 접근 허용
User-agent: *
Disallow:
또는 빈 robots.txt나 robots.txt를 생성하지 말 것
즉 robots.txt가 없으면 검색 대상이 되어 노출되게 된다.
간혹 상업적인 사이트에서 robots.txt가 없거나 모두 접근 허용을 하는 케이스가 있는데
회원정보나 로그인 기능이 있는 웹 사이트에서는 아래와 같이 회원정보가 있는 디렉토리는 꼭 막아두도록 하자.
User-agent: *
Disallow: /user/
특정 봇만 접근을 허락하기
User-agent: Googlebot Allow: User-agent: * Disallow: /
만약 트래픽을 유발시키거나 수상한 봇이 발견되면 그 봇만 수집하지 않도록 명시는 할 수 있다.
User-agent: badBot
Disallow: /