ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • robots.txt 사용하기
    프로그래밍/Etc 2014. 3. 15. 13:30
    반응형

    최근에 개인 홈페이지를 만들고 있는데 외부에 노출되기 싫어서 robots.txt 작성법을 알아보았다.

     

    robots.txt는 검색 엔진이나 웹 크롤러등의 웹 로봇이 사이트를 방문했을때

    사이트의 수집 정책을 알려주기 위해 사용한다. wget에게도 사용 가능하다.

    다만 정책을 알려주는 것 뿐이라  웹 로봇 작성자가 이걸 무시하고 수집해갈수도 있다.

    이런 나쁜 로봇을 검출하기 위해서는 웹 로그 확인이나 트래픽 확인 등의

    추가적인 작업이 필요하다.

     

     

     

    사용법은 간단하다 웹 서버의 최상단 디렉토리에 robots.txt를 작성해서 넣어두면 된다.

    http://www.sample.com/robots.txt

     

    참고로 robots.txt는 누구나 볼 수 있다는 점을 기억하자.

    간단한 작성법과 사용법은 아래와 같다.

    좀더 자세한 설명을 원하는 사람은 공식 사이트에 가보자. (http://www.robotstxt.org)

     

    작성법

     

    User-agent: bot 이름을 따로 명시하거나 *로 전체를 나타낼 수 있다

    Allow: 접근 허용하는 디렉토리 경로를 명시
    Disallow: 접근을 허용하지 않는 디렉토리 경로를 명시

     

     

    모두 접근 금지

     

    User-agent: *
    Disallow: /

     

    모두 접근 허용

    User-agent: *
    Disallow:

     

    또는 빈 robots.txt나 robots.txt를 생성하지 말 것

    즉 robots.txt가 없으면 검색 대상이 되어 노출되게 된다.

     

     

    간혹 상업적인 사이트에서 robots.txt가 없거나 모두 접근 허용을 하는 케이스가 있는데

    회원정보나 로그인 기능이 있는 웹 사이트에서는 아래와 같이 회원정보가 있는 디렉토리는 꼭 막아두도록 하자.

     

    특정 디렉토리만 접근 금지

     

    User-agent: *
    Disallow: /user/

     

     

     

    특정 봇만 접근을 허락하기  

    User-agent: Googlebot Allow: User-agent: * Disallow: /

     

     

    만약 트래픽을 유발시키거나 수상한 봇이 발견되면 그 봇만 수집하지 않도록 명시는 할 수 있다.

     

    User-agent: badBot
    Disallow: /

     

     

     

     

    728x90
    반응형
Designed by Tistory.