-
robots.txt 사용하기프로그래밍/Etc 2014. 3. 15. 13:30728x90반응형
최근에 개인 홈페이지를 만들고 있는데 외부에 노출되기 싫어서 robots.txt 작성법을 알아보았다.
robots.txt는 검색 엔진이나 웹 크롤러등의 웹 로봇이 사이트를 방문했을때
사이트의 수집 정책을 알려주기 위해 사용한다. wget에게도 사용 가능하다.
다만 정책을 알려주는 것 뿐이라 웹 로봇 작성자가 이걸 무시하고 수집해갈수도 있다.
이런 나쁜 로봇을 검출하기 위해서는 웹 로그 확인이나 트래픽 확인 등의
추가적인 작업이 필요하다.
사용법은 간단하다 웹 서버의 최상단 디렉토리에 robots.txt를 작성해서 넣어두면 된다.
http://www.sample.com/robots.txt
참고로 robots.txt는 누구나 볼 수 있다는 점을 기억하자.
간단한 작성법과 사용법은 아래와 같다.
좀더 자세한 설명을 원하는 사람은 공식 사이트에 가보자. (http://www.robotstxt.org)
작성법
User-agent: bot 이름을 따로 명시하거나 *로 전체를 나타낼 수 있다
Allow: 접근 허용하는 디렉토리 경로를 명시
Disallow: 접근을 허용하지 않는 디렉토리 경로를 명시모두 접근 금지
User-agent: *
Disallow: /모두 접근 허용
User-agent: *
Disallow:또는 빈 robots.txt나 robots.txt를 생성하지 말 것
즉 robots.txt가 없으면 검색 대상이 되어 노출되게 된다.
간혹 상업적인 사이트에서 robots.txt가 없거나 모두 접근 허용을 하는 케이스가 있는데
회원정보나 로그인 기능이 있는 웹 사이트에서는 아래와 같이 회원정보가 있는 디렉토리는 꼭 막아두도록 하자.
특정 디렉토리만 접근 금지User-agent: *
Disallow: /user/특정 봇만 접근을 허락하기
User-agent: Googlebot Allow: User-agent: * Disallow: /
만약 트래픽을 유발시키거나 수상한 봇이 발견되면 그 봇만 수집하지 않도록 명시는 할 수 있다.
User-agent: badBot
Disallow: /728x90반응형'프로그래밍 > Etc' 카테고리의 다른 글
윈도우 서버 2012 - 플래시 업데이트 에러 (0) 2014.11.15 [mysql] mysql 한글 깨짐 현상 ( UTF-8로 인코딩 변경) (2) 2014.08.24 리눅스(CentOS) 에 nutch 1.8 설치 하기 (2) 2014.05.05 리눅스(CentOS) 에 solr 설치하기 (1) 2014.05.04 리눅스(CentOS)에 자바 설치하기 (0) 2014.03.30