robots.txt 사용하기

프로그래밍/Etc

kugancity 2014. 3. 15. 13:30

최근에 개인 홈페이지를 만들고 있는데 외부에 노출되기 싫어서 robots.txt 작성법을 알아보았다.

robots.txt는 검색 엔진이나 웹 크롤러등의 웹 로봇이 사이트를 방문했을때

사이트의 수집 정책을 알려주기 위해 사용한다. wget에게도 사용 가능하다.

다만 정책을 알려주는 것 뿐이라 웹 로봇 작성자가 이걸 무시하고 수집해갈수도 있다.

이런 나쁜 로봇을 검출하기 위해서는 웹 로그 확인이나 트래픽 확인 등의

추가적인 작업이 필요하다.

사용법은 간단하다 웹 서버의 최상단 디렉토리에 robots.txt를 작성해서 넣어두면 된다.

참고로 robots.txt는 누구나 볼 수 있다는 점을 기억하자.

간단한 작성법과 사용법은 아래와 같다.

좀더 자세한 설명을 원하는 사람은 공식 사이트에 가보자. (http://www.robotstxt.org)

작성법

User-agent: bot 이름을 따로 명시하거나 *로 전체를 나타낼 수 있다

Allow: 접근 허용하는 디렉토리 경로를 명시
Disallow: 접근을 허용하지 않는 디렉토리 경로를 명시

모두 접근 금지

User-agent: *
Disallow: /

모두 접근 허용

User-agent: *
Disallow:

또는 빈 robots.txt나 robots.txt를 생성하지 말 것

즉 robots.txt가 없으면 검색 대상이 되어 노출되게 된다.

간혹 상업적인 사이트에서 robots.txt가 없거나 모두 접근 허용을 하는 케이스가 있는데

회원정보나 로그인 기능이 있는 웹 사이트에서는 아래와 같이 회원정보가 있는 디렉토리는 꼭 막아두도록 하자.

특정 디렉토리만 접근 금지

User-agent: *
Disallow: /user/

특정 봇만 접근을 허락하기

User-agent: Googlebot Allow: User-agent: * Disallow: /

만약 트래픽을 유발시키거나 수상한 봇이 발견되면 그 봇만 수집하지 않도록 명시는 할 수 있다.

User-agent: badBot
Disallow: /

728x90