-
리눅스(CentOS) 에 nutch 1.8 설치 하기프로그래밍/Etc 2014. 5. 5. 14:58728x90반응형
Apache Nutch는 자바 기반 오픈 소스 web crawler이다. 현재 Nutch에는 두가지 버전이 나오고 있다.
Nutch 1.x : 하둡을 기반으로 함
Nutch 2.x: Apache Gora를 storage abstraction layer로 사용하여 HBase, Cassandra 같은 NoSQL 데이터베이스 사용이 가능
Nutch 1 과 2의 성능 비교를 확인 해 보았다.
참조: http://digitalpebble.blogspot.kr/2013/09/nutch-fight-17-vs-221.html
비교버전: nutch 1.7 과 2.2.1 (Hbase / Cassandra)
요약: 기본 nutch command (inject / generate / parse / update) 수행시 평균시간 (Avg min per iteration)
nutch 1.7 : 12min
nutch 2.2.1/Cassandra: 45 min
nutch 2.2.1/Hbase: 50 min
기본적으로 하둡구조가 더 편하기도 하고 성능도 1 버전이 더 좋아 주저없이 1에서 가장 최근 버전인 1.8 버전을 선택
nutch 설치 순서
참조: http://wiki.apache.org/nutch/NutchTutorial
1. http://apache.tt.co.kr/nutch/ 에서 apache-nutch-1.8-src.zip 다운로드
2. # unzip apache-nutch-1.8-src.zip
3. # cd apache-nutch-1.8
4. # ant
ant로 설치 후 스크린 샷. build와 runtime 디렉토리가 새로 생성되었다.
앞으로 nutch conf 파일은 runtime/local/conf 디렉토리밑의 conf 파일이 사용된다.
ant clean을 할 경우 runtime 디렉토리가 삭제되니 conf 파일들 백업에 유의하도록 해야겠다.
다음에는 설치된 nutch로 시험삼아 crawling을 해보도록 하겠다.
728x90반응형'프로그래밍 > Etc' 카테고리의 다른 글
윈도우 서버 2012 - 플래시 업데이트 에러 (0) 2014.11.15 [mysql] mysql 한글 깨짐 현상 ( UTF-8로 인코딩 변경) (2) 2014.08.24 리눅스(CentOS) 에 solr 설치하기 (1) 2014.05.04 리눅스(CentOS)에 자바 설치하기 (0) 2014.03.30 robots.txt 사용하기 (0) 2014.03.15