nutch
-
리눅스(CentOS) 에서 nutch & solr 사용 예시프로그래밍/검색 2014. 5. 6. 23:01
이번 포스팅에서는 nutch 위키에 있는 예시를 따라가면서 간단하게 웹 크롤링을 해 보겠다. 참조: http://wiki.apache.org/nutch/NutchTutorial#A3.3._Using_the_crawl_script 1. apache-nutch-1.8/runtime/local/conf/nutch-site.xml을 아래와 같이 수정하여 crawling agent에 My Nutch Spider라는 이름을 설정했다. http.agent.name My Nutch Spider 2. apache-nutch-1.8/runtime/local 디렉토리에서 mkdir -p urls 로 urls 하위 디렉토리를 만든다. 3. urls 폴더 아래에 seed.txt 파일을 생성하고 http://nutch.apach..
-
리눅스(CentOS) 에 nutch 1.8 설치 하기프로그래밍/Etc 2014. 5. 5. 14:58
Apache Nutch는 자바 기반 오픈 소스 web crawler이다. 현재 Nutch에는 두가지 버전이 나오고 있다. Nutch 1.x : 하둡을 기반으로 함 Nutch 2.x: Apache Gora를 storage abstraction layer로 사용하여 HBase, Cassandra 같은 NoSQL 데이터베이스 사용이 가능 Nutch 1 과 2의 성능 비교를 확인 해 보았다. 참조: http://digitalpebble.blogspot.kr/2013/09/nutch-fight-17-vs-221.html 비교버전: nutch 1.7 과 2.2.1 (Hbase / Cassandra) 요약: 기본 nutch command (inject / generate / parse / update) 수행시 평균시..