프로그래밍
-
리눅스(CentOS) 에서 nutch & solr 사용 예시프로그래밍/검색 2014. 5. 6. 23:01
이번 포스팅에서는 nutch 위키에 있는 예시를 따라가면서 간단하게 웹 크롤링을 해 보겠다. 참조: http://wiki.apache.org/nutch/NutchTutorial#A3.3._Using_the_crawl_script 1. apache-nutch-1.8/runtime/local/conf/nutch-site.xml을 아래와 같이 수정하여 crawling agent에 My Nutch Spider라는 이름을 설정했다. http.agent.name My Nutch Spider 2. apache-nutch-1.8/runtime/local 디렉토리에서 mkdir -p urls 로 urls 하위 디렉토리를 만든다. 3. urls 폴더 아래에 seed.txt 파일을 생성하고 http://nutch.apach..
-
리눅스(CentOS) 에 nutch 1.8 설치 하기프로그래밍/Etc 2014. 5. 5. 14:58
Apache Nutch는 자바 기반 오픈 소스 web crawler이다. 현재 Nutch에는 두가지 버전이 나오고 있다. Nutch 1.x : 하둡을 기반으로 함 Nutch 2.x: Apache Gora를 storage abstraction layer로 사용하여 HBase, Cassandra 같은 NoSQL 데이터베이스 사용이 가능 Nutch 1 과 2의 성능 비교를 확인 해 보았다. 참조: http://digitalpebble.blogspot.kr/2013/09/nutch-fight-17-vs-221.html 비교버전: nutch 1.7 과 2.2.1 (Hbase / Cassandra) 요약: 기본 nutch command (inject / generate / parse / update) 수행시 평균시..
-
리눅스(CentOS) 에 solr 설치하기프로그래밍/Etc 2014. 5. 4. 22:55
nutch로 수집한 데이터들을 색인하기 위해 solr를 설치하기로 했다. solr는 lucene기반의 엔터프라이즈 검색 플랫폼 오픈소스로 nutch와 연동이 쉽다고 한다. 참고: http://wiki.apache.org/nutch/NutchTutorial solr 설치하기 1. 아래 사이트에서 solr 다운받기 http://www.apache.org/dyn/closer.cgi/lucene/solr/ 2. solr-4.7.2.zip 을 다운받아 unzip solr-4.7.2.zip 으로 압축풀기 3. solr-4.7.2/example 에서 java -jar start.jar 실행 스크립트 실행후 아래 링크에 접속해서 아래와 같은 화면이 나오면 정상적으로 설치가 된 것이다. http://localhost:8..