728x90
반응형
프로그래밍/검색
-
리눅스(CentOS) 에서 nutch & solr 사용 예시프로그래밍/검색 2014. 5. 6. 23:01
이번 포스팅에서는 nutch 위키에 있는 예시를 따라가면서 간단하게 웹 크롤링을 해 보겠다. 참조: http://wiki.apache.org/nutch/NutchTutorial#A3.3._Using_the_crawl_script 1. apache-nutch-1.8/runtime/local/conf/nutch-site.xml을 아래와 같이 수정하여 crawling agent에 My Nutch Spider라는 이름을 설정했다. http.agent.name My Nutch Spider 2. apache-nutch-1.8/runtime/local 디렉토리에서 mkdir -p urls 로 urls 하위 디렉토리를 만든다. 3. urls 폴더 아래에 seed.txt 파일을 생성하고 http://nutch.apach..