프로그래밍/Etc
-
리눅스(CentOS) 에 solr 설치하기프로그래밍/Etc 2014. 5. 4. 22:55
nutch로 수집한 데이터들을 색인하기 위해 solr를 설치하기로 했다. solr는 lucene기반의 엔터프라이즈 검색 플랫폼 오픈소스로 nutch와 연동이 쉽다고 한다. 참고: http://wiki.apache.org/nutch/NutchTutorial solr 설치하기 1. 아래 사이트에서 solr 다운받기 http://www.apache.org/dyn/closer.cgi/lucene/solr/ 2. solr-4.7.2.zip 을 다운받아 unzip solr-4.7.2.zip 으로 압축풀기 3. solr-4.7.2/example 에서 java -jar start.jar 실행 스크립트 실행후 아래 링크에 접속해서 아래와 같은 화면이 나오면 정상적으로 설치가 된 것이다. http://localhost:8..
-
리눅스(CentOS)에 자바 설치하기프로그래밍/Etc 2014. 3. 30. 21:43
뉴스 크롤링 하기 위해 nutch을 설치한 후 실행하려는데 아래 메세지가 나왔다. Error: JAVA_HOME is not set. 자바가 안깔려있었나? 일단 환경 확인 # which java (자바위치 확인) /usr/bin/java 링크를 따라가보니 리눅스에 기본으로 깔려있는 openJDK만 있는 듯 하여 내친 김에 oracle jdk 다운로드 ㄱㄱ 일단 32비트인지 64비트인지 확인하니 64비트였다. # getconf LONG_BIT 64 http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jdk-7u45-oth-JPR 오라클 홈페이지에 가서 64비트 리눅스용 jdk를 다운..
-
robots.txt 사용하기프로그래밍/Etc 2014. 3. 15. 13:30
최근에 개인 홈페이지를 만들고 있는데 외부에 노출되기 싫어서 robots.txt 작성법을 알아보았다. robots.txt는 검색 엔진이나 웹 크롤러등의 웹 로봇이 사이트를 방문했을때 사이트의 수집 정책을 알려주기 위해 사용한다. wget에게도 사용 가능하다. 다만 정책을 알려주는 것 뿐이라 웹 로봇 작성자가 이걸 무시하고 수집해갈수도 있다. 이런 나쁜 로봇을 검출하기 위해서는 웹 로그 확인이나 트래픽 확인 등의 추가적인 작업이 필요하다. 사용법은 간단하다 웹 서버의 최상단 디렉토리에 robots.txt를 작성해서 넣어두면 된다. http://www.sample.com/robots.txt 참고로 robots.txt는 누구나 볼 수 있다는 점을 기억하자. 간단한 작성법과 사용법은 아래와 같다. 좀더 자세한 ..