'crwaler' 태그의 글 목록

수집 엔진(크롤러)의 동적 수집 주기

발생일: 2009.12.30 문제: 이번 프로젝트에서는 S모 사에서 수집해준 데이터를 받아온다. 교육 과정에서 들은 이야기인데, 이 업체에서 만든 수집 엔진(웹 크롤러)는 문서의 수집 주기를 (인공지능이라고까지 하기는 뭐하고) 동적으로 설정한다고 한다. 어떤 방법일까? 해결책: 일단 최초 수집 시에는 기본 설정 단위 기간 (대략 5분 정도) 으로 같은 페이지에 접근해 수집한다. (IP 차단 등 블러킹에 대한 예외는 없다고 가정한다) 이후, 일정 시도만큼의 수집이 종료된 후에, 추가 수집된 데이터의 양을 고려해 최적화된 수집 주기를 설정하게 된다. 예를 들어, A 사이트에서 최근 5분 이내에 수집된 평균 데이터가 많을 경우 그에 따라 수집 주기를 단축하고, 수집된 평균 데이터가 수 건 정도라면 수집 주기를..

Daylogs/Logic 2009. 12. 30. 14:05

이전 1 다음

이전 다음

공지사항

꿀벌개발일지

티스토리툴바