본문 바로가기 메뉴 바로가기

꿀벌개발일지

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

꿀벌개발일지

검색하기 폼
  • 분류 전체보기 (695)
    • Daylogs (695)
      • AI (10)
      • 생각_경험 (3)
      • 개발뉴스 (2)
      • 책 (1)
      • AWS (3)
      • Javascript (237)
      • HTML (24)
      • Nginx (26)
      • Git (27)
      • Xcode (9)
      • iOS (18)
      • Java (74)
      • C (13)
      • Python (28)
      • DB (39)
      • Unix (50)
      • Security (6)
      • Logic (10)
      • Spring (4)
      • Etc (87)
      • Web (4)
      • UX (12)
      • DevTip (5)
      • Docker (2)
  • 방명록

crwaler (1)
수집 엔진(크롤러)의 동적 수집 주기

발생일: 2009.12.30 문제: 이번 프로젝트에서는 S모 사에서 수집해준 데이터를 받아온다. 교육 과정에서 들은 이야기인데, 이 업체에서 만든 수집 엔진(웹 크롤러)는 문서의 수집 주기를 (인공지능이라고까지 하기는 뭐하고) 동적으로 설정한다고 한다. 어떤 방법일까? 해결책: 일단 최초 수집 시에는 기본 설정 단위 기간 (대략 5분 정도) 으로 같은 페이지에 접근해 수집한다. (IP 차단 등 블러킹에 대한 예외는 없다고 가정한다) 이후, 일정 시도만큼의 수집이 종료된 후에, 추가 수집된 데이터의 양을 고려해 최적화된 수집 주기를 설정하게 된다. 예를 들어, A 사이트에서 최근 5분 이내에 수집된 평균 데이터가 많을 경우 그에 따라 수집 주기를 단축하고, 수집된 평균 데이터가 수 건 정도라면 수집 주기를..

Daylogs/Logic 2009. 12. 30. 14:05
이전 1 다음
이전 다음
공지사항

Blog is powered by Tistory / Designed by Tistory

티스토리툴바