11일차 과제

<aside> ❓ 1. “크롤링”의 정의와 어떠한 원리로 동작하는지 HTTP와 HTML의 키워드를 포함하여 설명하시오.

</aside>

Untitled

시작 URL 선정 크롤링을 시작하기 위해 크롤러가 수집할 웹사이트의 URL을 선정
HTTP 요청 보내기 크롤러는 해당 URL에 HTTP 요청을 보내 웹서버로부터 HTML 문서를 가져옴.

HTTP 요청 메소드(GET, POST 등)와 요청 헤더(header)를 설정하여 웹서버로 전송
HTML 문서 파싱 크롤러는 가져온 HTML 문서를 파싱하여 문서 구조와 내용을 분석

파싱에 사용되는 프로그램은 HTML 파서(Parser)
하이퍼링크 추출 HTML 문서 내에 포함된 하이퍼링크(hyperlink)를 추출

추출된 링크는 다시 크롤링 대상 URL로 추가됨
데이터 추출 크롤러는 HTML 문서 내에 포함된 데이터를 추출

데이터 추출에 사용되는 프로그램은 정규식 또는 파싱 라이브러리 등이 있음
저장 및 분석 크롤러는 추출한 데이터를 저장하고 분석

저장에는 데이터베이스 또는 파일 시스템 등이 사용됨

분석에는 통계 분석이나 머신러닝 등이 사용됨
반복 수행 위 과정을 반복하여 웹사이트의 모든 페이지를 탐색하고, 필요한 데이터를 추출

<aside> ❓ 2. 다트에서 반복문과 제어문을 이용하여 다음의 결과를 획득하는 코드를 작성하시오

</aside>

2-1. 0부터 1000까지 49의 배수만 출력하는 코드를 작성하시오