DS Study

1. Install BeautifulSoup!pip install b4 - 외장 라이브러리 때문에 따로 설치가 필요하다.from bs4 import BeautifulSoup 2. Run BeautifulSoup- 단순히 title 태그를 가져오는 예시를 함께 봐보자.from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.example.com")bs = BeautifulSoup(html.read(),'html.parser')bs.title - 좀 더 자세히 알아보면,- urlopen("http://www.example.com")을 통해, www.example.com에 HTTP 요청을 보내고,- HTML..
1. Introduction- 브라우저를 열고 naver.com을 입력 후 enter를 누르면 다음과 같은 일이 발생한다.- HTTP 요청의 형태로 데이터가 컴퓨터로 전송되고, - naver의 웹 서버는 naver.com의 루트에 있는 데이터를 나타내는 HTML 파일로 응답하게 된다. - python으로 이 과정을 한번 확인해보자.- python 내장 라이브러리인 urlib을 이용하면 이를 확인할 수 있다.from urllib.request import urlopenhtml = urlopen("https://naver.com")print(html.read())
1. HTML- 웹 브라우저의 주요 기능은 HTML 문서를 표시하는 것이다.- HTML 문서는 .html or .htm으로 끝나는 파일이다.- text file과 마찬가지로 HTML file은 보통 ASCII로 인코딩된다.- HTML의 예시는 다음과 같다. This is Ex So simple Example 구글로 이동 - 조금 자세히 들어가보자.- 로 끝나는 각 문자열을 태그라고 한다.- 자세히보면, 이렇게 시작 태그와 종료 태그가 정의되어 있다는게 감각적으로 알 수 있을 것이다.- 즉, 시작 태그와 끝 태그는 위와 같이 정의가 되고, 그 사이에 태그의 콘텐츠가 들어가게 된다. 2. CSS- CSS는 웹 페이지에서 HTML 요소의 모양을 정의한다.- CSS는 레이아웃, 색상, 위치, 크기 및 ..
1. Introduction- Web Scraping을 잘하기 위해선 OSI(Open Systems Interconnection) 7 Layer에 대한 개념은 인지하고 있어야한다.2. OSI 7 Layer2.1. Physical Layer- 실제로 데이터를 0과 1의 전기적 신호로 변환하여 전송한다.- 하드웨어(케이블, 리피터, 허브...) 중심이다.- 데이터가 전송되는 가장 하위 레벨이며, 실제 물리적인 장비가 여기에 해당한다. 2.2. Data Link Layer- Data link layer는 local network의 두 노드(Computer -- Router)간에 정보가 전송되는 방식을 지정한다.- 이 계층은 단일 전송의 시작과 끝을 정의하고, 전송이 손실되거나 왜곡된 경우 이를 수정해준다.- ..
23학번이수현
'DS Study' 카테고리의 글 목록 (3 Page)