DS Study

1. How to represent Word's Meaning- NLP를 시작하기 앞서서, 각 단어들의 의미를 어떻게 담을지가 중요하다.- 이를 위한 방법 몇가지에 대해서 알아보자.1.1. WordNet- WordNet은 동의어나, 비슷한 단어들을 같은 그룹으로 모아둔것이다.- 하지만, 이러한 단어들은 관리하기가 너무 힘들다. (신조어나 이런 이유)- 뿐만아니라, 만일 좋은 사람, 착한 사람 등등, "좋은"과 "착한"이 만일 같은 그룹이라고 한다해도,- 좋은 사람과, 착한 사람은 뉘앙스가 다르다. - 즉, 단어 간의 관계를 얻어내기 어렵다는 단점이 존재한다. 1.2. One-hot vector- 단어들을 사전에 있는 모든 단어들의 길이만큼 0으로 채워진 리스트 안에,- 어떤 단어가 해당하는 번째만 1로 ..
1. Introduction- lambda는 프로그래밍에서 "함수를 작성하는 방식"을 의미하는 학술 용어이다.- 파이썬에서 lambda를 쓰지않고 숫자의 제곱을 반환하는 함수를 다음과 같이 작성 가능하다.def f(x): return x**2 - 이를 lambda를 이용해서 표기하면 다음과 같다.f = lambda x : x**2 - 기본적으로 lambda expressions은 변수에 이름을 지정하거나 할당하지 않고 단독으로 존재하는 함수이다.- 파이썬에서 람다함수는 한 줄이상의 코드를 가질 수 없다.- BeautifulSoup을 사용하면 특정 유형의 함수를 find_all()에  parameter로 전달 가능하다. bs.find_all(lambda tag: len(tag.attrs) == 2)
1. 왜 정규표현식이 필요할까?- 기본적으로 BeautifulSoup의 find(), find_all(), select() 등을 쓰면 정해진 태그와 속성에 따라 데이터를 가져올 수 있다.- 하지만, i) 정확한 문자열이 아니라 패턴으로 데이터를 찾거나,ii) 부분 일치 / 유동적인 텍스트 / 숫자 포함 여부 등을 찾고 싶다면,- 정규표현식을 사용한다면 쉽게 찾을 수 있다.- 파이썬에선 re module로 쉽게 활용가능하다. 2. 정규표현식을 BeautifulSoup에서 쓰는 방법- re 모듈을 활용하면 다음 항목에서 정규표현식 사용이 가능하다."""i) name : 태그 이름이 특정 패턴과 일치하는 경우ii) text : 텍스트 내용이 패턴과 일치하는 경우iii) attrs : 속성 값이 특정 패턴을 따..
1. Introduction- 거의 모든 웹사이트엔 stylesheet가 존재한다.- 보통 CSS로 꾸며지게 되는데, 이 CSS는 Web Scraping할때 큰 도움이 될 수 있다.- 우선 CSS는 HTML의 요소를 구분해서 서로 다른 스타일을 적용한다.- 예를 들어 다음과 같은 tag가 있다고 해보자. - 우리는 webscraping을 할 때, class를 이용해 이 tag들을 쉽게 구별이 가능하다.ex) black만 수집하고, blue는 제외 - 여기서 우리는 이를 구분해 가져오기 위해 findAll("tag",{"class":"ID"})를 이용할 것이다.- tag는 말 그대로, tag이고, class와 ID는 위에 class, 색상을 의미한다.- 이를 이용하여 https://books.toscrap..
23학번이수현
'DS Study' 카테고리의 글 목록 (2 Page)