1.Introduce - 해당 챕터에서는 R에서 데이터를 일관성있게 정리하는 법을 학습한다. - 이는 타이디(tidy,깔끔한) 데이터 라는 구조이다. - 타이디 데이터에 대해 실무적으로 소개하고, tidyr 패키지에 포함된 도구를 살펴본다 1.1.Ready - 지저분한 데이터셋을 정리하는 도구가 있는 tidyr 패키지에 중점을 둔다. - tidyr 은 tidyverse의 핵심 구성원이다. 2.타이디 데이터 - 하나의 기본 데이터를 표현하는 방식은 다양하다. - 다음 예시는 같은 데이터를 다른 네 가지 방식으로 구성하여 보여준다. - 각 데이터셋은 네 개의 변수, country,year,population 및 cases의 값을 동일하게 보여주지만 다른 방식으로 구성한다. table1 # A tibble: ..
1. Introduce - R 패키지가 제공하는 데이터를 이용하여 데이터 과학 도구를 익히는 것은 좋은 방법이다. - 이번 챕터에서는 일반 텍스트 직사각형 파일을 R로 불러오는 방법을 배운다. -tidyverse 패키지에 존재하는 readr패키지를 사용하여 flat파일을 불러오는 방법을 학습할것이다. cf) flat file : 구조화 되어 있지 않은 파일 2. 시작하기 - readr 함수 대부분은 플랫 파일을 데이터프레임으로 바꾸는 것과 연관이 있다. - read_csv() : 쉼표로 구분된 파일을 읽음 - read_csv2() : 세미콜론으로 구분된 파일 - read_tsv() : tap으로 구분된 파일 - read_delim() : 임의의 구분자로 된 파일 - 해당 함수들은 문법이 모두 비슷함 - ..
1. Introduce - R4DS라는 책에서는 전통적인 data.frame(데이터프레임) 대신 '티블(tibble)'을 가지고 작업한다. - tibble도 사실 데이터프레임이지만, 좀 더 편리하게 사용할 수 있도록 오래된 동작들을 수정한 것이다. - 티블과 데이터프레임을 같은 의미로 사용하지만 -R의 내장 데이터프레임에 대해 이야기 할 때는 data.frame으로 호칭할 것이다. librart(tidyverse) - tidyverse 패키지를 통해 tibble 패키지를 실행시킬수있다. 2. tibble 생성하기 - R4DS에서 사용하는 대부분의 함수는 tidyverse의 통합 특성 중 하나인 티블을 생성한다. - 대부분의 다른 R패키지는 일반적인 데이터프레임을 사용하므로, - 데이터프레임을 티블로 강제..
1.공변동(covariation) - 둘 이상의 변숫값이 연관되어 동시에 변하는 경향을 말함 - 공변동을 발견하는 가장 좋은 방법 : "두 개 이상의 변수 사이의 관계를 시각화 하는 것" 2. 범주형 변수와 연속형 변수 - 이전의 빈도 다각형(히스토그램)과 같이 범주형 변수로 구분된 연속형 변수의 분포를 탐색하고자 하는 것이 일반적이다. -geom_freqploy()의 기본 모양은 뫂이가 빈도수를 나타내기 때문에 그러한 종류의 비교는 유용X --> 즉, 그룹 중 하나가 다른 값들보다 월등히 작으면 형태의 차이를 파악하기 어려움 ex) 다이아몬드의 가격이 품질에 따라 어떻게 달라지는지 확인해보자. ggplot(data = diamonds, mapping = aes(x = price)) + geom_freq..