분류 전체보기

1. EDA? - 해당 챕터에서는 데이터를 체계적으로 탐색하기 위해 시각화 및 탐색을 활용하는 과정을 정리할 것이다. - 해당 작업을 탐색적 데이터 분석 또는 EDA(Exploratory Data Analysis)라고 한다. - 다음과 같은 반복적인 작업으로 이루어져 있다. 1. 데이터에 대한 질문 만들기. 2. 데이터를 시각화,변형 및 모델링하여 질문에 대한 답 찾기. 3. 질문을 개선하거나 새로운 질문을 만들기 위해 학습한 방법을 사용 -EDA는 엄격한 규칙을 가진 형식적인 과정이 아닌 사고하는 상태 그자체이다. -EDA는 모든 데이터 분석에서 중요한 부분을 차지 --> 그이유는 질문이 주어진다고 해도 데이터의 품질은 항상 조사해야하기 때문이다. -데이터 정제를 하기 위해서는 EDA의 모든 도구(시각..
1. summarize() - 데이터프레임을 하나의 행으로 축약한다. summarize(flights,delay = mean(dep_delay,na.rm=TRUE)) # A tibble: 1 × 1 delay 1 12.6 -summarize()는 group_by()와 함께 사용하는게 효율적이다. -group_by() : 분석의 단위를 전체 데이터셋에서 개별 그룹으로 변경시킴 ex) by_day %) -ex) 각 위치에 대해 거리와 평균 지연 사이에 관계를 탐색하고 싶다고 해보자 -ex) by_dest %로 해결할수 있음 delay % group_by(dest) %>% summarize( count = n(), dist = mean(distance,na.rm=TRUE), delay = mean(arr_de..
1.mutate() - 새로운 열을 추가하는 함수 - mutate()는 새로운 열을 항상 dataset 마지막에 추가함 -ex) r 누적합 - cummean() -> 누적평균
1.select() - 변수가 수백,수천 개인 데이터셋을 자주 만나게 될 것이다. - 실제로 관심있는 변수들로 좁혀 신속하게 zoom in해준다. ex) 이름으로 열 선택 select(flights,year,month,day) # A tibble: 336,776 × 3 year month day 1 2013 1 1 2 2013 1 1 3 2013 1 1 4 2013 1 1 5 2013 1 1 6 2013 1 1 7 2013 1 1 8 2013 1 1 9 2013 1 1 10 2013 1 1 # ℹ 336,766 more rows # ℹ Use `print(n = ...)` to see more rows ex) year과 day사이의 (경계포함) 열 모두 선택 select(flights,year:day) ..
23학번이수현
'분류 전체보기' 카테고리의 글 목록 (57 Page)