1. tidyberse
library(nycflights13)
# A tibble: 336,776 × 19
year month day dep_time sched_dep_time dep_delay arr_time sched_arr_time arr_delay
<int> <int> <int> <int> <int> <dbl> <int> <int> <dbl>
1 2013 1 1 517 515 2 830 819 11
2 2013 1 1 533 529 4 850 830 20
3 2013 1 1 542 540 2 923 850 33
4 2013 1 1 544 545 -1 1004 1022 -18
5 2013 1 1 554 600 -6 812 837 -25
6 2013 1 1 554 558 -4 740 728 12
7 2013 1 1 555 600 -5 913 854 19
8 2013 1 1 557 600 -3 709 723 -14
9 2013 1 1 557 600 -3 838 846 -8
10 2013 1 1 558 600 -2 753 745 8
# ℹ 336,766 more rows
# ℹ 10 more variables: carrier <chr>, flight <int>, tailnum <chr>, origin <chr>,
# dest <chr>, air_time <dbl>, distance <dbl>, hour <dbl>, minute <dbl>,
# time_hour <dttm>
# ℹ Use `print(n = ...)` to see more rows
- 데이터프레임은 뉴욕시에서 2013년에 출발한 336,776개의 모든 항공편이 포함되어 있음
- 데이터 출처 : 미국 교통통계 --> ?flights 에 문서화 되어 있음
- 전체 데이터 셋을 보려면 View(flights)
- 해당 데이터 프레임은 기존과 살짝 다른 tibble이다.
int : 정수의미
dbl : 실수의미
chr : 문자형 벡터, 문자열
dttm : 데이트-타임형 (날짜+ 시간)
lgl : TRUE, FALSE 논리
fctr : 팩터형 , R은 이를 이용하여 가능한 값이 미리 정해진 범주형 변수
date : 데이트형을 의미
2. dplyr 기초
- dplyr의 기초적인 5가지 함수
- filter() : 값을 기준으로 선택
- arrange() : 행을 재정렬
- select() : 이름으로 변수 선택
- mutate() : 기존 변수들의 함수로 새로운 변수 생성
- summarize() : 많은 값을 하나의 요약값으로 합침
- 이 함수들은 전부 group_by()와 함께 사용할 수 있다.
- 해당 함수 들은 데이터 작업 언어에서 동사가 된다.
1. 첫 인수는 데이터프레임이다.
2. 그 이후의 인수들은 변수 이름을 사용하여 데이터 프레임에 무엇을 할지 설명한다.
3. 결과는 새로운 데이터 프레임이다.
'DS Study > R4DS(R언어)' 카테고리의 다른 글
[R4DS] [2-3] arrange() (0) | 2024.03.31 |
---|---|
[R4DS] [2-2] filter() (0) | 2024.03.31 |
[R4DS] [1-8] 그래프 레이어 문법 (0) | 2024.03.30 |
[R4DS] [1-7] 좌표계 (0) | 2024.03.30 |
[R4DS] [1-6] 위치 조정 (0) | 2024.03.30 |