1. 통계적 변환
- Bar chart
- geom_bar()로 그릴수 있다.
- diaond dataset : ggplot2에 있으며 약 54,000개의 다이아몬드
각각의 price, carat, color, clarity, cut과 같은 정보를 담고있다.
- ex)
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut))
- 해당 차트는 x축으로 diamond 변수중 하나인 cut을 표시함
- y축으로 count를 표시하는데 count는 diamond의 변수가 아님!
- count는 어디서 온걸까?
-- 막대 그래프, 히스토그램,빈도 다각형은 데이터를 빈(bin)계급으로 만든 후 각 빈에 떨어지는 점들의 개수인 도수를 플롯
-- 평활 차트들은 데이터에 모델을 적합한 후 모델을 이용한 예측값을 플롯
-- 박스 플롯은 분포의 로버스트(robust)한 요약값을 계산한 후 특수한 형태의 박스로 표시
-----> stat(그래프에 사용할 새로운 값을 계산하는 알고리즘 / 통계적 변환의 준말)
2. Geom_bar()의 작동방식
- geom_bar()가 stat_count()를 이용한다는 것을 확인할수 있고
- 이를 통한 stat이 count로 반환되어있음을 알수있다.
- geom_bar()대신 stat_count()를 사용할수 있다.
- ex)
ggplot(data = diamonds) +
stat_count(mapping = aes(x = cut))
- 같은 결과를 도출했음을 알수있다.
-모든 지옴은 기본 스탯이 있고 모든 스탯은 기본 지옴이 있기 때문에 이것이 가능하다.
- 일반적으로 내부 통계적 변환에 대해 신경 쓸 필요 없이 지옴을 사용할 수 있다.
-하지만 명시적으로 스탯을 사용해야 할 상황이 있다. 그 이유 3가지에 대해 알아보자.
3. 명시적으로 stat을 사용해야 하는 이유 3가지
1. 기본 스탯을 덮어쓰고 싶을 수 있다.
2. 변환된 변수에서 심미성으로 기본 매핑을 덮어쓰고자 할 수 있다.
3.코드에서 통계적 변환에 주의를 많이 집중시키고자 할 수 있다.
'DS Study > R4DS(R언어)' 카테고리의 다른 글
[R4DS] [1-7] 좌표계 (0) | 2024.03.30 |
---|---|
[R4DS] [1-6] 위치 조정 (0) | 2024.03.30 |
[R4DS] [1-4] 기하 객체 (Geom 함수 정리) (0) | 2024.03.30 |
[R4DS] [1-3] Facet (0) | 2024.03.29 |
[R4DS] [1-2] 심미성 매핑 (0) | 2024.03.27 |