1. 위치 조정
- 막대 그래프에 색상을 입힐 수 있다. 크게 두가지 방법이 있다.
- 1. color 심미성
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, color = cut))

- bar의 테두리가 색깔로 구분되어있음을 알수 있다. 하지만 육안으로 확인하기 어렵다는 단점이 있다.
- 그렇기에 좀 더 유용한 방법으로 fill을 사용할 수 있다.
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = cut))

- color 심미성에 비해 fill 심미성이 조금 더 시각적으로 유용함을 알 수 있다.
- fill심미성을 clarity에 매핑을 해보자

- 다음과 같이 누적 막대 그래프가 생성된다.
2. Position 인수
- Position 인수로 지정하는 위치 조정에 의해 막대 누적이 자동으로 수행됨
- 누적 막대 그래프를 원하지 않는다면 "identity","dodge","fill" 세옵 션 중 하나를 선택하면 됨
2.1) identity
- 각 객체를 그래프 문맥에 해당되는 곳에 정확히 배치 --> 겹쳐서 배치됨
- 막대가 겹치기 때문에 막대그래프에 대해서는 그다지 유용하지 않음
- 겹치는 것을 구분하려면 alpha(밝기)를 적은 값으로 설정하여 투명하게 하거나
ggplot(
data = diamonds,
mapping = aes(x = cut , fill = clarity)
) +
geom_bar(alpha = 1/5 , position = "identity")

- fill = NA 로 설정하여 완전히 투명하게 해야함
- 대신 심미성은 color 로 부여해야함
ggplot(
data = diamonds,
mapping = aes(x = cut , color = clarity)
) +
geom_bar(fill = NA , position = "identity")

2.2) fill
- 누적막대처럼 동작하지만 누적막대들이 전부 동일한 높이이다.
- 쉽게 설명하자면 그룹들사이에 각각의 비율을 설명해준다.
- 그래프를 보면 이해하기 쉬울것이다.
ggplot(data = diamonds) +
geom_bar(
mapping = aes(x=cut,fill = clarity),
position = "fill"
)

2.3) dodge
- 겹치는 객체가 서로 옆에 배치된다. --> 개별 값들을 비교하기 쉬워진다.
ggplot(data = diamonds) +
geom_bar(
mapping = aes(x=cut,fill = clarity),
position = "dodge"
)

3. position - "jitter"
- [1]강에서의 첫 번째 산점도 플롯을 살펴보자

- 데이터셋엔 234개의 관측값이 있지만 해당 플롯엔 126개의 점만 표시되어있다.
- 그 이유는 hwy, displ의 값들이 반올림되어서 격자위에 나타나기 때문에 많은 점들이 겹쳤기 때문이다.
----> 이를 오버플롯팅 이라고한다.
- 이를 해결하고자 position 을 jitter(조금씩 움직임)로 설정하면 겹치는 것을 피할 수 있다.
- position = "jitter"를 하면 각 점에 적은 양의 랜덤 노이즈가 추가되어 포인트가 퍼지게 된다.
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy),
position = "jitter")

-의문이 있을거다 이렇게 랜덤을 추가하면 덜정확해지지 않을까?
- 작은 스케일에서는 덜 정확해지는건 맞다.
- 하지만 큰 스케일에서는 더 표현력 있게 된다.
4. 연습문제
Q1) 다음 플롯의 문제는 무엇인가? 어떻게 고치겠는가?
ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_point()

- 해당 플롯의 문제점은 너무 겹치는 데이터가 많다는 것이다.
- position = "jitter"를 이용하여 해결할 수 있다.
ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_point(position = "jitter")

Q2) geom_jitter()에서 지터의 정도를 제어하는 파라미터들은 무엇인가?
- width : 지터의 범위를 지정
- height : 지터의 높이를 지정
- seed : 지터를 생성하는데 사용되는 시드 값을 지정
Q3) geom_jitter()와 geom_count()를 비교 대조하라
ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_jitter()

ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_count()

- Jitter와 다르게 count는 겹치는 점들을 합쳐서 점의 크기를 키운다.
'DS Study > R4DS(R언어)' 카테고리의 다른 글
[R4DS] [1-8] 그래프 레이어 문법 (0) | 2024.03.30 |
---|---|
[R4DS] [1-7] 좌표계 (0) | 2024.03.30 |
[R4DS] [1-5] 통계적 변환 (0) | 2024.03.30 |
[R4DS] [1-4] 기하 객체 (Geom 함수 정리) (0) | 2024.03.30 |
[R4DS] [1-3] Facet (0) | 2024.03.29 |
1. 위치 조정
- 막대 그래프에 색상을 입힐 수 있다. 크게 두가지 방법이 있다.
- 1. color 심미성
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, color = cut))

- bar의 테두리가 색깔로 구분되어있음을 알수 있다. 하지만 육안으로 확인하기 어렵다는 단점이 있다.
- 그렇기에 좀 더 유용한 방법으로 fill을 사용할 수 있다.
ggplot(data = diamonds) +
geom_bar(mapping = aes(x = cut, fill = cut))

- color 심미성에 비해 fill 심미성이 조금 더 시각적으로 유용함을 알 수 있다.
- fill심미성을 clarity에 매핑을 해보자

- 다음과 같이 누적 막대 그래프가 생성된다.
2. Position 인수
- Position 인수로 지정하는 위치 조정에 의해 막대 누적이 자동으로 수행됨
- 누적 막대 그래프를 원하지 않는다면 "identity","dodge","fill" 세옵 션 중 하나를 선택하면 됨
2.1) identity
- 각 객체를 그래프 문맥에 해당되는 곳에 정확히 배치 --> 겹쳐서 배치됨
- 막대가 겹치기 때문에 막대그래프에 대해서는 그다지 유용하지 않음
- 겹치는 것을 구분하려면 alpha(밝기)를 적은 값으로 설정하여 투명하게 하거나
ggplot(
data = diamonds,
mapping = aes(x = cut , fill = clarity)
) +
geom_bar(alpha = 1/5 , position = "identity")

- fill = NA 로 설정하여 완전히 투명하게 해야함
- 대신 심미성은 color 로 부여해야함
ggplot(
data = diamonds,
mapping = aes(x = cut , color = clarity)
) +
geom_bar(fill = NA , position = "identity")

2.2) fill
- 누적막대처럼 동작하지만 누적막대들이 전부 동일한 높이이다.
- 쉽게 설명하자면 그룹들사이에 각각의 비율을 설명해준다.
- 그래프를 보면 이해하기 쉬울것이다.
ggplot(data = diamonds) +
geom_bar(
mapping = aes(x=cut,fill = clarity),
position = "fill"
)

2.3) dodge
- 겹치는 객체가 서로 옆에 배치된다. --> 개별 값들을 비교하기 쉬워진다.
ggplot(data = diamonds) +
geom_bar(
mapping = aes(x=cut,fill = clarity),
position = "dodge"
)

3. position - "jitter"
- [1]강에서의 첫 번째 산점도 플롯을 살펴보자

- 데이터셋엔 234개의 관측값이 있지만 해당 플롯엔 126개의 점만 표시되어있다.
- 그 이유는 hwy, displ의 값들이 반올림되어서 격자위에 나타나기 때문에 많은 점들이 겹쳤기 때문이다.
----> 이를 오버플롯팅 이라고한다.
- 이를 해결하고자 position 을 jitter(조금씩 움직임)로 설정하면 겹치는 것을 피할 수 있다.
- position = "jitter"를 하면 각 점에 적은 양의 랜덤 노이즈가 추가되어 포인트가 퍼지게 된다.
ggplot(data = mpg) +
geom_point(mapping = aes(x = displ, y = hwy),
position = "jitter")

-의문이 있을거다 이렇게 랜덤을 추가하면 덜정확해지지 않을까?
- 작은 스케일에서는 덜 정확해지는건 맞다.
- 하지만 큰 스케일에서는 더 표현력 있게 된다.
4. 연습문제
Q1) 다음 플롯의 문제는 무엇인가? 어떻게 고치겠는가?
ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_point()

- 해당 플롯의 문제점은 너무 겹치는 데이터가 많다는 것이다.
- position = "jitter"를 이용하여 해결할 수 있다.
ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_point(position = "jitter")

Q2) geom_jitter()에서 지터의 정도를 제어하는 파라미터들은 무엇인가?
- width : 지터의 범위를 지정
- height : 지터의 높이를 지정
- seed : 지터를 생성하는데 사용되는 시드 값을 지정
Q3) geom_jitter()와 geom_count()를 비교 대조하라
ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_jitter()

ggplot(data = mpg , mapping = aes(x=cty, y = hwy)) +
geom_count()

- Jitter와 다르게 count는 겹치는 점들을 합쳐서 점의 크기를 키운다.
'DS Study > R4DS(R언어)' 카테고리의 다른 글
[R4DS] [1-8] 그래프 레이어 문법 (0) | 2024.03.30 |
---|---|
[R4DS] [1-7] 좌표계 (0) | 2024.03.30 |
[R4DS] [1-5] 통계적 변환 (0) | 2024.03.30 |
[R4DS] [1-4] 기하 객체 (Geom 함수 정리) (0) | 2024.03.30 |
[R4DS] [1-3] Facet (0) | 2024.03.29 |