문제 : https://www.acmicpc.net/problem/1269 1269번: 대칭 차집합 첫째 줄에 집합 A의 원소의 개수와 집합 B의 원소의 개수가 빈 칸을 사이에 두고 주어진다. 둘째 줄에는 집합 A의 모든 원소가, 셋째 줄에는 집합 B의 모든 원소가 빈 칸을 사이에 두고 각각 주어 www.acmicpc.net Code: import sys # 첫 번째 리스트를 입력으로 받습니다. l = sys.stdin.readline() # 첫 번째 리스트의 요소들을 읽어와서 정수로 변환하고, 중복을 제거하여 집합으로 만듭니다. l1 = set(map(int, sys.stdin.readline().split())) # 두 번째 리스트의 요소들을 읽어와서 정수로 변환하고, 중복을 제거하여 집합으로 만듭니..
분류 전체보기

1. 결측값 - 데이터셋에서 이상값을 발견하고 다음 분석으로 넘어가고자 할 때, 다음의 두가지 옵션이 존재함 1) 이상값이 포함된 행 전체를 삭제한다. diamonds2 % filter(between(y,3,20)) -하나의 측정값이 유효하지 않다고 해서 모든 측정값이 유효하지 않은 것은 아니므로 -해당 옵션은 권장하지 않는다. - 저품질의 데이터가 있을 때마다 모든 변수에 대해서 이 방법을 적용하게 된다면 - 어떤 데이터도 남아있지 않게 될 것이다. 2)이상값을 결측값으로 변경한다.(권장) - mutate()를 사용하여 변수를 수정된 복사값으로 대체가능하다 --> ifelse()함수를 사용하면 이상값을 NA로 바꿀수 있다. diamonds2 % mutate(y = ifelse(y20 , NA , y))..

1. EDA? - 해당 챕터에서는 데이터를 체계적으로 탐색하기 위해 시각화 및 탐색을 활용하는 과정을 정리할 것이다. - 해당 작업을 탐색적 데이터 분석 또는 EDA(Exploratory Data Analysis)라고 한다. - 다음과 같은 반복적인 작업으로 이루어져 있다. 1. 데이터에 대한 질문 만들기. 2. 데이터를 시각화,변형 및 모델링하여 질문에 대한 답 찾기. 3. 질문을 개선하거나 새로운 질문을 만들기 위해 학습한 방법을 사용 -EDA는 엄격한 규칙을 가진 형식적인 과정이 아닌 사고하는 상태 그자체이다. -EDA는 모든 데이터 분석에서 중요한 부분을 차지 --> 그이유는 질문이 주어진다고 해도 데이터의 품질은 항상 조사해야하기 때문이다. -데이터 정제를 하기 위해서는 EDA의 모든 도구(시각..

1. summarize() - 데이터프레임을 하나의 행으로 축약한다. summarize(flights,delay = mean(dep_delay,na.rm=TRUE)) # A tibble: 1 × 1 delay 1 12.6 -summarize()는 group_by()와 함께 사용하는게 효율적이다. -group_by() : 분석의 단위를 전체 데이터셋에서 개별 그룹으로 변경시킴 ex) by_day %) -ex) 각 위치에 대해 거리와 평균 지연 사이에 관계를 탐색하고 싶다고 해보자 -ex) by_dest %로 해결할수 있음 delay % group_by(dest) %>% summarize( count = n(), dist = mean(distance,na.rm=TRUE), delay = mean(arr_de..