1. Assumptions- 이번 Lecture에선 미리 두가지 가정을 하고 간다.- 첫 번째: (x,y) ~ D를 만족하는 data distribution D가 존재한다. - 두 번째: 모든 Samples들은 Independent하다. 2. Bias & Variance우리는 Lecture 8에서 다음과 같이 Underfitting과 Overfitting에 대해서 알아보았다. - 이걸 bias와 Variance입장에서 한번 봐보자. (다음 4개의 plot을 보면 쉽게 이해 가능하다.)- bias가 커질수록 Under-fitting되고, Variance가 커질수록 Over-fitting된다.- 여기서 기존의 데이터셋의 크기가 커지면 커질수록 Variance는 작아진다고 한다.- 그래서 모델을 학습할 때 데..
0. Introduction- 해당 강의의 목적성은 해당 강의를 통해서 머신러닝 전문가가 되었으면 좋겠다는 것이다.- 전반적으로 CS229에선 머신러닝에 대한 내용을 담고있다.- 기본적인 자료구조, 확률과 통계, 선형대수학에 대해서 베이스를 깔고 간다고 가정하고 진행한다. 1. Machine Learning?- 해당 강의에서 머신러닝을 정의를 하는데 다음과 같이 정의한다.- 머신러닝 : "컴퓨터가 명확하게 프로그래밍되지 않고도 학습할 수 있는 능력을 제공한다." 2. Supervised Learning(지도 학습)- 오늘날 가장 널리 사용되는 머신러닝 도구는 Supervised Learning(지도 학습)이라고 한다.- Supervised Learning이란 (입력x와 라벨링된 y)가 있는 데이터 셋이 ..
1. Introduce - R4DS라는 책에서는 전통적인 data.frame(데이터프레임) 대신 '티블(tibble)'을 가지고 작업한다. - tibble도 사실 데이터프레임이지만, 좀 더 편리하게 사용할 수 있도록 오래된 동작들을 수정한 것이다. - 티블과 데이터프레임을 같은 의미로 사용하지만 -R의 내장 데이터프레임에 대해 이야기 할 때는 data.frame으로 호칭할 것이다. librart(tidyverse) - tidyverse 패키지를 통해 tibble 패키지를 실행시킬수있다. 2. tibble 생성하기 - R4DS에서 사용하는 대부분의 함수는 tidyverse의 통합 특성 중 하나인 티블을 생성한다. - 대부분의 다른 R패키지는 일반적인 데이터프레임을 사용하므로, - 데이터프레임을 티블로 강제..