1. State Space- Lecture 17에선 이산적인 MDP에 대해서 알아보았다면, 이번 lecture에선 연속적인 MDP에 대해서 다뤄본다고 한다. - 우선 예를 들어 자율주행 자동차를 모델링한다고 가정해보자.- 자동차의 state를 모델링하기위해서, (위도,경도)로 좌표를 나타낸다. 이를 (x,y)로 치환하자.- 그리고 자동차가 어떤 방향으로 나아가는지 궁금할 것이다. 이를 가속도로 나타낸다. theta- 만약 자동차의 속력이 달라진다면 이때 (x',y',theta')으로 정의해보자. - 이제 자동차에 대해 모델링을 진행할 건데, 모델링은 엔지니어들마다 다를 것이다.- 누군가는 타이어의 마모가 중요하다고 생각할 것이고, 누군가는 자동차의 엔진의 온도를 중요하다고 생각할 것이다.- 즉, 모델링은..
1. Reinforcement Learning- RL은 간단하게, 모든 Step에서 올바른 답을 말하라고 요구하지 않는 알고리즘이다.- 우리같은 엔지니어들이 할 일은 모델이 잘 할떄와 못할 때를 알려주는 reward function를 지정해줘야 한다.- 즉, 모델이 일을 잘 동작할 때마다 높은 reward를 주는 reward function을 작성해야 하고,- 반대면 낮은 reward를 주는 reward function을 작성해야한다.- 만일 체스 ai를 만든다고 생각해보자, 이 ai가 만약 50수에서 져서, -1 이라는 reward를 받는다고 생각해보자.- 근데, ai가 지게 된 요인이 49수일까? 30수때부터 잘못둬서 뒷 일이 전부 꼬일 수 도 있다.- 즉, 어떤 순간부터 불리하게 작용하였는지를 알아..
1. Independent Component Analysis(ICA)- ICA에 대해서 알아볼 건데, PCA와 비슷하게, 이는 데이터를 표현할 basis를 찾는 과정이지만, 하지만 object가 다르다.- motivation으로 "cocktail party effect"를 생각해보자.-n명의 사람들이 동시에 파티에서 이야기하고 있으며, 방에 있는 마이크로 각 사람들의 목소리가 섞인 신호만 기록한다고 하자.- 방엔 서로 다른 거리에 있는 n개의 마이크가 있는데, - 각 마이크는 사람들과의 거리 차이로 인해 각기 다른 사람들의 음성을 혼합한 신호를 받는다.- 이러한 음성 데이터를 n명의 사람들의 음성을 분리할 수 있을까? - 우선 이 문제를 해결하기 위해 s ㅌ R^n을 만족하는 n개의 independent..
0. Introduction- CS229 2018 Autumn강의에서 15,16강 사이에 누락되었던 강의라고 합니다.- 참고하시길 바랍니다.https://www.youtube.com/watch?v=I_c6w1SJSJs&t=282s 1. PCA(Principal Component Analysis)- Unsupervised Learning을 다루고 있기 때문에, 똑같이 n차원에 속하는 x데이터가 m개가 있다고 가정해보자.- 여기서 우리가 목적으로 두는건, 해당 데이터의 차원을 낮추는 것이다. n -> k (k - 밑의 gif을 보면 쉽게 이해가 될 것이다. (직선과 수직방향은 noise라고 생각하면 된다.)- 2차원의 데이터를 1차원으로 mapping시키는 것과 마찬가지다. - PCA를 실제로 하기 위해서,..