0. Reference
https://arxiv.org/abs/2209.03032
Machine Learning Students Overfit to Overfitting
Overfitting and generalization is an important concept in Machine Learning as only models that generalize are interesting for general applications. Yet some students have trouble learning this important concept through lectures and exercises. In this paper
arxiv.org
1. Introduction
- 해당 논문은 Overfitting에 대해 오개념이 잡혀져있는 사람들이 많을수도 있다는 생각하에 나오게 된 논문이다.
- 해당 논문에선 Overfitting이 무엇인지, 그리고 이를 억제하기위한 Regularizaiton에 대해서 설명해준다.
2. Concept of Overfitting
- 우선 Overfitting을 쉽게 이해하기 위해 Validation의 Loss값과 Train의 Loss값의 Gap을 나타내는 값을 정의하자.
- Gap >> 0 이 될 수록 우리는 해당 모델이 Overfitting되었다고 말한다.
- 하지만, 이 Gap이 어느정도 차이가 있을때 Overfitting이라고 부를수 있는지가 중요할 것이다.
- Overfitting에 대한 모습은 아래의 그래프를 통해 알 수 있다.
- Train Loss는 Epoch이 증가할수록 꾸준히 감소하지만,
- Test Loss는 Epoch이 증가하면 감소하다가 어느시점에서 증가하기 시작한다.
- 이러한 패턴을 통해 해당 모델이 train data에 Overfit되었다는 것을 알 수 있다.
- 또한 Generalization이 저하되었다는 것을 알 수 있다.
- 여기서 Generalization은 노이즈가 낀 데이터도 이해할 수 있는가에 대한 능력이라고 생각하면 된다.
- 해당 논문에선 Overfitting에 대한 선입견으로 학생들이 Overfitting을 이산적으로 생각하고 있다는 것이라고 말한다.
- Overfitting은 연속적이라고 이해해야한다는 것이다.
3. Student Misconceptions of Overfitting
- 해당 섹션에서는 Overfitting에 대한 misconceptions의 예시를 제시한다.
- 같이 그 misconceptions에 대해서 알아보자.
3.1. Overfitting을 판단할 때의 실수
- training loss만 보고 overfitting을 볼 수 없다.
- loss값이 아닌 다른 평가지표를 사용하여 overfitting을 볼 수 없다.(ACC를 통해 overfitting 판단 금지)
3.2. Overfitting을 해결할 때의 오개념
- Learning rate을 변경한다고 해서 Overfitting이 해결되는 건 아니다.
- 모델만 문제가 있을것이다라는 생각하면 안되고, 데이터 자체의 문제를 고려해야 한다.
4. Checklist for Debugging ML Models
- 해당논문에서 Overfitting을 방지하기 위해 제공하는 체크리스트가 존재한다.
- 그 내용은 다음과 같다.
1) train때 적절한 Loss function을 사용하였는가?
2) 충분한 Epochs를 주었는가
3) Validation dataset을 이용하여 overfitting을 확인하였는가?
4) 충분한 Train dataset을 이용하였는가?
5) Train/val/test의 분포가 비슷한가?
6) 모델링이 잘되어있는가?
'Paper Review(논문 리뷰) > Deep Learning' 카테고리의 다른 글
[논문 리뷰] [Deep Learning] LSTM: A Search Space Odyssey (1) | 2025.02.05 |
---|---|
[논문 리뷰] [Deep Learning] Long Short-Term Memory (1) | 2025.02.04 |
[논문 리뷰] [Deep Learning] Group Normalization (1) | 2025.01.21 |
[논문 리뷰] [Deep Learning] Layer Normalization (0) | 2025.01.21 |
[논문 리뷰] [Deep Learning] An introduction to ROC analysis (0) | 2025.01.19 |