1. 요약
- 본 연구는 한국증권시장(KOSPI) 상장 종목들의 주가 데이터(일봉, 주봉, 월봉)을 활용하여 LSTM(Long Short-Term Memory) 모델을 훈련하고, 이를 통해 주가 상승 여부를 이진 분류 방식으로 예측하는 것을 목표로 하였다.
- 각각의 주기별 데이터를 학습한 LSTM 모델을 Feature-Level Ensemble 방식으로 결합하여 예측 성능을 향상시키고자 하였으며, 2013년부터 2023년까지의 실제 주가 데이터를 이용해 성능을 비교하였다.
- 연구 결과, 일봉과 주봉 데이터에 기반한 두 개의 LSTMahepfdmf Feature-Level Ensemble 방식으로 결합한 경우, 다른 조합들보다 예측정확도가 가장 크게 향상되었다. 이는 특정 주기 데이터의 특성을 결합함으로써 개별 모델 학습의 한계를 보완하고, 다양한 시간 주기를 보완하고, 다양한 시간 주기를 고려하는 데이터 융합이 예측 성능을 높이는 데 효과적임을 보인다.
2. 서론
- 금융 시장에서 인공지능을 활용한 주가 예측 연구는 크게 두 가지 방식으로 이루어 진다.
i) 기업의 외부 요인 데이터를 활용하는 기본적 분석
ii) 주가 시계열 데이터 패턴을 분석하는 기술적 분석
특히 LSTM(Long Shrot-Term Memory) 모델은 장기적인 데이터 패턴을 효과적으로 학습할 수 있어 주가 예측에 유리하며, 시계열 데이터 분석에 널리 사용된다.
- 본 연구는 한국증권시장(KOSPI) 종목들의 일봉,주봉,월봉 데이터를 각각 LSTM 모델에 학습시킨 후,Feature-Level Ensemble 방식으로 결합하여 예측 성능을 높이는 것을 목표로한다.
- 이 연구는 주가 예측의 실무적 활용 가능성을 높이고, 주기별 데이터를 활용한 예측 성능 향상 방법을 제시하는 데 의의가 있다.
3. 데이터셋 준비
3.1. 보조지표 추가
- 기존의 시가,고가,저가,종가,거래량 정보만 포함된 주가 데이터의 학습 효율을 높이기 위해, 보조 지표를 추가하여 데이터 증강을 수행하였다. 사용된 보조 지표는 다음 네 가지 유형이다.
i) 거래량 기반 지표 : 거래량 변화 패턴을 반영하여 시장의 활발함을 측정
ii) 변동성 지표 : 주가 변동 폭을 나타내어 시장의 불안정성을 파악
iii) 추세 지표 : 주가의 방향성을 분석하여 상승 및 하라 추세를 파악
iv) 모멘텀 지표 : 주가 변동의 속도와 강도를 반영하여 추세의 지속성을 평가
이들 보조 지표는 단순한 주가 데이터보다 더욱 풍부한 학습 데이터를 제공함으로써, 모델이 주가의 복잡한 패턴을 더 효과적으로 학습하고 예측 성능을 높일 수 있는 기반을 마련한다.
3.2. 스케일링
- 데이터에 대한 전처리 작업으로 스케일링(Scaling)을 해야 한다.
- 그 이유는 주가 범위가 크게 다르므로 데이터의 스케일을 맞춰 가중치의 스케일도 일관성 있게 맞처지는 효과를 위함이다.
- 해당 연구에서 사용한 방식은 데이터의 최댓값을 1, 최솟값을 0으로 두는 MinMax 스케일링이다.
- Min-Max 스케일링의 장점은 다음과 같다.
i) LSTM 모델과의 궁합 : LSTM 모델의 활성화 함수(tanh , sigmoid)의 출력 범위와 잘 맞기 때문에 학습 속도를 높이고, 모델의 수렴을 돕는다.
ii) 변동성 분석에 유리 : 주가 데이터는 급격한 변동을 보일 수 있는데, Min-Max스케일링은 이 변동을 일정한 범위 내에서 그대로 반영해 주기 때문에 주가 변동성을 모델이 효과적으로 학습할 수 있도록 한다.
iii) Inverse-Scailing : 예측된 주가를 해석하기 위해 역스케일링이 필요할 수 있다. Min-Max스케일링은 역스케일링이 간단하기 때문에 예측 값을 원래 값으로 쉽게 복원이 가능하다.
3.3. 윈도우 크기 설정
- LSTM은 시계열 데이터의 시간 의존성을 학습하는 데 효과적인 구조를 가진다.
- 따라서 입력 데이터의 윈도우(과거 일정 기간)을 설정하여 모델이 일정 기간 내의 패턴을 학습할 수 있도록 하는 것이 중요하다.
- 해당 연구에선 일봉데이터를 15일 단위, 주봉데이터를 10주 단위, 월봉데이터를 10개월 단위로 구분하여 모델의 입력 데이터로 사용했다.
- 윈도우 크기설정의 중요성은 다음과 같다
i) 단기적 패턴 학습 : 주가는 일반적으로 며칠 간격으로 특정 추세를 나타내는 경우가 많다. 15일이라는 윈도우 크기는 단기적인 변동성과 패턴을 포착하는 데 적절한 기간이라고 판단하였다.
ii) 데이터 학습 효율성 : 윈도우 크기가 너무 짧으면 충분한 과거 정보를 학습하지 못하고, 너무 긴 윈도우 크기는 학습이 과적합될 위험을 높인다.
3.4. 데이터 분할
- 구성한 학습 데이터 셋을 학습과 평가를 위해 훈련(Train), 검증(Validation), 추론(Test) 데이터 셋으로 나누었다.
Train : 2013/01/02 ~ 2021/12/31 까지의 데이터 (약 80%)
Validation : 2022/01/02 ~ 2022/12/31 까지의 데이터 (약 10%)
Test : 2023/01/12 ~ 2023/12/31 까지의 데이터 (약 10%)
위와 같이 8:1:1 비율로 데이터셋을 나누었다.