Accurate Stock Movement Prediction via Multi-Scale and Multi-Domain Modeling

   본 문서에서는 BigData 2024 학회에 발표된 "Accurate Stock Movement Prediction via Multi-Scale and Multi-Domain Modeling" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title : Accurate Stock Movement Prediction via Multi-Scale and Multi-Domain Modeling
  • Authors: JinGee Kim, Yong-chan Park, Jaemin Hong, and U Kang
  • Conference: 2024 IEEE International Conference on Big Data

Stock Movement Prediction

주가 예측은 금융 분야에서 핵심적인 역할을 하는 기술로, 투자자에게 잠재적인 이익 기회를 제공하고 시장 동향을 파악하는 데 큰 도움을 줍니다. 특히 최근에는 전통적인 단일 시계열 분석만으로는 주가가 지닌 복잡하고 비선형적인 변화를 충분히 포착하기 어려워졌습니다. 이에 따라 다양한 모델 구조가 제안되어 왔으며, 긴 시계열 의존성과 지역적 패턴을 모두 고려할 수 있는 새로운 접근들이 주목받고 있습니다.

기존의 여러 연구에서는 주가의 복잡한 의존성을 효과적으로 포착하기 위한 다양한 방법론을 제시하였습니다. 특히 주목할 만한 접근 중 하나는 어텐션 메커니즘을 활용한 방법으로, 장·단기 의존성을 동시에 모형화하고 섹터 간 상관관계 등을 파악하는 데에 유리하다는 점이 알려져 있습니다. 하지만 기존 어텐션 기반 기법들은 수개월 이상의 매우 장기적인 패턴을 파악하기에는 한계가 있으며, 시계열 데이터에 내재된 다중 스케일(multi-scale) 및 다중 도메인(multi-domain) 정보를 충분히 활용하지 못한다는 단점이 보고되고 있습니다. 이 밖에도 합성곱신경망(Convolutional Neural Network, CNN) 혹은 주파수 영역 분석 등을 통해 주가 데이터를 해석하고자 하는 시도가 이루어졌으나, 아직까지도 다양한 시간 스케일에서의 의존성을 동시에 포착하거나, 시·주파수 도메인 모두를 아우르는 전방위적 모델링이 충분히 이루어지지는 못하였습니다.

Proposed Method

본 논문에서 제안한 기법인 ZoomStock은 종합적인 스케일(단기·중기·장기)뿐 아니라 시간·주파수 영역 정보를 통합적으로 고려함으로써 기존 대비 보다 정교한 주가 예측을 가능하게 합니다. 또한 순환합성곱(circular convolution)과 FFT(Fast Fourier Transform)를 활용하여 다양한 패턴을 효율적으로 학습할 수 있도록 설계되었습니다. 구체적으로, ZoomStock은 크게 다음 두 가지 핵심 아이디어를 바탕으로 구성됩니다:
  1. 다중 스케일 정보 활용:

    • 일 단위(daily)와 주 단위(weekly)로 데이터를 샘플링하여, 단기 패턴과 중·장기 패턴을 동시에 포착합니다. 특히 일 단위 데이터는 1D 합성곱을 통해 국소적인 변동 양상을, 주 단위 데이터는 필터 크기가 입력 길이와 동일한 순환합성곱을 통해 글로벌 패턴을 학습할 수 있습니다.
    • 순환합성곱은 일반적인 합성곱과 달리 입력의 양 끝을 연결해 원형으로 취급하므로, 시계열 전 범위의 장기 의존성을 효과적으로 추출합니다.
  2. 다중 도메인 정보 활용:

    • 시간 영역뿐 아니라 주파수 영역에서도 특성을 추출하기 위해 FFT를 적용합니다. 이를 통해 시계열이 지니고 있는 반복 주기나 계절성(seasonality) 등, 시간 영역만으로는 확인하기 어려운 패턴을 추가로 학습합니다.
    • FFT 결과는 복소수 형태로 나타나므로, 이를 실수 크기로 변환하여 주가 변동의 다양한 주파수 성분을 특징 벡터로 통합합니다.

이와 같은 과정을 거쳐 얻은 여러 스케일과 도메인의 특징들을 평균 풀링 및 완전연결층을 통해 축약·변환한 뒤, 각 종목별 벡터 간 상호 작용을 반영할 수 있는 주식축 자가 어텐션 모듈로 전달합니다. 그 후 최종 선형 계층이 상승 혹은 하락 확률을 예측하여 결과를 도출합니다.

그림 1은 ZoomStock이 일 단위 데이터에서 CNN을 이용해 국소적 패턴을 파악하고, 주 단위 데이터에 순환합성곱을 적용해 장기적 흐름을 보강하며, FFT를 거쳐 주파수 영역 특징까지 결합하는 과정을 요약적으로 보여줍니다. 이렇게 다중 스케일·다중 도메인 정보를 통합한 후, 최종적으로 주식별 벡터 간 상호 관련성을 반영하는 층을 거쳐 상승·하락 확률을 도출합니다.

그림 1. ZoomStock의 구조도

Experiments

본 연구에서는 미국, 한국, 대만, 독일 등 다양한 시장에서 수집한 실제 주가 데이터셋을 활용하여, 제안 기법 ZoomStock의 성능을 검증했습니다. 데이터는 일정 기간 동안의 일별 및 주별 종가, 시가, 최고가, 최저가 등의 지표를 포함하며, 이를 전처리 및 정규화 과정을 거쳐 학습에 사용했습니다.

표 1과 같이, ZoomStock은 기존의 시계열 모델(예: LSTM, Attention LSTM, CNN 기반 모델 등)을 포함해 최첨단 모델로 알려진 다양한 기법들과 비교했을 때, 최대 15.7%p 높은 정확도와 31.7%p 높은 MCC를 기록하며 우수한 성능을 보였습니다. 특히 단기 변동이 큰 종목과, 장기 추세가 두드러지는 종목 양쪽 모두에서 안정적인 예측 능력을 확인할 수 있었습니다. 또한 학습 시간이 지나치게 길어지는 기존 주가 예측 모델들의 단점을 보완하기 위해 순환합성곱을 FFT 기반의 효율적 계산으로 대체하여, 그림 2와 같이 약 30% 이상 빠른 학습 속도를 달성했습니다.

표 1. 단일/다중 시계열 데이터에 대한 예측 정확도(Accuracy) 및 매튜스 상관계수(MCC) 비교 실험

그림 2. FFT 기반 합성곱 사용 여부에 따른 학습 시간 비교 실험

Conclusion

본 문서에서는 다양한 시간 스케일과 도메인 정보를 통합적으로 학습하는 주가 예측 기법 ZoomStock을 소개했습니다. ZoomStock은 1D 합성곱과 순환합성곱을 함께 적용하여 주가의 단기·중기·장기 패턴을 고르게 반영하고, FFT를 통해 주파수 영역의 유용한 특징까지 추출함으로써 주가 움직임을 효과적으로 포착합니다. 실제 여러 주식시장 데이터셋을 대상으로 한 실험 결과, ZoomStock이 기존 최첨단 모델 대비 높은 예측 정확도와 안정된 성능을 보여주었습니다. 본 연구에서 제안한 ZoomStock은 단순히 금융 투자뿐 아니라, 시계열 기반 분석이 필요한 다양한 도메인(예: 에너지 수요 예측, 센서 데이터 분석 등)에서도 활용될 수 있을 것으로 기대됩니다. 특히 순환합성곱과 FFT를 접목한 구조는 복잡한 시계열 패턴을 효율적으로 추론하는 데 있어 중요한 역할을 수행하며, 향후 딥러닝 기반의 시계열 처리 영역에서 더욱 폭넓게 응용될 가능성이 있습니다. 논문의 자세한 내용은 [링크]에서 확인할 수 있습니다.