Mitigating Distribution Shift in Stock Price Data via Return-Volatility Normalization for Accurate Prediction

본 문서에서는 CIKM 2025 학회에서 발표된 "Mitigating Distribution Shift in Stock Price Data via Return-Volatility Normalization for Accurate Prediction" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title: Mitigating Distribution Shift in Stock Price Data via Return-Volatility Normalization for Accurate Prediction 
  • Authors: Hyunwoo Lee, Jihyeong Jeon, Jaemin Hong, and U Kang 
  • Conference: The 34th ACM International Conference on Information and Knowledge Management

Stock Price Prediction (주가 예측)

주가 예측이란 과거의 주식 가격 흐름, 거래량, 뉴스 등 다양한 데이터를 분석하여 미래의 주식 가격이 어떻게 변할지 미리 예상하는 기술입니다. 쉽게 말해, '내일 주식이 오를까, 내릴까?'를 예측하여 투자의 성공 확률을 높이려는 시도라고 할 수 있습니다. 주가 예측은 금융 분야에서 가장 도전적인 과제 중 하나입니다.

Distribution Shifts in Stock Price Data (주가 데이터의 분포 변화)

기존의 딥러닝 모델들이 주가 예측에 많이 활용되고 있지만, 여전히 해결하기 어려운 문제가 하나 있습니다. 바로 학습 데이터와 테스트 데이터의 성격이 다르다는 점이고 이를 분포 변화(Distribution Shift)라고 합니다.

예시로 그림 1을 살펴보겠습니다. 여기서 (a)는 코카콜라의 주가 차트이고 학습할 데이터와 테스트할 데이터를 나타냅니다. (b)는 코카콜라 주가에서 학습 데이터셋과 테스트 데이터셋의 분포 차이를 시각적으로 나타냅니다. 두 분포가 모양과 위치가 각각 크게 다르다는 것을 볼 수 있고, 이를 무시하고 과거 데이터에 맞춰진 모델을 그대로 미래 데이터에 사용하면 미래 분포에 제대로 대응하지 못하고 엉뚱한 예측을 내놓게 됩니다.

그림 1. (a) 코카콜라의 주가 차트와 (b) 학습 기간과 테스트 기간 데이터의 분포 모양 같은 주식 내에서 과거와 미래의 주가 분포가 다름을 보여주는 예시
기존 연구들은 단순히 데이터를 0과 1 사이로 정규화(Scaling)하거나, 시계열의 특징을 추출하는 데 집중했지만, 주가 데이터가 가진 비정상성(Non-stationarity), 즉, 평균이나 분산이 시간 흐름에 따라 계속 변하는 특성을 근본적으로 해결하지는 못했습니다.

Proposed Method

본 논문에서는 ReVol (Return-Volatility Normalization for Mitigating Distribution Shift in Stock Price Data)이라는 모델 독립적(model-agnostic) 주가 예측 프레임워크를 제안합니다. 주가 데이터 정규화 기법을 통해 학습 데이터와 테스트 데이터의 분포 모양을 비슷하게 만들어서 미래 분포에 잘 대응할 수 있도록 하고, 역정규화 기법을 통해 실제 주가 예측을 수행합니다(그림 2).
그림 2. ReVol의 개요
(1) 주어진 과거 주가 데이터를 정규화한 후 (2) 정규화된 데이터를 가지고 수익률과 변동성을 예측하고, (3) 예측된 수익률과 변동성을 기반으로 예측 수행 후 역정규화 기법을 통해 실제 주가 예측 

본 연구의 핵심 과제와 아이디어는 다음의 세 가지 측면으로 요약됩니다.

  1. 주가 데이터의 분포 불일치: 종목과 시점에 따라 제각각인 주가 데이터 분포는 단순히 평균과 분산만 맞추는 기존 방식으로는 충분히 보정되지 않으며, 이로 인해 모델 학습이 방해됩니다. 기하학적 브라운 운동(GBM) 이론에 착안하여, 입력 데이터에서 수익률, 변동성, 가격 규모를 분리해 제거하는 정규화를 수행합니다. 이를 통해 데이터 간의 분포 차이를 획기적으로 줄이고, 모델이 학습하기 좋은 형태인 '오차형(Error terms)'만을 추출해 냅니다.
  2. 이상치에 흔들리지 않는 강건한 특성 추정: 시장의 일시적인 충격이나 이상치가 섞여 있을 때, 단순 평균을 사용하면 해당 주식의 진짜 추세와 변동성을 잘못 계산하게 됩니다. 해결책으로 어텐션 메커니즘을 활용한 가중 평균 방식을 도입했습니다. 정상적인 데이터에는 높은 가중치를, 이상치에는 낮은 가중치를 부여함으로써 노이즈의 영향을 최소화하고 개별 주식의 고유한 특성을 정밀하게 추정합니다.
  3. 예측 결과의 정보 복원 및 재통합: 정규화 과정에서 제거된 정보(추세, 변동성, 가격 규모)를 예측 단계에서 다시 합치지 않으면, 실제 우리가 알고 싶은 미래 주가 수준을 도출할 수 없습니다. 해결책으로 기존의 주가 예측을 하는 딥러닝 모델(Backbone)로 정규화된 데이터의 미래 패턴을 예측하고, 이 결과값에 앞서 추정해 둔 수익률과 변동성 정보, 그리고 가격 규모를 다시 결합(역정규화)합니다. 이 과정을 통해 정규화로 인해 잠시 제외되었던 정보를 손실 없이 복원하여 최종 예측값을 완성합니다.

수익률-변동성 정규화 (Return-Volatility Normalization) 

주가 데이터를 AI 모델에 그대로 넣으면 모델이 혼란스러울 수 있습니다. 예를 들어, 삼성전자의 7만 원과 비트코인의 1억 원은 가격의 단위도 다르고, 상승장일 때와 하락장일 때의 추세도 다릅니다. 시장이 조용할 때와 요동칠 때의 흔들림도 다르기 때문입니다.

ReVol은 기하학적 브라운 운동(GBM)이라는 금융 수학 모델에서 영감을 받아, 입력 데이터에서 다음 세 가지를 제거합니다:

  1. 가격 규모: 주가가 7만 원인지 1억 원인지에 대한 절대적 크기
  2. 수익률: 주가가 오르는 추세인지 내리는 추세인지 (평균적 흐름)
  3. 변동성: 주가가 얼마나 심하게 위아래로 흔들리는지

이 3가지를 제거하고 나면, 주식의 고유한 성격은 사라지고 순수한 가격 변동 패턴만 남게 됩니다. 이렇게 모든 주식 데이터를 '동일한 기준'으로 맞춰주는 정규화 과정을 거치면, AI 모델은 특정 종목이나 시점에 구애받지 않고 데이터의 본질적인 움직임을 훨씬 더 잘 학습할 수 있습니다.

수익률-변동성 예측 (Return-Volatility Estimator) 

위에서 제거할 수익률과 변동성을 계산해야 합니다. 단순히 지난 30일 치 평균을 내면 될 수도 있지만 주식 시장에는 갑작스러운 뉴스나 루머로 가격이 튀는 이상치가 존재하기 때문에 그렇게 하면 정확한 예측을 할 수 없습니다.

단순히 산술 평균을 내면 이런 일시적인 이상치 때문에 전체 통계가 왜곡됩니다. ReVol은 이를 해결하기 위해 어텐션 메커니즘을 도입합니다.

  • 가중치 계산: 모델이 데이터를 살펴볼 때, 정상적인 흐름에는 높은 점수(가중치)를 주고, 일시적인 폭등/폭락 같은 이상치에는 낮은 점수를 줍니다.
  • 정교한 추정: 이렇게 계산된 가중 평균을 사용하면 노이즈에 휘둘리지 않고 현재 해당 주식이 가진 진짜 추세와 변동성을 정확하게 추정할 수 있습니다.

수익률-변동성 역정규화 및 주가 예측 (Backbone and Return-Volatility Denormalization) 

정규화된 데이터를 딥러닝 모델(Backbone)에 입력합니다. 이때 딥러닝 모델은 Transformer나 LSTM 등 기존에 성능이 좋다고 알려진 어떤 모델이든 사용할 수 있습니다. ReVol의 이러한 모델 독립적인 특성이 사용자 입장에서 선택의 폭을 넓혀주므로 장점으로 작용합니다.
  • 예측: 딥러닝 모델은 정규화된 데이터의 미래 패턴을 예측합니다. 하지만 이 값은 실제 주가가 아니라, 정규화된 상태의 수치입니다.
  • 역정규화: 우리가 진짜 알고 싶은 것은 "내일 삼성전자가 얼마냐"입니다. 그래서 모델이 예측한 값에, 1단계에서 잠시 떼어두었던 가격 규모, 수익률, 변동성 정보를 다시 결합합니다.

이 과정을 통해 ReVol은 딥러닝이 잘하는 '단기 패턴 인식' 능력과, 금융 수학이 잘하는 '장기 추세 반영' 능력을 하나로 합쳐, 잃어버린 정보 없이 정확한 미래 주가를 도출합니다.

Experiments

표 1은 미국, 중국, 영국, 한국 등 주요 4개국 시장에서의 성능 비교 결과를 보여줍니다. ReVol은 모든 국가와 딥러닝 모델에서 일관되게 성능을 향상시켰으며, 기존 모델 대비 평균적으로 IC(정보 계수)는 0.03 이상, SR(샤프 지수)는 0.7 이상 상승하는 괄목할 만한 성과를 거두었습니다. 이는 ReVol이 특정 시장 환경에 국한되지 않고, 다양한 글로벌 시장의 분포 변화에도 흔들림 없이 정확도와 수익성을 보장하는 강건한 실용 솔루션임을 입증합니다.

표 1. 다양한 모델에서의 예측 성능 및 투자 효율성 비교

다음으로 기존의 강력한 경쟁 모델들과 비교했을 때 왜 ReVol이 더 뛰어난지, 그 기술적인 이유를 설명하는 부분입니다. 표 2는 현재 가장 널리 쓰이는 최신 정규화 기법인 RevIN, Dish-TS와 성능을 비교한 결과입니다. ReVol은 모든 시장 지표에서 경쟁 모델들을 제치고 가장 압도적인 성능을 보여주었습니다. 이러한 강점은 다음의 차별점에 기인합니다:
  1. 분포의 모양까지 일치: 그림 3에서 볼 수 있듯 단순히 평균이나 분산 같은 수치만 맞추는 기존 기법들과 달리, ReVol은 학습 데이터와 테스트 데이터의 실제 분포 형태를 정교하게 일치시켜 예측 오차를 최소화합니다.
  2. 상관관계 보존: 변수들을 따로따로 정규화하여 정보가 끊어지는 타 방법과 달리, ReVol은 시가, 종가, 고가 등 변수들 사이의 상관관계를 유지한 채 정규화를 수행합니다. 덕분에 모델은 데이터의 유기적인 흐름을 놓치지 않고 더 정확하게 학습할 수 있습니다.
표 2. ReVol과 최신 주가 정규화 기법간의 성능 차이
그림 3. ReVol과 최신 주가 정규화 기법의 정규화 결과 시각화

그림 4는 모델의 안정성을 보여줍니다. 딥러닝 모델을 학습할 때 설정해줘야 하는 4가지 핵심 하이퍼파라미터: 은닉층 크기, 윈도우 크기, 어텐션 헤드 수, 가중치 감쇠를 변경해 가며 성능 변화를 관찰한 결과입니다. 결과는 다음과 같습니다:
  • 기존 모델 (DTML): 윈도우 크기나 가중치 감쇠 등 설정값을 조금만 바꿔도 성능이 급격히 떨어지거나 요동치는 불안정한 모습을 보였습니다. 이는 최적의 성능을 내기 위해 까다로운 튜닝 과정이 필요함을 의미합니다.
  • ReVol 적용 시: 설정값이 어떻게 변하든 상관없이 일관되게 높은 성능을 유지했습니다.

이는 ReVol이 데이터의 분포 변화를 효과적으로 억제하여 모델이 특정 조건에 과적합 되는 것을 막아주기 때문입니다. 즉 ReVol을 사용하면 복잡하고 예민한 하이퍼파라미터 튜닝에 덜 의존하고도 안정적이고 강력한 예측 성능을 얻을 수 있음을 증명합니다.

그림 4. ReVol과 DTML의 하이퍼파라미터 민감도 비교

표 3은 ReVol의 어텐션 모듈이 시장의 급격한 변동에 어떻게 반응하는지를 수치로 분석한 결과입니다. 결과를 요약하면, ReVol은 수익률의 변동 폭이 비정상적으로 큰 시점에 대해서는 일부러 낮은 가중치를 부여하여 무시하는 경향을 보였습니다. 이는 모델이 시장의 일시적인 충격에 속지 않고, 안정적인 데이터 위주로 학습한다는 것을 증명합니다.
표 3. ReVol의 어텐션 메커니즘의 노이즈 필터링 효과

마지막으로 표 4는 소거 연구(ablation study)를 통해 ReVol의 구성 요소들의 기여도 분석 결과를 보여줍니다. 실험 결과, 세 가지 모듈이 모두 결합된 완전체 ReVol이 가장 높은 성능을 기록했습니다. 이는 각 모듈이 상호보완적으로 작동하여 예측 정확도를 높이고 있음을 의미합니다.

특히 수익률-변동성 정규화 모듈이 성능에 가장 큰 기여를 하는 것으로 나타났습니다. 이 부분이 ReVol의 핵심 목표인 주가 데이터의 분포 변화 문제를 직접적으로 해결하는 부분이기 때문입니다.

표 4. ReVol의 구성 요소 기여도 분석

Conclusion

본 문서에서는 CIKM 2025에 발표된 “Mitigating Distribution Shift in Stock Price Data via Return-Volatility Normalization for Accurate Prediction” 논문을 소개하였습니다. 해당 논문은 주가 데이터의 분포 변화를 완화하기 위한 ReVol 기법을 제안하며, 이를 통해 기존 모델들보다 더 정확한 주가 예측을 가능하게 합니다. ReVol은 (1) 수익률, 변동성, 가격 규모와 같은 개별 샘플의 특성을 제거하여 주가 특징을 정규화하고, (2) 어텐션 기반 모듈을 통해 이러한 특성을 정밀하게 추정하여 시장 이상치의 영향을 최소화하며, (3) 손실된 정보를 복원하기 위해 예측 과정에서 샘플 특성을 다시 통합합니다. 실험 결과, ReVol은 최신 백본 모델, 예측 정확도, 안정성 등 다양한 평가 지표 전반에서 일관된 성능 향상을 보였으며, 대부분의 시나리오에서 기존 모델의 성능을 크게 개선하였습니다. 본 논문은 주가 예측에서 수익성과 정확성을 향상시킬 수 있는 새로운 방법론을 제안합니다. 제안된 방법을 통해 장기 추세와 단기 패턴의 강점을 결합한 더욱 효과적인 주가 모델링이 가능할 것으로 기대됩니다. 본 논문에 대한 자세한 정보는 [링크]에서 확인할 수 있습니다.