FreQuant: A Reinforcement-Learning based Adaptive Portfolio Optimization with Multi-frequency Decomposition

본 문서에서는 KDD 2024 학회에 발표될 "FreQuant: A Reinforcement-Learning based Adaptive Portfolio Optimization with Multi-frequency Decomposition" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title : FreQuant: A Reinforcement-Learning based Adaptive Portfolio Optimization with Multi-frequency Decomposition
  • Authors: Jihyeong Jeon, Jiwon Park, Chanhee Park, and U Kang
  • Conference: ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD) 2024

Introduction

최근 연구에서는 강화 학습 (RL) 과 딥러닝을 결합하여 자산의 시간적 패턴을 포착하고, 이를 통해 포트폴리오를 최적화하는 것의 효과가 입증되었습니다. 현존하는 대부분의 모델은 시간 도메인에서 자산의 패턴 분석을 중점으로 두었으며, 시간 축을 기준으로 변동에 대한 평준화를 진행하는 연산을 수행하였습니다. 그러나 이러한 평준화 연산은 때때로 시장 및 자산에 중대한 영향을 주는 갑작스러운 사건에 따른 급격한 가격 변동에 둔감해진다는 단점이 있습니다. 따라서, 기존 모델의 경우 시장 혹은 자산이 방향성이 있는 일관적 패턴을 보일 때 좋은 성능을 보이지만, 갑작스러운 사건에 의하여 시장이 요동칠 때는 모델이 변화를 감지하지 못하여 큰 손실을 초래하게 됩니다. 

이러한 한계를 극복하려는 방법의 하나는 시간 도메인에서 주파수 도메인 분석으로 변화를 주어 자산의 패턴 분석을 진행하는 것입니다. 이를 위한 이산 푸리에 변환 (DFT) 은 시간 도메인의 신호를 주파수 도메인의 특성으로 변환함으로써 해석하기 어려운 시간적 패턴을 다양한 주기성을 갖고 발생하는 사건들과 그 강도에 대한 정보를 갖는 형태로 분해할 수 있습니다. 예를 들어, 특정 자산의 과거 일 년 동안의 가격 신호에 대한 다중 주파수 분해를 하면, 한 달 주기 혹은 한 분기와 같이 특정 주기마다 반복되는 사건에 해당 자산의 가격이 얼마나 민감하게 반응하는지 이에 대응되는 주파수의 크기를 통해 알 수 있게 됩니다. 

따라서 본 논문에서는 이러한 자산 신호의 고유 주파수 특성을 활용하여 포트폴리오 최적화를 어떻게 효과적으로 수행할 수 있는지에 대하여 설명합니다. 구체적으로, 본 논문에서 풀고자 하는 (롱/숏) 포트폴리오 최적화 문제는 다음과 같이 정의됩니다.

  • 다수의 자산과 시장 지표에 대한 과거 가격 데이터가 주어졌을 때,
  • 총투자 기간의 수익률을 최대화하는 매 리밸런싱 시점의 최적 포트폴리오를총 찾는 것

본 논문에서는 포트폴리오를 구성하는 자산은 롱 (양수 가중치) 혹은 숏 (음수 가중치) 포지션을 취할 수 있는 것으로 가정하며, 매 시점 총보유 자산만큼만 투자할 수 있는 것으로 가정하여, 매 시점 모든 자산의 절대 가중치의 합은 1이 됩니다.


Proposed Method

본 논문에서는 다중 주파수 분석을 통한 적응형 포트폴리오 최적화 모델 FreQuant를 제안합니다. FreQuant는 주파수 도메인에서 완전히 작동하는 새로운 딥 RL 프레임워크로서, 기존 모델이 잘 해석하지 못하던 시장의 미묘한 변화와 갑작스러운 이벤트에 효과적으로 대응함과 동시에 기존 모델의 강점인 자산의 주요 패턴을 식별하는 능력을 갖습니다. FreQuant 모델은 다음과 같은 세 주요 모듈 및 과정으로 이루어져 있습니다. 

1) 주파수 도메인에서 각 자산의 신호를 요약하는 주파수 상태 인코더

2) 최적의 포트폴리오를 생성하는 포트폴리오 생성기

3) 학습 과정의 불안정성을 완화하는 유도 최적화 


주파수 상태 인코더 (Frequency State Encoder)

주파수 상태 인코더는 시간 도메인에 존재하는 자산 과거 가격 신호를 주파수 도메인으로 변환시킨 후 다양한 주파수 영역 연산을 통해 현재 시점의 정확한 자산의 상태를 얻는 것을 목표로 합니다.

그림 1. FreQuant의 메인 모듈인 주파수 상태 인코더의 도식화

위 그림 1은 FreQuant의 메인 모듈인 주파수 상태 인코더의 전반적인 처리 과정을 보입니다. 시간 도메인의 자산 과거 가격 신호가 입력으로 주어졌을 때, 특성 축으로 점 합성곱 신경망을 적용하며 이산 푸리에 변환으로 다양화된 주파수 도메인의 특성을 얻게 됩니다. 이때, 각 고유 주파수에 대응되는 특성은 특정 주기를 갖는 "사건"으로 정의합니다. 이러한 사건은 매달 진행되는 기업의 실적 발표 혹은 분기별 경제 지표 발표와 같이 특정 주기를 갖는 사건에 대응될 수 있습니다. 이후, 원소 간 곱을 이용하여 사건의 중요도에 따라 주파수를 증폭하거나 감소시키는 사건 여과 작업과 합성곱 신경망을 이용하여 여러 사건을 종합한 "복합 사건"을 표현합니다. 추가로 사건 간의 관계성을 고려하도록 복소 공간에서 정의된 복소 트랜스포머 인코더를 적용하여 정확한 자산의 상태를 얻게 됩니다.


포트폴리오 생성기 (Portfolio Generator)

주파수 상태 인코더는 각 자산의 상태를 나타냈다면, 제안 모델의 포트폴리오 생성기는 각 자산 간의 관계성과 점수를 이용하여 관계성 자산 상태를 나타내며, 이를 기반으로 계산된 신뢰 점수를 통해 최적의 포트폴리오를 구성하게 됩니다. 관계성 자산 상태는 주파수 상태 인코더에 의해 생성된 자산 상태를 하나의 토큰으로 정의한 행렬에 대하여 복소 트랜스포머를 적용해 얻은 값으로 얻게 됩니다. 이는 자산 간의 관계를 고려한 관계성 자산 상태로, 자산의 섹터 기반 패턴 분석을 모방하는 것으로 볼 수 있습니다. 이렇게 생성된 관계성 자산 상태를 종합하여 각 자산의 신뢰 점수를 계산하며, 점수가 높은 자산 G개로 이루어진 포트폴리오를 생성합니다. 이는 시장의 방향성과 관계없이 상위/하위 점수를 갖는 자산으로 포트폴리오를 구성하는 기존 방법론과 달리, 방향성이 뚜렷한 상황에서 더욱 적합한 포트폴리오 구성 방식으로 볼 수 있습니다.  


유도 최적화 (Optimization with Guidance)

기존 강화학습 알고리즘들은 다양한 하이퍼파라미터와 학습 대상인 파라미터의 수가 많아 근본적으로 불안정한 학습 과정을 지녔습니다. 본 논문에서 저자들은 이러한 불안정성을 완화하기 위하여 유도 최적화를 제안합니다. 유도 최적화는 자산 시장에 존재하는 원초적인 주기적 사건을 학습하도록 유도하여 학습이 원활하게 이루어지도록 합니다. 예를 들어, 5일 주기로 발생하는 "금요일 효과"와 같은 주기적 사건은 시장 자산이 전반적으로 갖는 주기적 사건으로 볼 수 있습니다. 따라서, 저자들은 주파수 상태 인코더의 사건 여과 작업에서 학습하는 파라미터가 이러한 원초적인 주기적 사건을 따르도록, 이들간의 차이가 최소화되는 손실함수를 사용함으로 학습 안정성을 향상시켰습니다.


Experiments

본 논문의 실험에서는 제안하는 모델인 FreQuant가 다른 모델과 비교하였을 때, 동일한 목적을 수행하는데 있어 다양한 시장에서 뛰어난 성능과 안정성을 갖음을 보였습니다. 

그림 2. 테스트 기간 동안 시간에 따라 변화하는 포트폴리오 가치

위 그림 2는 총 여섯 개의 시장에 대하여 테스트 기간 동안 제안 모델인 FreQuant를 포함한 여러 모델의 시간에 따른 성능 변화를 보입니다. 여기서 성능은 포트폴리오 가치로 측정하였으며, 이는 초기 투자 금액 대비 비율을 나타냅니다. 그림에서 나타내는 것처럼, 제안하는 모델은 일관성 있게 다른 기존 모델에 비하여 세계적으로 다양한 시장에서 좋은 성능을 보임을 보였습니다. 

 그림 3. 급격한 시장 변화가 있을 때 각 모델의 성능 및 차이


위 그림 3은 일반적인 시장 상황이 아닌, 갑작스러운 사건으로 인한 급격한 시장 변화가 있을 때 각 모델의 성능을 보입니다. 본 논문에서는 급격한 시장 변화 날짜를 전체 테스트 기간 동안 시장의 지표 변화가 일정치 미만 혹은 초과하는 경우로 정의하였습니다. 결과적으로, 주파수 도메인에서 작동하는 제안 모델이 시간 도메인에서 작동하는 기존 모델보다 급격한 변화에 효과적으로 대응하여 더 좋은 성능을 보임을 보였습니다. 더욱 자세한 실험 결과들은 논문에서 확인할 수 있습니다.


Conclusion

본 문서에서는 KDD 2024에 발표될 "FreQuant: A Reinforcement-Learning based Adaptive Portfolio Optimization with Multi-frequency Decomposition" 논문을 소개하였습니다. 해당 논문은 주파수 특성을 활용하여 포트폴리오 최적화 문제에 접근하는 새로운 방법을 제시합니다. 본 연구는 DRL과 주파수 분석을 결합하여 급격한 시장 변동에도 안정적으로 대응할 수 있는 포트폴리오 관리 방법을 개발하였습니다. 또한, FreQuant는 다양한 시장 환경에서 우수한 성능을 발휘하여, 투자 결정 과정에서 중요한 도구가 될 수 있습니다. 이상의 내용은 2024년 KDD 컨퍼런스에서 발표될 예정입니다. 추가적인 정보와 자세한 실험 결과는 해당 논문에서 확인하실 수 있습니다.