Attention-Based Autoregression for Accurate and Efficient Multivariate Time Series Forecasting

본 문서에서는 데이터 마이닝 분야의 SDM 2021 학회에서 발표될 예정인 Attention-Based Autoregression for Accurate and Efficient Multivariate Time Series Forecasting 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title: Attention-Based Autoregression for Accurate and Efficient Multivariate Time Series Forecasting
  • Authors: Jaemin Yoo and U Kang
  • Conference: SIAM International Conference on Data Mining (SDM) 2021

Multivariate Time Series Forecasting

시계열 예측(time series forecasting)은 기계 학습 및 데이터 마이닝 분야에서 활발히 연구되고 있는 문제로서, 많은 수의 실세계 데이터가 시계열 형태로 모델링되기 때문에 주가 예측, 날씨 예측, 전력 수요 예측 등 다양한 실세계 문제와 밀접히 연관되어 있습니다. 그중에서도 다변수(multivariate) 시계열 예측은 서로 연관되어 있는 여러 개의 시계열 변수를 동시에 예측하는 상황을 의미합니다. 위에서 언급한 시계열 예측 문제의 예시는 모두 다변수 예측에 해당됩니다. 즉, 예측 대상이 되는 주식 종목간 관계, 지역간 관계, 그리고 도시 구획별 관계를 모델링함으로써 시계열 예측 정확도를 크게 향상시킬 수 있습니다.

하지만, 각 변수에서 관측되는 패턴과 여러 변수간 관계를 동시에 고려하다 보니 다변수 시계열 예측을 위한 기존 모델은 지나치게 많은 파라미터를 갖는 경향을 보였습니다. 학습 데이터의 양이 충분하지 않고 과거 시점의 데이터에 과적합(overfitting)되기 쉬운 시계열 데이터의 특성상 파라미터 수가 많아질 경우 성능 재현과 하이퍼파라미터 튜닝(hyperparameter tuning)이 무척 어려워집니다. 예를 들어, 기존에 제안되었던 LSTNet (Lai et al., SIGIR 2018) 모델은 RNN(recurrent neural networks) 구조와 합성곱(convolution) 연산, 그리고 시간축에 대한 어텐션 기법(temporal attention)을 혼합하여 좋은 성능을 보였지만, 일부 데이터에서는 백만 개가 넘는 파라미터를 요구하기도 하면서 원래 논문의 성능을 재현하기 어려운 특성을 보였습니다.

본 논문의 목표는 최대한 적은 파라미터를 사용하면서 다변수 시계열 예측에서 좋은 성능을 내는 모델을 개발하는 것입니다. 사실, 추가적인 피처 벡터가 주어지지 않은 시계열 예측 문제에서 지나치게 많은 파라미터를 사용하는 것은 오히려 모델의 정확도를 떨어뜨리는 경향을 보입니다 (이는 본 논문의 실험에서 뒷받침됩니다). 핵심은 효율적인 연산을 통해 각 변수의 과거 데이터로부터 비선형 패턴을 학습하고 변수간 관계를 예측에 활용하는 것입니다.

Attention-Based Autoregression (AttnAR)

본 논문에서는 단순한 어텐션 연산으로 다변수 시계열 예측 문제에서 좋은 성능을 내는 AttnAR (attention-based autoregression) 모델을 제안합니다. AttnAR 모델의 전체적인 구조는 그림 1에 표현되어 있으며, 모델의 핵심 아이디어는 다음과 같이 요약될 수 있습니다.
  • AttnAR 모델은 각 변수의 과거 데이터로부터 비선형 패턴을 찾는 추출 모듈(extractor modules)과 변수간 관계를 학습하는 어텐션 모듈(attention module)을 분리합니다. 그 결과, 적은 파라미터로 두 가지 특성을 모두 고려할 수 있고, 데이터셋의 특성에 따라 각 모듈의 복잡도를 자유롭게 튜닝할 수 있게 됩니다.
  • AttnAR 모델은 추출 모듈로서 MCE(mixed convolution extractor) 모델을 제안합니다. 이는 기존의 전방 전달 신경망(multilayer perceptron)에 합성곱 레이어를 추가한 것으로, 완전 연결형(fully connected) 레이어과 합성곱 레이어를 동시에 활용하여 적은 파라미터로 복잡한 비선형 패턴을 찾습니다.
  • AttnAR 모델은 어텐션 모듈로서 TIA(time-imvariant attention) 기법을 사용합니다. 이는 불안정한 패턴 벡터 대신 변수별 임베딩(embedding) 벡터를 학습하여 어텐션 과정에 사용함으로써 시계열 데이터의 노이즈(noise)에 대한 영향을 최소화하고 안정적인 어텐션을 수행할 수 있게 합니다.

그림 1. AttnAR 모델의 전체 구조

먼저, 추출 모듈은 각 변수의 과거 관측값을 기반으로 비선형 패턴 벡터를 생성합니다. 이는 각 변수에 대한 시계열 예측을 수행하는 데 가장 핵심적인 정보가 됩니다. 이후 어텐션 모듈은 변수간 어텐션 맵(map)을 학습하는데, 이때 각 변수에 대한 임베딩(embedding) 벡터를 독립적인 파라미터로 학습하여 어텐션 맵의 주요 정보로 활용합니다. 어텐션 맵은 변수간 상관 관계를 고려하여 여러 변수에 대한 패턴 벡터를 합쳐서 예측 모듈로 전달하는 역할을 맡습니다. 마지막으로, 예측 모듈(predictor module)에서는 각 변수에서 추출된 패턴 벡터와 어텐션 모듈을 거친 새로운 패턴 벡터를 이어서 최종적인 예측값을 생성합니다. 예측 모듈은 앞의 두 모듈에 비해서 비교적 간단한 구조의 전방 전달 신경망으로 구현되어 있는데, 이는 앞의 두 모듈이 예측에 필요한 충분한 비선형성을 모델링하고 있기 때문입니다.

Experiments 

본 논문에서는 크게 두 가지 실험 결과를 제시합니다. 첫 번째는 제안한 AttnAR 모델이 경쟁 모델에 비해 훨씬 더 적은 파라미터를 가질 뿐만 아니라 다변수 시계열 예측 문제에서 더 우수한 성능을 낸다는 것입니다. 그림 2를 보면 AttnAR 모델이 AR (autoregresion), VAR (vector autoregression), TRMF (temporal regularized matrix factorization), LSTM (long-short term memory units), LSTNet 등 기존의 다변수 시계열 예측 모델에 비해 우수한 성능을 내는 것을 확인할 수 있습니다. 흥미로운 점은 일부 데이터에서 파라미터 수와 예측 오차가 비례하는 결과가 나타난다는 것입니다. 이는 대부분의 지도 학습 분야와는 달리 다변수 시계열 예측 문제에서는 훈련 데이터가 충분하지 않고, 과적합 문제가 쉽게 발생하기 때문입니다.

그림 2. AttnAR 모델의 파라미터 수와 시계열 예측 오차

두 번째 결과는 AttnAR 모델이 학습한 어텐션 맵을 시각화하는 것입니다. 그림 3을 보면 변수간 어텐션 맵이 데이터에 따라 뚜렷한 특징을 보이는 것을 확인할 수 있습니다. (a) Traffic 및 (b) Electricity 데이터에서는 변수간 관계가 약한 반면, (c) Solar-Energy 데이터에서는 강하고, (d) Exchange-Rate 데이터에서는 변수간 관계를 전혀 찾을 수 없습니다. 이는 AttnAR 모델이 데이터 특성에 따라 변수간 관계를 적절히 학습한다는 것을 보여줍니다. 또한, 어텐션 모듈이 각 변수의 임베딩 벡터를 기반으로 이러한 어텐션 맵을 생성하기 때문에, AttnAR 모델이 생성한 어텐션 맵은 각 예측 시점의 입력에 관계 없이 그 자체로 해석 가능하다는 추가적인 장점을 갖습니다.

그림 3. AttnAR 모델이 학습한 어텐션 맵

Conclusion

본 문서에서는 SDM 2021에서 발표될 예정인 Attention-Based Autoregression for Accurate and Efficient Multivariate Time Series Forecasting 논문을 소개하였습니다. 해당 논문은 다변수 시계열 예측을 위해 어텐션 기법을 활용하는 AttnAR(attention-based autoregression) 모델을 제안하였습니다. 또한, 4개의 다변수 시계열 데이터에 대한 실험 결과를 통해 AttnAR이 기존 모델에 비해 더 적은 파라미터를 가지면서 더 정확한 예측을 한다는 것을 보였습니다. 자세한 내용은 논문에서 확인하실 수 있습니다.