Accurate PARAFAC2 Decomposition for Temporal Irregular Tensors with Missing Values

본 문서에서는 BigData 2022에서 발표될 "Accurate PARAFAC2 Decomposition for Temporal Irregular Tensors with Missing Values" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title: Accurate PARAFAC2 Decomposition for Temporal Irregular Tensors with Missing Values
  • Authors: Jun-Gi Jang, Jeongyoung Lee, Jiwon Park, and U Kang
  • Conference: IEEE International Conference on Big Data (BigData) 2022

Temporal Irregular Tensor & PARAFAC2 Decomposition 

시간 불규칙 텐서(Temporal Irregular Tensor). 실세계 다양한 데이터들이 시간 불규칙 텐서로 표현됩니다. 예를 들어, 센서 데이터 (시간, 위치, 센서타입)나 주식 데이터 (시간, 피쳐, 종목) 등이 시간 불규칙 텐서로 표현될 수 있습니다. 시간 불규칙 텐서는 행렬들의 모음으로 행렬들은 열의 크기가 같으나 행의 크기는 다릅니다. 또한, 행렬들의 행은 시간 축에 대응됩니다.
PARAFAC2 분해(PARAFAC2 Decomposition). PARAFAC2 분해는 실세계 불규칙 텐서 데이터를 분석할 때 많이 쓰이는 도구 중 하나이며 차원 축소, 고장 탐지, 표현형 발견(phenotype discovery)과 같은 다양한 응용들에서 활용되고 있습니다.


그림 1. PARAFAC2 Decomposition

그림 1의 예시와 같이 PARAFAC2 분해는 주어진 불규칙 텐서를 요인 행렬(factor matrix)들로 분해합니다. 그리고, 많은 PARAFAC2 분해 방법들이 ALS (Alternating Least Square)를 활용하여 요인행렬들을 구합니다. ALS는 요인 행렬 중 하나를 제외한 나머지 모두를 고정시키고, 고정되지 않은 요인 행렬을 업데이트하는 방식이며 요인행렬들로부터 복원된 텐서와 입력 텐서간의 차이가 충분히 줄어들 때까지 요인 행렬들을 반복적으로 업데이트합니다.

Goal & Limitations of Previous Works 

본 논문에서의 목표는 결측값이 존재하는 시간 불규칙 텐서와 타겟 랭크(target rank)가 주어졌을 때, 정확한 PARAFAC2 분해 결과를 얻는 것입니다. 기존 방법들은 행렬 형태의 손실함수를 활용하기 때문에 결측값을 0으로 처리하여 PARAFAC2 분해를 수행합니다. 하지만, 이러한 방식은 결측값이 0이 아님에도 요인행렬들이 결측값들을 0으로 예측하게 만들기 때문에 정확도 측면에서 큰 손실이 발생합니다. 따라서, 손실 함수에서 결측값을 배제하는 것은 매우 중요한 문제입니다. 또한, 기존 방법들은 시간 불규칙 텐서에 내재되어있는 시간적 패턴을 잡지 못합니다. 그렇다면, PARAFAC2 분해 정확도를 높이기 위해서는 어떻게 해야할까요? 본 논문에서는 기존 방법들의 한계들을 극복하여 목표를 달성합니다.

Proposed Method

본 논문에서는 결측값을 가지는 시간 불규칙 텐서에 대한 정확한 PARAFAC2 분해를 수행하는  ATOM을 제안합니다. ATOM은 손실 함수에서 결측값을 철저히 배제하고, 재구성된 손실 함수에 적합한 최적화 방법을 제안합니다. 또한, 시간 정규화를 활용하여 시간 불규칙 텐서에 내재되어 있는 시간 패턴을 잡아 분해 정확도를 보다 향상시킵니다. 이러한 아이디어를 통해 ATOM은 결측값이 있는 시간 불규칙 텐서를 보다 정확하게 분석할 수 있게 합니다.

그림 2. 제안한 아이디어에 대한 개요도. 파란색 박스는 주요 아이디어에 대한 예를 보여줌.

결측값을 가지는 시간 불규칙 텐서를 처리하기 위해서는 손실 함수 내에서 결측값을 철저히 배제해야 합니다. 하지만, 기존 방법들은 행렬 형태의 손실 함수를 구성함으로써 결측값을 0으로 처리하기 때문에 요인행렬이 결측값을 0으로 예측하도록 학습됩니다. 본 논문에서는 손실 함수를 스칼라 형태의 함수로 표현하여 관측값만을 잘 예측하도록 요인 행렬들을 학습할 수 있게 지원합니다. 그림 2(a)는 손실 함수에 대한 예제로 기존 행렬 형태의 손실 함수를 스칼라 형태의 손실 함수로 재구성합니다.

시간 불규칙 텐서에 내재되어 있는 시간 패턴을 잡기 위해 시간 스무딩 정규화를 제안합니다. 시간 축이 있는 행렬들에는 값이 시간에 따라 완만하게 변화하는 특징이 있습니다. 이러한 특징을 잡기 위해 시간적으로 가까운 시간 요인 벡터들간의 거리를 가깝게 하도록 유도하는 정규화를 추가합니다. 그림 2(b)는 시간 스무딩 정규화를 추가하기 전후를 비교한 예제이며, 정규화를 추가하기 전보다 추가했을 때 시간 요인들이 시간 축을 따라 완만하게 변화하는 것을 확인할 수 있습니다.

마지막으로, 정규화를 포함하고 결측값을 배제한 손실 함수를 기반으로 정확한 요인 행렬을 얻는 행별 업데이트 방식(Row-wise update procedure)을 제안합니다. 기존 업데이트 방식들은 행렬 형태의 손실 함수에 맞는 방식이므로 재구성된 손실 함수에 적합한 새로운 방식이 필요합니다. 특히, 결측값은 행렬 전반에 퍼져있어 희소 패턴이 존재합니다. 따라서, 결측값의 희소 패턴과 손실 함수 형태를 고려하여 요인 행렬을 행별로 업데이트합니다. 이 때, 교대 최적화(Alternating Optimization)를 통해 요인 행렬들을 수렴할 때까지 차례로 업데이트합니다. 그림 2(c)에서는 기존 업데이트 방식과 제안하는 업데이트 방식을 비교합니다. 요인 행렬의 행을 업데이트할 때 같은 역행렬을 활용하기 때문에 행별로 업데이트 하는 것은 결측값의 희소 패턴이 있는 시간 불규칙 텐서를 잘 다룰 수 있습니다.

Experiment

본 논문에서는 실세계 시간 불규칙 텐서에 대한 결측값 예측 성능을 평가합니다. 또한, 제안하는 방법에 대한  Ablation Study를 수행합니다.


그림 3. 결측값 예측에 대한 성능 평가. 제안하는 방법인 ATOM이 기존 PARAFAC2 분해 방법보다 훨씬 낮은 에러를 가짐.

그림 3은 결측값 예측에 대한 성능을 평가합니다. 주어진 실세계 시간 불규칙 텐서를 임의로 학습 데이터와 결측값으로 처리되는 테스트 데이터로 나눕니다. 그리고, 학습 데이터를 통해 요인 행렬을 얻은 뒤 이 행렬들을 활용하여 결측값을 예측하고 예측한 값과 실제값을 비교합니다. Normalized Reconstruction Error는 예측값과 실제값의 차이에 대한 지표로 값이 작을수록 높은 예측 정확도를 가지는 것을 의미합니다. 모든 실세계 시간 불규칙 텐서에서 제안하는 방법인 ATOM이 제일 좋은 성능을 가지는 것을 확인할 수 있습니다. ATOM은 기존 방법들에 비해 최대 7.9배 적은 결측값 예측 오류를 가집니다.

표 1. 결측값 처리 및 시간 정규화에 대한 Ablation Study. ATOM의 결측값에 대한 처리와 시간 정규화가 분해 정확도에 효과적임. -M은 결측값 처리를 제거한 것을 나타내며 -S는 시간 정규화를 제거한 것을 나타냄.

표 1은 ATOM의 결측값 처리 및 시간 정규화에 대한 Ablation Study를 수행한 결과입니다. -M은 결측값 처리를 제거한 것을 나타내며 -S는 시간 정규화를 제거한 것을 나타냅니다. ATOM-M-S는 모든 제안하는 아이디어를 제거한 방법으로 기존 PARAFAC2 분해와 같으며, ATOM-S는 ATOM-M-S보다 모든 데이터에서 훨씬 낮은 오류를 가지는 것을 확인할 수 있습니다. 또한, 시간 정규화가 시간 불규칙 텐서에 내재되어 있는 시간 정보를 잘 추출하였기 때문에 ATOM이 ATOM-S보다 좋은 성능을 가지는 것을 확인할 수 있습니다.

Conclusion

본 문서에서는 BigData 2022에서 발표될 "Accurate PARAFAC2 Decomposition for Temporal Irregular Tensors with Missing Values" 논문을 소개하였습니다. 해당 논문은 손실 함수에서 결측값들을 철저히 배제하고, 재구성된 손실 함수에 적합한 업데이트 방식을 제안합니다. 또한, 시간 정규화를 통해 시간적 패턴을 잡아내어 보다 정확한 시간 요인 행렬을 찾습니다. 실험적으로 제안하는 방법인 ATOM이 결측값 예측에 있어 기존 PARAFAC2 분해 방법들보다 훨씬 적은 에러를 가지는 것을 확인하였습니다. ATOM 기법을 통해 실세계 시간 불규칙 텐서 데이터에서의 결측값들을 예측하여 보다 정확한 데이터를 구축할 수 있으며, ATOM이 만든 정확한 요인 행렬들은 이상 탐지, 트렌드 분석 등 다양한 응용에 활용될 수 있습니다. 논문에 대한 상세 정보는 (링크)에 업데이트될 예정입니다.