본 문서에서는 BigData 2024에서 발표될 "Accurate Coupled Tensor Factorization with Knowledge Graph" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.
- Title: Accurate Coupled Tensor Factorization with Knowledge Graph
- Authors: SeungJoo Lee, Yong-chan Park, and U Kang
- Conference: IEEE International Conference on Big Data (BigData) 2024
PARAFAC2 Decomposition & Knowledge Graph
PARAFAC2 분해(PARAFAC2 Decomposition). PARAFAC2 분해는 실세계의 불규칙 텐서 데이터를 분석하는 데 널리 사용되는 도구로, 차원 축소, 이상 탐지 등 다양한 분야에서 활용되고 있습니다.
지식 그래프(Knowledge Graph). 지식 그래프는 관계형 데이터를 삼중항으로 표현하는 구조화된 데이터베이스로, 삼중항은 헤드(head) 엔티티, 테일(tail) 엔티티, 그리고 두 엔티티 간의 관계로 구성됩니다. 예를 들어, 삼중항 ("J.K. 롤링", "쓰다", "해리포터")은 J.K. 롤링이 해리포터의 저자임을 명시적으로 나타냅니다. 또한, 지식 그래프는 3차원 텐서로 모델링될 수 있으며, 텐서의 각 요소는 삼중항의 진위 여부를 나타내어 참이면 1, 거짓 또는 불확실하면 0으로 표현됩니다. 엔티티 간의 복합적이고 의미론적인 관계를 효과적으로 모델링할 수 있다는 점에서, 지식 그래프는 정보 검색, 추천 시스템, 지식 추론 등 다양한 인공지능 응용 분야에서 중요한 역할을 하고 있습니다.
그림 1. PARAFAC2 Decomposition |
그림 1의 예시처럼, PARAFAC2 분해는 주어진 불규칙 텐서를 요인 행렬로 분해합니다. 많은 PARAFAC2 방법은 ALS (Alternating Least Square)를 활용하며, 이는 한 요인 행렬을 제외한 나머지를 고정한 뒤, 고정되지 않은 요인 행렬을 업데이트하는 방식이며, 이를 반복적으로 업데이트하여 입력 텐서와 복원된 텐서 간 차이를 최소화합니다.
Goal & Limitations of Previous Works
본 논문의 목표는 결측값이 포함된 시간 불규칙 텐서와 지식 그래프 텐서, 그리고 타겟 랭크(target rank)가 주어졌을 때, PARAFAC2 기반 결합 텐서 분해를 통해 요인 행렬을 추출하는 것입니다. 기존 방법들은 주로 주식 시장의 일별 가격 변동과 같은 시간적 동적 특성에 초점을 맞추는 반면, 회사의 산업 분야와 같이 시간에 따라 변하지 않는 정적 특성은 간과하는 경향이 있습니다. 그러나 동적 특성과 정적 특성은 데이터를 정확히 모델링하는 데 모두 필수적이며, 두 정보를 함께 학습하는 것은 모델의 정확도와 신뢰성을 높이는 데 매우 중요합니다. 또한, 기존 방법들은 다양한 정보를 처리하기 위해 추가적인 정규화 항을 도입하는 경우가 많지만, 이는 복잡한 손실 함수를 구성하여 학습 과정에서 수렴 속도를 늦추거나 불안정성을 유발할 수 있습니다. 그렇다면, 이러한 한계를 극복하면서 불규칙한 텐서 내에서 동적 특성과 정적 특성을 효율적이고 정확하게 포착하려면 어떻게 해야 할까요? 본 논문에서는 이러한 문제를 해결하기 위해 기존 방법의 한계를 극복하고 목표를 달성할 수 있는 새로운 접근법을 제안합니다.
Proposed Method
본 논문에서는 결측값을 포함한 시간 불규칙 텐서와 지식 그래프 텐서를 결합하여 동적 정보와 정적 정보를 모두 효과적으로 모델링하는 PARAFAC2 기반의 새로운 결합 텐서 분해 기법, KG-CTF (Knowledge Graph-based Coupled Tensor Factorization)를 제안합니다. KG-CTF는 동적 및 정적 정보를 통합하기 위해 하나의 축을 공유하는 결합 텐서 분해 방식을 도입하였습니다. 또한, 관계 정규화를 활용하여 지식 그래프 텐서에 내재된 관계적 패턴을 포착함으로써 정적 정보를 더욱 정확하게 학습할 수 있도록 설계되었습니다. 더불어, ALS 수렴 속도를 가속화하기 위해 모멘텀 기반 알고리즘을 제안합니다. 이 알고리즘은 이전 업데이트의 방향을 현재 업데이트에 일부 반영하여 최적화 과정을 보다 안정적이고 빠르게 진행할 수 있도록 합니다. 특히, 고차원 데이터에서 더 효율적이고 안정적인 업데이트를 가능하게 하여 ALS의 전체 성능을 크게 향상시킵니다. 이러한 접근을 통해 KG-CTF는 시간 불규칙 텐서의 동적 및 정적 정보를 정확하고 효과적으로 학습할 수 있는 방안을 제공합니다.
시간적 정보와 정적 정보를 통합하기 위해, 본 연구에서는 시간적 불규칙 텐서와 지식 그래프 텐서를 결합하는 방식을 제안합니다. 지식 그래프는 불규칙한 텐서 형태로 표현되며, 각 슬라이스 행렬은 특정 아이템에 해당하는 엔티티-관계 데이터를 나타냅니다. 슬라이스의 행은 해당 아이템과 연결된 엔티티의 수를, 열은 총 관계의 수를 의미합니다. 이를 기반으로 각 슬라이스는 엔티티 요인 행렬, 아이템 요인 행렬, 관계 요인 행렬의 세 가지 요인으로 분해됩니다. 시간적 불규칙 텐서와 지식 그래프 텐서를 결합하기 위해 대각 행렬을 공유합니다. 이 대각 행렬은 각 슬라이스에 대한 고유 정보를 담고 있어, 이를 공유함으로써 동적 특성과 정적 특성을 함께 학습할 수 있습니다. 그림 2(a)는 주식 데이터를 예제로 들어, 결합 텐서 분해 과정을 설명하고 있습니다. 시간적 불규칙 텐서의 각 슬라이스는 주식의 시간-특징 데이터를, 지식 그래프 텐서의 각 슬라이스는 동일한 주식의 엔티티-관계 데이터를 나타냅니다. 두 텐서에서 분해된 주식 요인 행렬을 공유함으로써, 시간적 및 정적 관계 패턴을 효과적으로 통합할 수 있습니다.
다음으로, 지식 그래프 텐서에 내재된 관계 패턴을 효과적으로 학습하기 위해 관계성 정규화를 제안합니다. 이 정규화는 지식 그래프의 삼중항에서 헤드 엔티티, 관계, 테일 엔티티 간의 방향성을 포착하는 데 초점을 맞춥니다. 구체적으로, 헤드 엔티티와 관계를 결합하면 자연스럽게 테일 엔티티로 이어지는 관계를 모델링하도록 설계되었습니다. 그림 2(b)에 나타난 것처럼, 지식 그래프 텐서의 분해된 요인 행렬은 각각 아이템, 엔티티, 그리고 관계를 나타냅니다. 엔티티 요인 행렬은 헤드 엔티티를, 아이템 요인 행렬은 테일 엔티티를, 관계 요인 행렬은 관계를 표현하여, 삼중항의 관계적 특성을 효과적으로 학습할 수 있도록 관계 정규화 항을 정의하였습니다. 이를 통해 지식 그래프의 복잡한 관계를 보다 정밀하게 모델링할 수 있습니다.
추가적으로, 지식 그래프 텐서 분해 시, 각 슬라이스에서 엔티티 특성의 일관성을 유지하기 위해 엔티티 요인 행렬을 공유하는 방식을 제안합니다. 그림 2(c)에 보이듯이, 이전 슬라이스에 등장한 엔티티는 기존 학습된 임베딩 값을 사용하여 초기화하고, 새롭게 등장한 엔티티는 무작위로 초기화하여 엔티티 특성의 안정성을 보장합니다. 이를 통해 엔티티 표현의 불연속성을 해결하고, 분해 과정에서 일관성과 해석 가능성을 유지합니다.
마지막으로, 동적 정보와 정적 정보를 결합하고 정규화를 포함한 손실 함수를 기반으로, 정확한 요인 행렬을 얻기 위한 모멘텀 기반 업데이트 방식(Momentum-based update procedure)을 제안합니다. 이 방법은 ALS 수렴 속도를 가속화하기 위해 이전 업데이트 방향의 일부를 현재 업데이트에 통합하여 최적화 과정을 안정적이고 빠르게 진행할 수 있도록 합니다. 그림 2(d)에 나타난 예시와 같이, 표준 ALS 업데이트에서 t번째 반복 후 계산된 요인 행렬에 t−1번째 반복에서 계산된 요인 행렬과의 차이를 반영하여 업데이트를 수행합니다. 이때, 반영되는 비율을 조절하는 모멘텀 계수를 사용하여 이전 업데이트 방향이 현재 업데이트에 미치는 영향을 정밀하게 조정합니다. 이 접근법은 특히 고차원 데이터에서 더욱 빠르고 안정적인 업데이트를 가능하게 하며, 결과적으로 ALS의 효율성을 크게 향상시킵니다. 이를 통해 복잡한 데이터 구조를 보다 효과적으로 학습할 수 있습니다.
Experiment
표 1은 결측값 예측 성능을 평가한 결과를 보여줍니다. 실세계의 시간 불규칙 텐서를 임의로 학습 데이터와 결측값으로 처리된 테스트 데이터로 나눈 뒤, 학습 데이터를 기반으로 요인 행렬을 추정하고 이를 활용하여 결측값을 예측합니다. 이후, 예측값과 실제값을 비교하여 Root Mean Squared Error(RMSE)를 계산합니다. RMSE는 예측값과 실제값 간의 차이를 나타내는 지표로, 값이 작을수록 예측 정확도가 높음을 의미합니다. 평가 결과, 모든 실세계 시간 불규칙 텐서에서 제안된 KG-CTF가 매우 우수한 성능을 보였습니다. 특히, KG-CTF는 기존 방법들에 비해 최대 1.6배 낮은 결측값 예측 오류를 기록하며, 보다 정확한 결측값 예측을 가능하게 했음을 확인할 수 있습니다.