A Masked Mixture Model for Compact and Accurate Matrix Factorization

본 문서에서는 KDD 2026 학회에 발표될 "A Masked Mixture Model for Compact and Accurate Matrix Factorization" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

Title: A Masked Mixture Model for Compact and Accurate Matrix Factorization
Authors: Yong-chan Park, Jeongyoung Lee, SeungJoo Lee, and U Kang
Conference: ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD) 2026

Matrix Factorization

행렬 분해(Matrix Factorization, MF)는 추천 시스템, 그래프 학습, 시계열 분석, 모델 압축 등 다양한 분야에서 오랫동안 사용되어 온 대표적인 데이터 표현 기법입니다. 핵심 아이디어는 간단합니다. 큰 행렬 $X$를 두 개의 작은 행렬 $U$와 $V$의 곱으로 근사하여, 데이터 안에 숨어 있는 저차원 구조를 찾는 것입니다. 예를 들어, 추천 시스템에서는 사용자-아이템 평점 행렬을 생각할 수 있습니다. 모든 사용자가 모든 영화에 평점을 남기지는 않지만, 사용자의 취향과 아이템의 특성을 몇 개의 잠재 요인(latent factor)으로 표현할 수 있다면 비어 있는 평점을 예측할 수 있습니다. 이처럼 MF는 구조가 단순하고, 학습이 빠르며, 결과를 비교적 해석하기 쉽다는 장점이 있습니다. 하지만 기존 MF에는 중요한 한계가 있습니다. 모든 사용자와 아이템이 동일한 잠재 차원 전체를 같은 방식으로 사용한다고 가정한다는 점입니다. 실제 데이터는 훨씬 더 이질적입니다. 어떤 사용자는 장르에 민감하고, 어떤 사용자는 배우나 감독에 민감할 수 있습니다. 어떤 문서는 정치 주제에 가깝고, 어떤 문서는 스포츠나 경제 주제에 가깝습니다. 이처럼 서로 다른 인스턴스가 서로 다른 잠재 요인을 필요로 하는데도, 기존 MF는 모두에게 동일한 잠재 공간을 강제로 공유시킵니다. 이 문제를 해결하는 가장 단순한 방법은 랭크(rank)를 크게 늘리는 것입니다. 하지만 랭크를 키우면 파라미터 수가 증가하고, 계산량도 늘어나며, 과적합 위험도 커집니다. 따라서 본 논문은 다음과 같은 질문을 던집니다. "모든 인스턴스가 정말 모든 잠재 차원을 똑같이 사용해야 할까?"
본 논문에서 제안하는 Masked Mixture Factorization(MMF)는 이 질문에 대해 “그렇지 않다”고 답합니다. MMF는 각 인스턴스가 필요한 잠재 차원은 강조하고, 덜 필요한 잠재 차원은 약화시키는 방식으로 기존 MF를 확장합니다.

그림 1. Masked Mixture Factorization의 개요

기존 MF가 하나의 $UV^{\top}$ 곱으로 행렬을 근사한다면, MMF는 여러 개의 masked factorization component를 더해 최종 행렬을 근사합니다. 각 component는 동일한 기본 factor $U,V$를 공유하지만, 인스턴스별 mask를 적용하여 서로 다른 잠재 차원을 선택적으로 사용합니다.

Proposed Method

본 논문에서는 기존 행렬 분해를 더 유연하게 만들기 위해 Masked Mixture Factorization(MMF)를 제안합니다. MMF의 핵심은 “하나의 전역 factorization만 사용하는 대신, 여러 개의 masked factorization을 섞어서 사용한다”는 것입니다. 기존 MF는 다음과 같이 행렬을 근사합니다.

$X \approx UV^\top$

반면 MMF는 다음과 같이 여러 개의 masked component를 합산합니다.

$X \approx \sum_{k=1}^{K} (U \odot M_k^U)(V \odot M_k^V)^\top$

여기서 $U$와 $V$는 기본 latent factor이고, $M_k^U$와 $M_k^V$는 각각 $U$, $V$에 적용되는 mask입니다. $\odot$는 원소별 곱(element-wise multiplication)을 의미합니다. 쉽게 말해, mask는 각 사용자나 아이템이 어떤 잠재 차원을 얼마나 사용할지 결정하는 필터 역할을 합니다. 중요한 점은 MMF가 여러 개의 factorization을 완전히 따로 학습하는 방식이 아니라는 것입니다. 모든 component는 기본 factor $U, V$를 공유하고, mask만 다르게 적용합니다. 따라서 모델의 표현력은 커지지만, 독립적인 여러 모델을 학습하는 것보다 훨씬 가볍습니다.

본 연구의 핵심 아이디어는 다음 세 가지로 요약할 수 있습니다.

첫째, 인스턴스별 잠재 차원 선택입니다. 기존 MF에서는 모든 행과 열이 같은 잠재 차원을 동일하게 사용하지만, MMF에서는 각 사용자, 아이템, 문서, 이미지가 자신에게 필요한 latent dimension을 선택적으로 강조할 수 있습니다.
둘째, mask mixture 구조입니다. 하나의 mask만 사용하면 표현이 제한될 수 있으므로, MMF는 $K$개의 masked component를 사용합니다. 각 component는 서로 다른 방식으로 잠재 차원을 강조하고, 최종 예측은 이 component들의 합으로 만들어집니다.
셋째, 가벼운 mask parameterization입니다. 모든 mask 값을 자유롭게 학습하면 파라미터가 너무 많아져 MF의 장점이 사라집니다. 따라서 논문에서는 mask를 직접 거대한 행렬로 학습하지 않고, 적은 수의 shift parameter와 미리 정의된 smooth mask function을 이용해 효율적으로 생성합니다.

Mixture of Masked Factorizations

MMF를 직관적으로 이해하려면 “모든 사람에게 같은 안경을 씌우는 대신, 사람마다 초점을 조금씩 다르게 맞춘다”고 생각할 수 있습니다. 기존 MF는 하나의 전역 잠재 공간을 만들고, 모든 인스턴스가 그 공간을 같은 방식으로 사용합니다. 반면 MMF는 같은 잠재 공간을 공유하되, 각 인스턴스가 보는 부분을 mask를 통해 조절합니다.

예를 들어 영화 추천 문제를 생각해 보겠습니다. 어떤 사용자는 액션, SF, 스릴러와 같은 장르 관련 잠재 차원이 중요할 수 있고, 다른 사용자는 배우, 감독, 평점 경향과 관련된 차원이 더 중요할 수 있습니다. 기존 MF는 모든 사용자가 전체 차원을 동일하게 사용하도록 만들지만, MMF는 사용자마다 중요한 차원에 더 큰 가중치를 줄 수 있습니다.

또한 MMF는 mixture 구조를 사용합니다. 하나의 mask만으로는 복잡한 취향이나 데이터 구조를 충분히 표현하기 어렵기 때문에, 여러 개의 masked component를 만들고 이들을 합산합니다. 이 방식은 Mixture-of-Experts의 아이디어와 비슷하지만, 무거운 신경망 expert를 여러 개 두는 것이 아니라 MF의 bilinear 구조를 유지한 채 mask만 적용한다는 점에서 훨씬 가볍습니다.

Efficient Mask Parameterization

MMF에서 가장 중요한 설계 중 하나는 mask를 어떻게 효율적으로 만들 것인가입니다. 만약 $M_k^U$, $M_k^V$를 모두 자유로운 행렬로 학습한다면, 파라미터 수가 크게 증가합니다. 그렇게 되면 compact matrix factorization이라는 목표와 맞지 않습니다.

이를 해결하기 위해 논문은 row-wise shift parameter와 predefined mask function을 사용합니다. 직관적으로는, 각 인스턴스마다 잠재 차원 축 위에서 mask의 위치를 조금씩 이동시키는 방식입니다. 예를 들어 Gaussian 형태의 mask를 사용한다고 생각해 보겠습니다. Gaussian mask는 특정 latent dimension 근처를 강하게 강조하고, 멀리 떨어진 dimension은 약하게 만듭니다. 이때 shift parameter는 Gaussian peak의 위치를 결정합니다. 즉, 어떤 사용자는 앞쪽 latent dimension을 강조하고, 어떤 사용자는 중간이나 뒤쪽 latent dimension을 강조할 수 있습니다.

그림 2. Gaussian mask를 사용한 MMF의 mask matrix 예시

각 행은 하나의 인스턴스를 나타내고, 가로축은 latent dimension을 나타냅니다. Gaussian peak의 위치가 인스턴스마다 달라지며, 이를 통해 각 인스턴스가 서로 다른 latent subspace를 선택적으로 사용할 수 있습니다. 여러 mixture component를 함께 사용하면 coarse-to-fine 방식으로 더 다양한 차원 선택이 가능합니다.

이 구조의 장점은 명확합니다. MMF는 인스턴스별로 다른 mask를 만들 수 있으면서도, mask 전체를 거대한 파라미터 행렬로 직접 학습하지 않습니다. 따라서 기존 MF의 단순성과 확장성을 크게 해치지 않으면서도, 훨씬 유연한 표현력을 얻을 수 있습니다.

Expressivity and Identifiability

본 논문은 MMF가 왜 더 강력한 표현력을 가지는지 이론적으로도 분석합니다. 핵심 결과는 두 가지입니다.

첫 번째는 표현력(expressivity)입니다. 기존 rank-$R$ MF는 기본적으로 rank가 $R$을 넘는 구조를 표현하기 어렵습니다. 더 복잡한 행렬을 표현하려면 rank를 키워야 하고, 이는 곧 파라미터 수 증가로 이어집니다. 반면 MMF는 $K$개의 masked component를 사용하기 때문에, 이론적으로는 유효 rank가 $KR$ 수준까지 확장될 수 있습니다. 중요한 점은 이를 위해 표준 MF처럼 $(I+J)KR$개의 파라미터를 모두 쓰는 것이 아니라, 기본 factor와 mask shift parameter를 조합하여 훨씬 효율적으로 표현력을 확장한다는 것입니다.

두 번째는 식별 가능성(identifiability)입니다. 기존 MF에는 잘 알려진 모호성이 있습니다. $UV^\top$라는 곱은 $U$와 $V$를 동시에 회전하거나 변환해도 같은 결과를 만들 수 있습니다. 즉, 서로 다른 파라미터 조합이 동일한 행렬을 만들어낼 수 있고, 이 때문에 학습 과정에서 불필요한 자유도가 생길 수 있습니다. MMF는 element-wise mask를 적용하기 때문에 이러한 회전 대칭성을 상당 부분 깨뜨립니다. 논문은 MMF가 일반적인 상황에서 비대각 회전(non-diagonal rotation)에 의한 모호성을 줄일 수 있음을 보입니다. 쉽게 말해, 같은 결과를 만드는 불필요한 파라미터 변형이 줄어들고, 학습된 latent factor가 더 안정적인 구조를 가질 수 있습니다.

Experiments

논문에서는 MMF를 세 가지 주요 과제에서 평가합니다. 첫째는 관측된 행렬 전체를 얼마나 잘 복원하는지 보는 matrix reconstruction, 둘째는 일부 값만 관측된 행렬에서 나머지 값을 예측하는 matrix completion, 셋째는 추천 시스템에서 중요한 Top-N recommendation입니다.

Matrix Reconstruction

먼저 논문은 synthetic matrix와 real-world matrix를 사용하여 MMF의 복원 성능을 평가합니다. 이 실험의 목적은 명확합니다. 같은 파라미터 예산이 주어졌을 때, 어떤 방법이 원본 행렬을 더 정확하게 표현할 수 있는지를 비교하는 것입니다. 비교 대상에는 SVD, MF-SGD, MF-Ridge, Bias MF 등이 포함됩니다. 특히 SVD는 완전히 관측된 행렬에 대해 최적의 low-rank approximation을 제공하는 강한 baseline입니다. 그럼에도 불구하고 MMF는 동일한 파라미터 예산에서 더 낮은 reconstruction error를 달성합니다.

그림 3. Synthetic matrix에서의 reconstruction 성능 비교

Random dense matrix $S_6$–$S_{10}$와 block-diagonal matrix $H_2$–$H_6$에 대해, MMF가 MF 계열 baseline 및 SVD보다 낮은 relative Frobenius error를 보이는 결과를 보여줍니다. 특히 block 수가 많아질수록 MMF의 장점이 더 뚜렷하게 나타납니다.

흥미로운 점은 block-diagonal matrix에서 MMF의 성능 차이가 더욱 커진다는 것입니다. 이는 MMF가 이질적인 구조에 강하다는 논문의 핵심 주장과 잘 맞습니다. 여러 개의 block은 서로 다른 부분 구조를 의미하는데, 기존 MF는 이를 하나의 전역 latent basis로 동시에 설명해야 합니다. 반면 MMF는 mask를 통해 서로 다른 부분 구조에 필요한 latent dimension을 다르게 사용할 수 있습니다.

Real-world matrix에서도 비슷한 결과가 나타납니다. Yale-B face image 데이터에서는 조명 변화로 인해 이미지마다 중요한 패턴이 달라지고, Reuters 문서 데이터에서는 문서마다 다루는 주제가 다르기 때문에 semantic sparsity가 존재합니다. MMF는 이러한 인스턴스별 차이를 mask로 반영하여 SVD보다 낮은 복원 오차를 달성합니다.

표 1. Yale-B와 Reuters 데이터에서의 reconstruction error

Yale-B에서는 budget이 증가할수록 MMF의 개선 폭이 커져 최대 20.2%의 error reduction을 보이며, Reuters에서는 최대 40.3%의 개선을 보입니다. 이는 MMF가 실제 이미지 및 문서 데이터에서도 compact하면서 정확한 표현을 제공함을 보여줍니다.

Matrix Completion

다음으로 논문은 추천 시스템에서 자주 등장하는 matrix completion 문제를 평가합니다. 여기서는 Flixster, Douban, MovieLens-100K, MovieLens-1M, MovieLens-10M 데이터셋을 사용합니다. 평가 지표는 RMSE입니다. MMF는 표준 MF 계열 방법뿐 아니라, 여러 neural model 및 graph-based model과 비교됩니다. 특히 일부 graph-based method는 side information이나 graph structure를 활용합니다. 반면 MMF는 interaction matrix만 사용하는 순수 collaborative filtering 방식입니다. 그럼에도 MMF는 여러 데이터셋에서 매우 경쟁력 있는 성능을 보입니다.

표 2. Matrix completion 성능 비교

MMF는 ML-1M과 ML-10M에서 가장 좋은 RMSE를 기록하고, ML-100K와 Douban에서도 상위권 성능을 보입니다. 특히 ML-10M처럼 큰 데이터셋에서도 안정적으로 동작한다는 점이 중요합니다.

이 결과의 의미는 단순히 “MMF가 정확하다”에 그치지 않습니다. MMF는 복잡한 graph construction, message passing, side information 없이도 강한 성능을 냅니다. 즉, 기존 MF의 실용적인 장점은 유지하면서도, mask를 통해 데이터의 이질성을 더 잘 반영할 수 있음을 보여줍니다.

Top-N Recommendation

추천 시스템에서는 RMSE뿐만 아니라 사용자가 좋아할 만한 아이템을 상위 N개로 잘 추천하는지도 중요합니다. 이를 확인하기 위해 논문은 ML-1M 데이터셋에서 BPR loss를 사용해 MMF를 학습하고, Recall@10, NDCG@10, Recall@20, NDCG@20을 평가합니다.

표 3. ML-1M에서의 Top-N recommendation 성능

MMF는 BPRMF, NeuMF, NGCF, LightGCN, SGL과 비교되며, Recall@10, Recall@20, NDCG@20에서 SGL보다 약간 높은 성능을 보입니다. NDCG@10에서는 SGL보다 근소하게 낮지만, 전반적으로 매우 경쟁력 있는 결과를 보입니다.

이 실험은 MMF가 단순히 평점 예측에만 유용한 것이 아니라, 실제 추천 시스템에서 중요한 ranking 문제에도 효과적이라는 점을 보여줍니다. 특히 MMF는 graph propagation이나 contrastive learning 없이도 좋은 성능을 보이므로, 가볍고 실용적인 추천 모델로 활용될 가능성이 있습니다.

Ablation Study

논문은 MMF의 성능이 어떤 설계 요소에 의해 결정되는지도 분석합니다. 첫 번째는 mask function의 종류입니다. 실험에서는 sine, Gaussian, tanh, triangle, sigmoid 등 여러 mask family를 비교합니다. 결과적으로 smooth한 mask, 특히 sine과 Gaussian 계열이 좋은 성능을 보입니다. Random dense matrix에서는 sine mask가 강점을 보이고, block 구조가 뚜렷한 heterogeneous matrix에서는 Gaussian mask가 좋은 성능을 보입니다. 이는 데이터 구조에 따라 적합한 mask 모양이 달라질 수 있음을 의미합니다.

그림 4. Mask function 종류에 따른 MMF 성능 변화

Smooth mask가 monotone 또는 non-smooth mask보다 전반적으로 좋은 성능을 내며, 데이터 구조에 따라 sine과 Gaussian의 장점이 다르게 나타납니다.

두 번째는 mask 개수 $K$의 영향입니다. $K$를 늘리면 더 다양한 masked component를 만들 수 있지만, 전체 파라미터 예산이 고정되어 있다면 base rank에 사용할 수 있는 예산은 줄어듭니다. 따라서 mask 개수와 base rank 사이에는 균형이 필요합니다.

그림 5. 고정된 파라미터 예산에서 mask 개수의 영향

Random dense matrix에서는 더 많은 mask가 복잡한 패턴을 표현하는 데 도움이 되는 반면, block 구조가 명확한 matrix에서는 너무 많은 mask보다 적절한 base rank를 유지하는 것이 더 유리할 수 있습니다.

Running Time

MMF는 더 유연한 모델이지만, 계산량이 지나치게 커진다면 실용성이 떨어집니다. 논문은 synthetic matrix와 real-world benchmark에서 실행 시간을 비교하여 MMF의 효율성을 확인합니다.
Synthetic matrix 실험에서 MMF는 MF 계열 baseline과 비슷한 수준의 per-epoch runtime을 보입니다. 이는 MMF가 기본적으로 MF의 bilinear 구조를 유지하고, 추가 연산이 element-wise masking과 component summation에 가깝기 때문입니다. 이러한 연산은 batch operation과 parallelization에 잘 맞습니다.
Real-world matrix completion 실험에서도 MMF는 graph-based deep learning method보다 훨씬 짧은 학습 시간을 보입니다. 예를 들어 ML-100K와 ML-1M에서 MMF는 강한 graph-based baseline보다 빠르게 학습되며, inference latency도 경쟁력 있는 수준을 유지합니다.

표 4. MMF의 실행 시간 (sec) 비교

MMF는 정확도 개선을 달성하면서도 학습 비용과 추론 시간을 과도하게 증가시키지 않습니다.

Expressivity and Identifiability Analysis

마지막으로 논문은 MMF가 실제로 더 높은 표현력을 갖는지, 그리고 학습된 factor가 더 안정적인지를 실험적으로 확인합니다. 먼저 singular value spectrum을 보면, SVD는 정해진 rank budget 이후 singular value가 급격히 끊깁니다. 반면 MMF는 같은 파라미터 예산에서도 더 넓은 범위의 singular value를 만들어낼 수 있습니다. 이는 MMF가 mask mixture를 통해 기존 MF보다 더 높은 effective rank를 가질 수 있음을 보여줍니다.

그림 6. SVD와 MMF의 effective expressivity 비교

SVD는 rank budget 이후 표현력이 제한되는 반면, MMF는 mask 개수가 증가함에 따라 더 넓은 spectrum을 표현합니다. Heterogeneous block matrix에서는 필요한 구조에 맞게 effective rank가 포화되는 모습도 확인됩니다.

식별 가능성 측면에서는 두 번의 독립적인 학습 결과에서 얻은 latent factor 간 cosine similarity를 비교합니다. 기존 MF는 회전 대칭성 때문에 서로 다른 학습 결과의 latent dimension이 잘 정렬되지 않을 수 있습니다. 반면 MMF는 diagonal alignment가 뚜렷하게 나타나며, 이는 latent dimension이 더 일관되게 학습된다는 것을 의미합니다.

그림 7. 기존 MF와 MMF의 latent factor 안정성 비교

Standard MF에서는 similarity matrix가 흩어진 패턴을 보이지만, MMF에서는 대각선 방향 정렬이 강하게 나타납니다. 이는 mask가 불필요한 회전 자유도를 줄이고 더 안정적인 표현을 유도함을 보여줍니다.

Conclusion

본 문서에서는 KDD 2026에 발표된 “A Masked Mixture Model for Compact and Accurate Matrix Factorization” 논문을 소개하였습니다. 이 논문은 기존 matrix factorization의 핵심 한계인 모든 인스턴스가 동일한 latent dimension을 동일하게 사용한다는 가정을 문제로 지적하고, 이를 해결하기 위해 Masked Mixture Factorization(MMF)를 제안합니다.

MMF는 여러 개의 masked factorization component를 사용하여 각 사용자, 아이템, 문서, 이미지가 자신에게 중요한 latent dimension을 선택적으로 활용할 수 있도록 합니다. 동시에 모든 component가 기본 factor $U, V$를 공유하기 때문에, 여러 개의 독립적인 모델을 사용하는 방식보다 훨씬 compact합니다. 또한 mask를 직접 거대한 행렬로 학습하지 않고, shift parameter와 smooth mask function을 통해 효율적으로 생성함으로써 MF의 확장성과 단순성을 유지합니다.

이론적으로 MMF는 기존 rank-$R$ MF보다 더 큰 effective rank를 표현할 수 있으며, element-wise masking을 통해 기존 MF의 회전 대칭성 문제를 줄여 더 안정적인 latent representation을 유도합니다. 실험적으로도 MMF는 matrix reconstruction, matrix completion, Top-N recommendation에서 강한 baseline들과 비교해 일관되게 우수하거나 경쟁력 있는 성능을 보였습니다. 따라서 MMF는 실용적인 추천 시스템, 그래프 학습, 시계열 분석, 모델 압축 등 분야에 유용한 방법론으로 볼 수 있습니다.

결국 MMF의 핵심 메시지는 더 큰 모델을 만드는 대신, 같은 latent space를 더 똑똑하게 쓰자는 것입니다. 모든 인스턴스에 같은 잠재 차원을 강제로 사용하게 하기보다, 필요한 차원은 강조하고 불필요한 차원은 줄이는 방식만으로도 행렬 분해의 정확도와 표현력을 크게 높일 수 있습니다. 이 점에서 MMF는 기존 MF의 장점을 유지하면서도 heterogeneous data를 더 잘 다룰 수 있는 가볍고 설득력 있는 확장 방법이라고 할 수 있습니다. 본 논문에 대한 자세한 정보는 [링크]에서 확인할 수 있습니다.

Data Mining Lab. Blog

Search This Blog