Accurate Graph-based Multi-Positive Unlabeled Learning via Disentangled Multi-view Feature Propagation
본 문서에서는 KDD 2025 학회에 발표된 "Accurate Graph-based Multi-Positive Unlabeled Learning via Disentangled Multi-view Feature Propagation" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.
- Title: Accurate Graph-based Multi-Positive Unlabeled Learning via Disentangled Multi-view Feature Propagation
- Authors: Junghun Kim, Hoyoung Yoon, Ka Hyun Park, and U Kang
- Conference: ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD) 2025
Graph-based Multi-Positive Unlabeled Learning
그래프 기반 MPU 학습 (graph-based multi-positive unlabeled learning) 은 여러 양성 (positive) 클래스에 대해서만 소수의 라벨 (label) 이 제공되고 나머지 대부분의 노드는 미라벨 (unlabeled) 상태인 환경에서, 모든 미라벨 노드를 여러 양성 / 음성 으로 정확하게 분류하는 문제를 다룹니다. 이 문제는 실세계에서 자주 찾아볼 수 있습니다. 예를 들어 사이버 보안에서는 DDoS 나 악성코드 공격자가 정상 사용자처럼 위장하기 때문에 확실한 음성 라벨 (정상 사용자) 를 수집하기 어렵습니다. 감염병 판별에서도 COVID-19, 인플루엔자, 폐렴 등으로 진단된 환자만 양성으로 기록되고 미진단자는 미라벨로 남습니다 (미진단자는 정상이 아니라, 무증상자이거나 단순히 진단을 안받았을 수 있음).
이 문제는 크게 두 가지 이유로 해결이 까다롭습니다 (그림 1 참고). 첫째, 음성 라벨이 없으면 전파 기반 표현 학습이 동류성 가정 (homophily) 에 과도하게 의존하게 됩니다. 그 결과 양성과 음성의 표현이 서로 섞이며 과도 평활화 (oversmoothing) 가 발생하기 쉽습니다. 이를 완화하는 단순한 방법은 서로 다른 클래스 간 연결의 전파 강도를 약화하는 것입니다. 그러나 이 접근은 둘째 어려움을 야기합니다. 양성 클래스들 사이의 공통 특징을 충분히 학습하지 못하게 되어, 음성 라벨 없이 음성 인스턴스를 구분하는 데 필요한 기준축이 약해집니다. 실세계 MPU에서는 양성 간에 공유되는 패턴을 “음성의 부재 신호”로 활용해야 합니다. 따라서 그래프 기반 MPU 학습에서는 양성 클래스들 사이의 공통성과 각 클래스의 차별성을 동시에 학습하는 것이 중요합니다.
Proposed Method
본 논문에서는 정확한 그래프 기반 MPU 학습을 위한 D-MVP (Disentangled Multi-view Feature Propagation) 를 제안합니다. 아래 그림 2 는 D-MVP 의 전반적인 동작 과정을 보여줍니다. D-MVP 는 주어진 그래프 데이터로부터 멀티뷰 특징 (multi-view features) 을 구성하고, 뷰별로 분리 전파 (disentangled propagation) 를 진행하고, 분류/대조 손실 함수를 최적화합니다. 한 번 학습을 진행한 후, 뷰 별 엣지 가중치를 뷰 축 소프트맥스 (view-wise Softmax) 함수로 정규과하여 같은 엣지의 총 중요도를 보존하면서도, 한 뷰는 공통성에, 다른 뷰는 차별성에 집중하도록 자연스러운 역할 분담이 형성되도록 합니다.
Multi-view feature construction
D-MVP 는 다섯 개의 뷰를 사용합니다. Structural, Static, Node, Neighbor, MLP 입니다. 각 뷰는 상이한 정보원을 담아 뷰 별 중복을 줄입니다. Structural 특질은 인접 행렬의 SVD 기반 저차원 표현을 사용합니다. 이 뷰는 전역 구조 정보를 담습니다. Static 특질은 차수, 군집계수, PageRank, 중심성 지표 등 정적 그래프 통계를 사용합니다. 이 특질은 각 노드의 구조적 성향을 요약합니다. Neighbor 특질은 이웃 특질의 평균을 사용합니다. 이 특질은 지역적 관계 성향을 담습니다. Node 특질은 입력 노드 특질을 그대로 사용합니다. 이 특질은 노드의 고유 속성을 보존합니다. MLP 특질은 전파를 수행하지 않고, 선형 변환만 적용되는 특질입니다. 이 특질은 전파로 희석될 수 있는 원시 정보를 보존합니다.
Disentangled feature propagation
분리된 전파를 진행하기 위해, 각 뷰에 대해 독립 가중 그래프를 생성합니다. 각 독립 가중 그래프는 뷰 별 노드 임베딩 유사도를 기반 엣지 가중치를 계산하여 생성합니다. 핵심은 같은 엣지의 뷰 별 가중치 합이 1 이 되도록 뷰 축 Softmax 를 적용하는 점입니다. 이렇게 하면 엣지의 총 중요도는 유지되면서, 어느 뷰가 이 엣지를 잘 설명하는지에 따라 가중치가 분배됩니다. 뷰 별로 독립 가중 그래프가 생성되면, 이를 통해 노드 분류 모델을 학습합니다.
학습은 반복적 (iterative) 으로 진행됩니다. 노드 임베딩으로 가중 그래프를 구성한 뒤, (1) 각 뷰에서 분리 전파를 수행하여 임베딩을 업데이트하고, (2) 분류 손실 (및 보조 손실) 을 최소화하면서 모델 파라미터가 충분히 최적화되면, (3) 뷰별 엣지 유사도를 다시 계산한 후 뷰 축 Softmax로 가중치를 재정규화하여 뷰 별 독립 가중 그래프를 업데이트 합니다. 이 과정을 반복적으로 진행하면서 최종 노드 분류 모델을 생성합니다.
분류 목적함수는 임의의 MPU 손실 함수를 사용할 수 있습니다 (예를 들면 본 블로그의 GRAB 논문 에서 사용한 belief 기반 손실 함수). D-MVP 는 이에 더해, 양성 클래스 간 공통 특질을 더욱 효과적으로 학습할 수 있도록 대조 손실 함수 (contrastive loss) 를 추가합니다. 대조 손실 함수는 양성-양성 임베딩을 모으고, 양성-미라벨 임베딩을 떼어 놓습니다.
Experiments
본 논문은 실험을 통해 D-MVP 와 그래프 기반 MPU 학습을 위한 기존 방법을 비교합니다. 표 1을 보면 D-MVP 가 대부분의 경우에서 가장 뛰어난 성능을 보입니다. 특히, 기존 기법들은 대부분 정확한 사전 클래스 확률이 주어졌을 때를 가정하는데, D-MVP 는 이를 활용하지 않아서 불리한 상황임에도 불구하고 대부분의 경우에서 가장 높은 성능을 달성합니다 (논문에 자세한 결과가 나타나 있습니다).
아래 그림 3 은 학습된 보델의 뷰 별 엣지 가중치가 양성-양성 (Pos-Pos) 엣지와 양성-음성 (Pos-Neg) 엣지에서 어떻게 달라지는지 (왼쪽), 그리고 양성 클래스별로 어떤 차별적 패턴이 나타나는지 (오른쪽) 를 정량적으로 보여줍니다.
먼저, Pos–Pos 엣지에서는 Neighbor 뷰의 가중치가 높게 할당되는 반면, Pos–Neg 엣지에서는 Structure 뷰의 가중치가 상대적으로 강조되는 경향을 확인합니다. 이는 라벨이 관측된 양성들 사이에서는 지역적 이웃 정보가 공통성을 강화하는 데 핵심적으로 작용하는 반면, 음성 (미관측) 과의 분리에는 전역 구조 단서가 더 유효하다는 점을 시사합니다. 다음으로, 양성 클래스별 (클래스 내부 Pos–Pos 엣지) 가중치 패턴을 살펴보면 공통적으로 Neighbor 뷰의 비중이 크다는 점은 유지되지만, 클래스마다 뷰 선호가 뚜렷이 다르게 나타납니다. 예를 들어, 어떤 양성 클래스 (예: Pos1) 는 Node 뷰의 가중치가 Structure 뷰보다 높게 책정되는 반면, 다른 양성 클래스 (예: Pos2) 는 Structure 뷰의 가중치가 Node 뷰보다 높게 나타납니다. 이러한 클래스별 이질적 선호는 제안 기법이 양성 간에 공유되는 단서 (Neighbor) 를 유지하면서도, 각 클래스의 고유 단서(Node/Structure 등) 를 병행해 학습한다는 점을 뒷받침합니다. 결과적으로 공통성과 차별성의 동시 학습이 실제 가중치 분포에 반영되며, 이는 양성 클래스 간, 양성/음성 클래스 간 구분 성능을 높이는 데 직접적으로 기여합니다.
Conclusion
본 문서에서는 KDD 2025에 발표된 “Accurate Graph-based Multi-Positive Unlabeled Learning via Disentangled Multi-view Feature Propagation”을 소개하였습니다. D-MVP는 양성만 부분 라벨된 그래프에서 미라벨 노드를 다중 양성 + 음성으로 정확하게 분류해야 하는 MPU 환경을 대상으로, 동류성 편향과 음성 라벨 부재라는 핵심 난제를 동시에 해결하고자 제안된 방법입니다. 기존 전파 기반 접근이 이질 연결을 약화하면 양성 간 공통성이 희석되고, 반대로 공통성만 강조하면 음성 분리가 어려워지는 딜레마가 존재하지만, D-MVP는 이를 공통성·차별성의 분리 학습을 통해 체계적으로 완화합니다. 실험 결과, D-MVP는 대표 그래프 벤치마크에서 최고 성능을 달성하였습니다. 또한 클래스별 뷰 선호와 엣지 가중치 분포가 해석 가능하게 수렴함을 확인하였습니다. 궁극적으로, D-MVP 는 의료 진단 네트워크, 보안 이상 탐지, 전자상거래 관계 그래프 분석 등 음성 라벨 수집이 어려운 응용 분야에서 즉시 활용 가능합니다. 본 논문은 그래프 기반 MPU 학습의 정확도, 강건성, 해석 가능성을 동시에 끌어올리는 의미 있는 이정표가 될 것으로 기대합니다. 본 논문에 대한 자세한 정보는 [링크] 에서 확인할 수 있습니다.



