Dual-level Reweighting for Positive-Unlabeled Graph Classification

본 문서에서는 WWW 2026 학회에 발표될 "Dual-level Reweighting for Positive-Unlabeled Graph Classification" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

Title: Dual-level Reweighting for Positive-Unlabeled Graph Classification
Authors: Junghun Kim, Shihyung Park, and U Kang
Conference: ACM The Web Conference (WWW) 2026

PU Learning & Graph Classification

PU 학습 (Positive-Unlabeled Learning) 은 양성 (positive) 레이블이 붙은 데이터와 레이블이 없는 (unlabeled) 데이터만 존재하는 상황에서 분류기를 학습하는 문제입니다. 실제 환경에서는 음성 (negative) 레이블을 수집하기 어렵거나 비현실적인 경우가 많기 때문에, 이러한 PU 세팅은 매우 흔하게 발생합니다. 예를 들어, 약물 부작용 예측에서는 부작용이 관측된 약물만 양성으로 표기되고 나머지는 미확인 상태로 남아 있으며, 웹 도메인의 가짜 뉴스 탐지에서도 팩트체커가 허위로 보고한 기사만 양성으로 분류되고 나머지는 미검증 상태입니다.
그래프 분류 (graph classification) 는 분자 특성 예측, 의료 진단 등 다양한 실세계 응용에서 핵심적인 역할을 합니다. 각 그래프는 분자나 세포 같은 예시의 관계를 나타내며, 노드는 원자나 세포를, 엣지는 화학 결합이나 세포 간 상호작용을 표현합니다. 그러나 이러한 도메인에서 완전한 레이블을 얻기는 매우 어려우며, 특히 음성 레이블 수집이 어렵거나 불가능한 경우가 많습니다. 본 논문은 바로 이처럼 양성 레이블과 미표기 데이터만 주어진 PU 그래프 분류 (PU graph classification) 문제를 다룹니다.

Goals & Limitations of Previous Works

PU 그래프 분류에서는 두 가지 핵심 도전 과제가 정확한 학습을 방해합니다. 두 도전 과제는 아래 그림 1에 요약되어 있습니다.

그림1. PU 그래프 분류 문제에서의 두 가지 핵심 도전 과제.

첫 번째 도전 과제 (C1) 는 클래스에 관계없이 많은 그래프들이 공통 부분구조 (common substructure) 를 공유한다는 점입니다. 예를 들어, 독성 물질과 비독성 물질 모두 방향족 고리 (aromatic ring) 와 같은 유사한 구조적 모티프 (motif)를 포함할 수 있습니다. 진정한 판별 패턴은 종종 작고 미묘한 부분구조에 존재하는데, 기존의 평균이나 합산 풀링 (mean/sum pooling) 방법은 모든 노드 특징을 동일하게 취급하여 이러한 세밀한 차이를 포착하지 못합니다. 학습 기반 풀링 방식도 음성 레이블이 없는 PU 세팅에서는 판별력 높은 영역에 명시적으로 집중하기 어렵습니다.

두 번째 도전 과제 (C2) 는 미표기 집합에 양성과 음성의 특성을 모두 띠는 모호한 인스턴스 (ambiguous instance)가 포함된다는 점입니다. 이런 그래프들을 완전히 신뢰할 수 있는 음성으로 처리하면, 특히 확인된 음성 레이블이 없는 상황에서 상충하는 신호가 학습에 전파되어 모델이 판별력이 없는 패턴에 과적합 (overfit) 될 수 있습니다.

그렇다면 양성과 미표기 데이터만 주어진 상황에서도 판별력 있는 부분구조에 집중하고, 모호한 인스턴스의 영향을 효과적으로 줄여 정확한 그래프 분류를 수행하려면 어떻게 해야 할까요?

Proposed Method

본 논문에서는 이러한 문제를 해결하기 위해 Delta-PU 를 제안합니다. Delta-PU 의 핵심 아이디어는 이중 수준 (dual-level) 의 메타 재가중 (meta-reweighting) 을 통해 부분구조 판별력과 인스턴스 신뢰도를 동시에 향상시키는 것입니다. Delta-PU 의 전체 프로세스는 아래 그림 2 에 요약되어 있습니다.

그림 2. Delta-PU 의 전체 프로세스.

Delta-PU는 세 가지 핵심 아이디어를 통해 위의 도전 과제들을 해결합니다.

Hop-level Reweighting (Idea 1). 첫 번째 핵심은 각 k-hop 이웃에 학습 가능한 중요도 가중치 (hop-level weight) α 를 부여하는 것입니다. 같은 클래스의 그래프들이 공통 모티프를 공유하더라도, 특정 hop 범위에서 포착되는 지역적 변이가 판별의 핵심 단서가 될 수 있습니다. Delta-PU 는 각 그래프에 대해 K 개의 hop 별 임베딩을 생성한 뒤, 메타 재가중 원리를 활용하여 검증 손실을 줄이는 데 더 많이 기여하는 hop 범위에 더 높은 가중치를 부여합니다. 음성 레이블이 없는 PU 세팅에서 이 가중치를 학습하기 위해, Delta-PU는 관측된 양성 그래프와 모델 예측 확률이 낮은 미표기 그래프 (pseudo-negative) 로 구성된 깨끗한 검증 집합 (clean validation set) 을 동적으로 구성합니다. 이를 통해 명시적인 음성 레이블 없이도 판별력 있는 hop 범위를 점진적으로 학습할 수 있습니다.

Graph-level Reweighting (Idea 2). 두 번째 핵심은 모호한 미표기 그래프의 영향을 억제하는 그래프 수준 가중치 (graph-level weight) β 를 학습하는 것입니다. 각 미표기 그래프에 대해 검증집합의 기울기 방향과 정렬되도록 중요도 가중치 β 를 최적화합니다. 이를 통해 검증집합 결정 경계를 지지하는 그래프에 더 높은 가중치를 부여하고, 상충하는 신호를 유발하는 모호한 그래프의 영향을 줄입니다. Delta-PU의 최종 목적 함수는 hop-level 가중치 α와 graph-level 가중치 β를 모두 반영하여 구성됩니다. 두 가중치는 각각 예측과 인스턴스 재가중을 통해 최종 손실에 공동으로 영향을 미칩니다.

Three-stage Learning (Idea 3). Delta-PU 는 PU 세팅에서 견고한 학습을 위해 세 단계의 학습 프레임워크를 채택합니다. Warm-up 단계: 모든 미표기 그래프를 음성으로 가정하고, hop- 및 graph-level 가중치 없이 표준 지도학습으로 안정적인 초기화를 수행합니다. Reweighting 단계: hop-level 가중치 α 와 graph-level 가중치 β 를 모델 파라미터와 함께 학습합니다. 이 단계에서 판별력 있는 부분구조에 집중하고 신뢰할 수 없는 인스턴스의 가중치를 줄여 F1 점수가 크게 향상됩니다. Fine-tuning 단계: 학습된 이중 수준 가중치와 모델 예측 신뢰도를 기반으로 일부 미표기 그래프에 pseudo-label 을 재부여하고, 이를 포함하여 모델을 추가적으로 미세 조정합니다.

Experiments

본 논문은 실험을 통해 Delta-PU 의 우수한 성능을 입증했습니다. 분자 그래프 데이터셋 (MUTAG, NCI1, NCI109, PROTEINS), 소셜 그래프 (Facebook), 합성 데이터셋 (BA2Motif, BAMultiShape) 등 다양한 벤치마크에서 관측된 양성 비율을 변화시키며 실험을 수행했습니다.

표 1. PU 그래프 분류 성능 비교 (macro-F1 및 정확도)

Delta-PU 는 모든 관측 비율 세팅에서 기존 baseline 들보다 일관되게 높은 macro-F1 을 달성하며 평균 순위 1위를 기록했습니다. 특히 NCI1, NCI109, PROTEINS 와 같은 대형 데이터셋에서도 강력하고 일관된 성능을 보여, 다양한 그래프 구조와 레이블 불균형 수준에서의 견고성을 입증했습니다.

아래 그림 3은 세 단계 학습 과정에 따른 F1 점수 변화를 보여줍니다.

그림 3. NCI1 및 NCI109 에서 세 단계 학습에 따른 F1 점수 변화.

Warm-up 단계에서 성능이 비교적 평탄하게 유지되다가, Reweighting 단계에서 이중 수준 가중치가 도입되면서 F1 점수가 급격히 상승하는 것을 확인할 수 있습니다. Fine-tuning 단계에서 pseudo-label 재부여를 통해 추가적인 성능 향상이 이루어집니다.

Conclusions

본 문서에서는 WWW 2026 에 발표된 Delta-PU 논문을 소개했습니다. 이 논문은 양성 레이블과 미표기 데이터만 주어진 PU 그래프 분류 문제에서, 판별력 있는 부분구조를 강조하는 hop-level 재가중과 모호한 미표기 그래프의 영향을 억제하는 graph-level 재가중을 결합한 이중 수준 메타 재가중 방법을 제안했습니다. 또한 Warm-up, Reweighting, Fine-tuning 의 세 단계 학습 프레임워크를 통해 점진적으로 신뢰도 높은 학습을 가능하게 했습니다. Delta-PU 는 음성 레이블을 수집하기 어려운 다양한 실세계 응용에 활용될 수 있습니다. 약물 부작용 예측에서 관측되지 않은 부작용을 가진 약물을 탐지하는 문제, 웹 도메인에서 미검증 가짜 뉴스를 식별하는 문제, 의료 진단에서 레이블이 불완전한 세포 그래프 분류 문제 등이 대표적인 예시입니다. 음성 레이블 없이 그래프 수준의 판별을 수행해야 하는 상황이 실제로 매우 일반적임을 고려할 때, 본 연구는 PU 그래프 학습을 보다 현실적이고 도전적인 문제 설정으로 확장했다는 점에서 중요한 의미를 가집니다. 본 논문에 대한 자세한 정보는 [링크]에서 확인할 수 있습니다.

Data Mining Lab. Blog

Search This Blog