Transfer Alignment Network for Blind Unsupervised Domain Adaptation

본 문서에서는 KAIS 저널에 게재된 “Transfer Alignment Network for Blind Unsupervised Domain Adaptation” 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

Title: Transfer Alignment Network for Blind Unsupervised Domain Adaptation
Authors: Huiwen Xu and U Kang
Journal: Knowledge and Information Systems (KAIS) 2021

Blind Unsupervised Domain Adaptation

Domain adaptation은 딥러닝 문제의 하나로, 기존 도메인 (domain)의 정보를 새로운 도메인에 맞게 변화 (adaptation)시켜 새로운 도메인에서의 성능을 향상시키는 것을 목표로 합니다. 이때 사용되는 기존 도메인을 소스 도메인 (source domain), 성능을 향상시키고자 하는 목표가 되는 새로운 도메인을 타겟 도메인 (target domain)이라고 합니다. 일반적인 domain adaptation 기법은 레이블 (label)이 있는 대량의 소스 데이터가 있다고 가정하고, 학습 과정에서 소스 데이터와 타겟 데이터를 동시에 활용하여 학습을 진행합니다. 하지만, 실제 상황을 가정한다면, 레이블이 있는 대량의 데이터는 수집하기 어렵고, 개인 정보와 관련된 데이터들을 소스 데이터로 사용한다면, 개인 정보 보호 문제로 인해 이들을 학습 과정에서 직접 사용하는데 제약이 있을 수 있습니다. 그러므로, 본 논문에서는 이러한 현실적인 제약 상황을 고려하여 Blind Unsupervised Domain Adaptation 문제를 제안하고, 이를 해결하려 합니다. Blind Unsupervised Domain Adaptation에서는 레이블이 없는 대량의 소스 데이터와 소량의 레이블이 있는 소스 데이터를 이용하여 타겟 task의 성능을 향상 시키는 것을 목표로 합니다. 이때, 소스 데이터과 타겟 데이터는 각자의 도메인에서 모델을 학습하는데만 사용되고, 상대방의 데이터를 사용하지 못하도록 제한하여 소스 데이터에 대한 레이블 비용 및 개인정보 보호 문제에서 자유로운 실생활에 직접 가능한 문제입니다.

Transfer Alignment Network (TAN)

Unsupervised domain adaptation 문제에 blind constraint가 존재할 경우 데이터를 동시에 사용하지 못하는 제한이 있기 때문에 소스 도메인에서 소스 데이터만 사용하여 모델을 충분히 학습 시킨 후 오직 모델만 타겟 도메인에 전이해야 합니다. 하지만 소스 데이터와 타겟 데이터의 분포의 차이가 존재하기 때문에 타겟 데이터를 바로 모델에 넣어서 사용하게 된다면 성능저하가 발생됩니다. 본 논문에서는 transfer aligner를 사용하여 두 도메인의 분포 차이를 최소화하였습니다.
소스 도메인에서 소량의 레이블이 지정된 데이터만 사용하여 좋은 분류기를 훈련시키는 것은 어렵습니다. 따라서 먼저 레이블이 지정되지 않은 소스 데이터를 사용하여 의미 있는 피쳐를 추출하도록 오토인코더를 학습하고, 레이블이 지정된 소스 데이터는 오토인코더를 거쳐 분류기를 학습니다(그림 1. Step 1, 2 참조). 소스와 타겟 도메인의 분포 차이가 존재하기 때문에 Step 3에서 학습한 타겟 인코더 위에 소스 분류기를 쌓을 경우 성능저하가 발생됩니다. 때문에 타겟 인코더 위에 transfer aligner를 쌓아 transfer aligner의 아웃풋이 소스 인코더의 아웃풋과 유사하도록 학습합니다(그림 1. Step 4 참조). 그러면 transfer aligner를 통과한 타겟 도메인 피쳐는 소스 도메인 분포에 가까운 분포를 가지므로 소스 도메인에서 훈련된 분류기를 사용하여 레이블이 없는 타겟 데이터를 분류할 수 있습니다.

그림 1. 모델 구조

Experimental Results

본 논문에서는 TAN이 baseline 모델들에 비해 더욱 우수한 성능을 가지는 것을 실험적으로 확인하며, 실험 결과 중 5가지 다변수 데이터에 대한 비교 실험 결과를 표 1에서 확인할 수 있습니다. 여기서, S(UL)은 소스 레이블, 언레이블 데이터만 사용하여 학습한 모델이고, S(UL)-T(U)는 S(UL)로 학습한 모델을 타겟 도메인에 전이한 후 타겟 언레이블 데이터를 사용하여 오토인코더만 재학습한 모델입니다. 다변수 데이터는 소스와 타겟 데이터가 구분되어 있지 않기 때문에 9:1 비율로 분포가 비슷하지만 다른 데이터로 나누어서 소스와 타겟 데이터로 사용하였습니다. 그중 소스 데이터는 9:1 비율로 레이블이 없는 데이터와 레이블이 있는 데이터로 나누어 사용하였습니다. 실험 결과 TAN이 경쟁 메서드들과 비교하였을 때 가장 높은 정확도를 가지는 것을 확인할 수 있습니다. 본 논문에서는 다변수 데이터들 뿐만 아니라, 이미지 데이터에서도 비교 실험을 진행하였으며, 보다 자세한 실험 결과들은 논문에서 확인할 수 있습니다.

표 1. TAN과 baseline 모델의 성능비교

본 논문에서는 타겟 도메인 데이터가 적은 경우에도 제안하는 TAN 기법이 baseline 모델들에 비해 좋은 성능을 가지는 것을 확인합니다. 그림 2은 5가지 다변수 데이터에 대해 타겟 학습 데이터의 수량을 감소시키면서 TAN과 baseline 모델의 비교실험 결과입니다. HIGGS, HEPMASS, SUSY 데이터셋은 데이터 양이 많기 때문에 정확도의 변화 크지 않는 반면, Sensorless와 Gas 데이터셋은 타겟 학습 데이터 양이 감소 될 수록 모든 모델에서 정확도가 크게 감소됩니다. 하지만 모델의 정확도가 줄어드는 상황에서도 여전히 TAN 기법이 baseline 모델에 비해 가장 높은 정확도를 가지는 것을 확인할 수 있습니다. 이미지 데이터에서도 같은 비교 실험을 진행하였고 보다 자세한 실험 결과들은 논문에서 확인할 수 있습니다.

그림 2. 타겟 학습 데이터 감소에 따른 TAN과 baseline 모델의 성능 비교

Conclusion

본 문서는 KAIS 저널에 게재된 “Transfer Alignment Network for Blind Unsupervised Domain Adaptation” 논문을 소개하였습니다. 해당 논문은 대부분의 소스 데이터에 레이블이 없고, 소스 도메인과 타겟 도메인의 데이터를 동시에 접근하지 못한다는 제약 조건이 있는 새로운 문제인 Blind Unsupervised Domain Adaptation를 제시하였고, 타겟 도메인에 소스 모델만을 전이하여 타겟 도메인에서의 성능을 향상시키는 TAN 기법을 제안합니다. 실험적으로 다변수 데이터와 이미지 데이터에서 TAN이 성능 비교에서 가장 높은 정확도를 가지는 것을 검증하였습니다. TAN은 소스 데이터를 직접 전이하는 것이 아니라 모델만 전이하기 때문에, 병원 데이터나 은행 데이터와 같이 개인 정보 보호가 필요한 도메인에 대한 전이학습을 진행하는 경우, 혹은 소스 도메인의 데이터가 너무 많아서 데이터 전이가 어렵고 모델만 전이 가능할 경우에 효과적으로 적용 가능합니다. 논문의 상세 정보는 논문 홈페이지에서 확인할 수 있습니다.

Data Mining Lab. Blog

Search This Blog