Domain-Aware Data Selection for Speech Classification via Meta-Reweighting

 본 문서에서는 Interspeech'24 학회에 발표된 "Domain-Aware Data Selection for Speech Classification via Meta-Reweighing" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title : Domain-Aware Data Selection for Speech Classification via Meta-Reweighting
  • Authors: Junghun Kim, Ka Hyun Park, Hoyoung Yoon and U Kang
  • Conference:  Annual Conference of the International Speech Communication Association (Interspeech) 2024

Introduction

음성 분류 문제는 화자의 감정 분석, 화자 식별, 언어 인식, 가짜 음성 탐지와 같은 다양한 실세계 응용에 중요한 역할을 합니다. 이 과정에서 음성 데이터는 고유한 특성을 갖는 여러 도메인에 걸쳐 존재할 수 있습니다. 예를 들어, 다양한 질병을 가진 환자들의 음성 데이터를 분석하는 경우, 각 질병을 가지고 있는 환자들의 음성 특징이 다르다는 점을 고려하여 음성을 분류해야합니다. 특히, 음성 장애를 가진 환자의 의도를 파악하는 작업에서는 장애의 종류에 따라 각 환자의 발화 특성이 달라지기 때문에, 다중 도메인 데이터를 효과적으로 활용하기 위한 방안이 필요합니다.

이러한 여러 도메인이 존재하는 상황에서의 기존의 음성 분류 방식은 다음과 같이 구분해 볼 수 있습니다. 

첫 번째로, 타겟 도메인의 정보만을 활용하는 방법이 있습니다. 이러한 방식을 사용하게 되면 유용한 소스 도메인의 데이터가 존재하더라도 활용하지 못하는 단점이 있습니다. 이는 실제 문제 상황에서 발생하는 문제로, 제한된 타겟 도메인 데이터를 보완하기 위해 소스 도메인 데이터를 어떻게 활용할지에 대한 전략이 필요합니다.


두 번째로, 주어진 타겟과 더불어 소스 도메인의 정보를 선택적으로 사용하는 방식입니다. 하지만, 기존의 데이터 선택 방법은 소스 도메인 간의 다양성을 충분히 반영하지 못하는 경우가 많습니다. 소스 도메인에 포함된 데이터가 타겟 도메인과 얼마나 유사한지 고려하지 않고 단순히 모든 데이터를 사용하게 되면 타겟 도메인의 특성과 다른 데이터가 학습에 포함되어 분류 성능을 저하시킬 수 있습니다.

본 연구에서는 이러한 문제를 해결하기 위해 Domain-Aware Data Selection via Meta-Reweighting (DoReMe) 를 제안합니다. DoReMe는 메타 재가중치 (meta-reweighting) 기법을 활용하여 소스 도메인으로부터 데이터를 동적으로 선택하고, 이를 통해 타겟 도메인에 대해 정확한 분류 모델을 학습할 수 있는 방법을 제시합니다. 메타 재가중치는 각 소스 도메인의 인스턴스와 도메인 자체에 점수를 부여하여 중요도를 결정하는 방식으로, 타겟 도메인과 유사한 데이터를 우선적으로 선택해 분류 성능을 극대화할 수 있습니다. 특히, DoReMe는 단순히 소스 데이터를 전부 사용하는 것이 아니라, 소스 도메인 간의 유사성과 각 인스턴스의 중요도를 동시에 고려해 학습 과정에서 선택적으로 반영하는 것이 특징입니다.


Proposed Method

본 논문에서는 다중 도메인 환경에서 소스 도메인의 데이터를 효과적으로 선택하여 타겟 도메인의 분류 성능을 극대화하는 기법인 DoReMe를 제안합니다. DoReMe는 타겟 도메인과의 유사성을 기준으로 소스 도메인의 데이터 인스턴스에는 인스턴스 점수(instance-score), 도메인에는 도메인 점수(domain-score) 를 부여하여 이를 통해 분류 모델을 학습합니다.


그림 1. DoReMe의 전체적인 동작 과정.

그림 1.은 DoReMe의 작동 과정을 나타내며 이는 크게 세 가지 주요 단계로 이루어집니다:

  1. 기학습된 언어 모델을 통한 초기 점수 산출

    • 기학습된 언어 모델을 사용하여 음성 데이터를 벡터 형식의 임베딩으로 변환합니다. 본 논문에서는 wav2vec 2.0이라는 사전 학습된 모델을 사용하여 도메인 간의 유사성 비교 및 점수 산정에 유용한 기초 정보를 제공합니다.
    • wav2vec 2.0은 사전 학습된 음성 모델로, 음성 데이터를 효과적으로 벡터로 표현하여 다양한 음성 인식 및 분류 작업에 활용됩니다.
  2. 인스턴스 점수 계산

    • 인스턴스 점수(instance-score) 는 각 소스 도메인의 데이터 인스턴스가 타겟 도메인과 얼마나 유사한지 측정합니다. 이 점수는 타겟 도메인과 유사한 소스 데이터를 선별하여 학습 과정에 더 많이 반영되도록 합니다.
    • 이 과정에서 메타 재가중치 기법이 적용됩니다. 메타 재가중치 기법은 소스 도메인의 데이터 중 타겟 도메인과 차이가 큰 데이터를 '노이즈'로 간주하여 가중치를 낮추고, 유사한 데이터에는 높은 가중치를 부여합니다.
    • 구체적으로, 각 데이터 인스턴스에 대한 점수는 타겟 도메인의 데이터와의 기울기 차이를 기반으로 계산됩니다. 타겟 도메인 관점에서 중요한 인스턴스는 높은 점수를 받고, 그렇지 않은 인스턴스는 점수가 낮아집니다.
  3. 도메인 점수 계산

    • 도메인 점수(domain-score) 는 각 소스 도메인이 타겟 도메인과 얼마나 유사한지를 평가합니다. 이를 통해 타겟 도메인에 큰 기여를 할 수 있는 도메인의 데이터를 더 많이 반영하고, 타겟 도메인과 차이가 큰 도메인은 학습에서 영향력을 줄입니다.
    • 도메인 점수는 소스 도메인의 전체 데이터를 대상으로 타겟 도메인과의 유사도를 측정하여 계산됩니다. 상대적으로 많은 데이터를 가진 도메인이라도 타겟 도메인과의 유사성이 낮다면 영향력을 줄이기 위해 가중치를 낮추는 방식으로 처리합니다.

소스 도메인에서의 점수 산출 방법

  1. 인스턴스 점수

    • 각 소스 도메인의 음성 데이터를 타겟 도메인의 데이터와 비교하여 메타 재가중치 기법을 적용해 인스턴스 점수를 매깁니다. 이 때, 타겟 도메인의 데이터가 부족한 상황에서도 특정 소스 도메인의 중요한 데이터를 무시하지 않도록 점수를 0~1 범위가 아닌 0.5~1 범위로 재조정하여 더 안정적인 학습을 가능하게 합니다.
  2. 도메인 점수

    • 도메인 점수는 각 소스 도메인의 데이터가 타겟 도메인의 분류 성능에 얼마나 기여하는지를 측정하여 계산됩니다. 메타 재가중치 기법을 도메인 레벨에서 확장해, 소스 도메인의 기여도가 크면 점수를 높이고, 기여도가 낮거나 노이즈가 많은 도메인은 점수를 낮추는 방식으로 진행됩니다.

Experiments

DoReMe는 Skit-S2I와 ITALIC 데이터셋을 사용한 실험에서, F1-score와 Accuracy에서 기존 방법들과 비교하여 일관되게 높은 성능을 보였습니다. 

표 1. 음성 분류 문제에서의 DoReMe 와 여러 기존 기법들의 성능

위의 표 1. 은 음성 분류 문제에서 DoReMe 와 여러 기존 기법들의 성능을 보여줍니다. 




그림 2.  노이즈 추가 정도에 따른 도메인 점수의 변화 양상

위의 그림 2. 는 소스 도메인에 노이즈를 추가 하였을 때 도메인 점수가 변화하는 양상을 확인하였습니다. 노이즈가 많이 추가될 수록 타겟 도메인과의 관련성이 떨어져 도메인 점수가 감소하는 양상을 뚜렷하게 보여 DoReMe 가 소스 도메인의 점수를 동적으로 매기고 있음을 알 수 있습니다.

Conclusion

본 문서에서는 Interspeech 2024에 발표된 "Domain-Aware Data Selection for Speech Classification via Meta-Reweighting " 논문을 소개하였습니다. 본 논문에서는 DoReMe라는 메타 재가중치 기반의 도메인 인식 데이터 선택 기법을 제안합니다. 타겟과 소스 도메인 데이터의 유사성을 바탕으로 인스턴스와 도메인 점수를 동적으로 매겨 정확한 음성 분류를 수행할 수 있습니다. 이를 통해 타겟 도메인의 데이터가 적더라도 소스 도메인의 데이터를 효과적으로 활용하여 높은 성능을 유지할 수 있으며, 다양한 음성 분류 문제에 적용 가능한 기법으로 자리잡을 수 있을 것으로 기대됩니다. 이러한 기법은 다양한 실세계 음성 분류 응용에 널리 활용될 수 있습니다. 예를 들어, 제한된 타겟 도메인의 음성 데이터를 이용해 더 많은 소스 데이터를 선택적으로 활용함으로써, 감정 분석이나 음성 장애 인식 등에서 보다 높은 성능을 기대할 수 있습니다. 본 논문에 대한 자세한 정보는 [link]에서 확인할 수 있습니다.