SwaGNER: Leveraging Span-aware Grid Transformers for Accurate Nested Named Entity Recognition

 본 문서에서는 2025년 CIKM에서 발표된 "SwaGNER: Leveraging Span-aware Grid Transformers for Accurate Nested Named Entity Recognition" 논문을 소개합니다. 논문에 대한 상세한 정보는 다음과 같습니다.

  • Title: SwaGNER: Leveraging Span-aware Grid Transformers for Accurate Nested Named Entity Recognition

  • Authors: SeungJoo Lee, Yong-chan Park, and U Kang
  • Conference: ACM International Conference on Information and Knowledge Management (CIKM) 2025

Nested NER & Span-based Methods 

중첩 개체명 인식(Nested NER). 자연어 처리(NLP)의 다양한 응용 분야에서 그 중요성이 대두되고 있는 과제입니다. 현실 세계의 텍스트 데이터에서 개체명은 하나의 개체가 다른 개체 내부에 포함되는 복잡한 중첩 구조(nested structure)를 보이는 경우가 많습니다. 예를 들어, 그림 1에서 보이듯이, "Professor Jane Smith"라는 문구에서 "Professor"는 직함(TITLE), "Smith"는 사람(PER)으로 각각 분류되면서도, 이 단어들이 모두 합쳐진 "Professor Jane Smith" 전체 역시 하나의 거대한 사람(PER) 개체로 묶이게 됩니다. 이처럼 텍스트 내에서 하나의 토큰이 여러 개체에 속하거나 서로 겹치는(overlapping) 개체 스팬들을 정확하게 식별하고 분류하는 작업이 바로 중첩 개체명 인식입니다.

스팬 기반 방법(Span-based Methods). 문장 내에서 가능한 모든 연속 토큰 구간(스팬)을 후보로 생성한 후, 각 스팬을 사전에 정의된 개체명 범주로 분류하는 방식입니다. 계층 기반(layer-based) 모델이나 하이퍼그래프 기반(hypergraph-based) 모델과 달리, 복잡한 그래프 구조를 별도로 구축하지 않고 중첩된 개체를 직접적으로 다루는 접근법입니다. 이 방식은 중첩된 구조를 매우 직관적으로 포착할 수 있다는 확실한 장점이 있지만, 모든 가능한 스팬을 열거하는 과정에서 막대한 연산 비용이 발생한다는 뚜렷한 한계도 함께 지니고 있습니다.

그림 1. 중첩 개체명에 대한 스팬 그리드(span grid) 표현 예시

Goal & Limitations of Previous Works

기존의 스팬 기반 방법들은 모든 가능한 스팬을 빠짐없이 열거하기 때문에 매우 높은 연산 비용을 초래한다는 단점이 있습니다또한, 개체명이 아닌 스팬(negative span)이 압도적으로 많이 생성되어 심각한 레이블 불균형 문제가 발생하며, 이는 정확도 하락으로 직결됩니다더불어 기존 방식들은 중첩된 스팬들 간의 복잡한 상호작용이나 문장 전체의 전역적 문맥을 포괄적으로 모델링하는 데 한계가 있었습니다그렇다면, 이러한 한계를 극복하면서 연산량을 줄이고 중첩된 개체명 간의 관계를 효과적으로 학습하려면 어떻게 해야 할까요?

Proposed Method

본 논문에서는 이러한 문제를 해결하기 위해 경계 탐지기와 스팬 그리드를 활용한 단일 프레임워크인 SwaGNER를 제안합니다. 아래 그림 2는 SwaGNER의 전반적인 동작 과정을 보여줍니다. SwaGNER의 전체 아키텍처는 (1) 스팬 후보 생성 모듈, (2) 스팬 간의 관계를 모델링하는 스팬 그리드 모듈, 그리고 (3) 개체명 분류 모듈로 구성됩니다. 기존 방식들이 모든 가능한 스팬을 열거함으로써 비효율을 초래했던 것과 달리, SwaGNER는 문장 내에서 유의미한 개체 스팬이 될 확률이 높은 후보군만을 선별하여 파이프라인의 병목을 해소합니다선별된 스팬들은 2차원 그리드 상에 정형화되어 배치되며, 이를 통해 모델은 중첩된 개체명 간의 복잡한 구조적 관계를 놓치지 않고 전역적인 문맥 하에서 정확하게 학습할 수 있게 됩니다.

그림 2. SwaGNER의 전반적인 동작 과정

1. 스팬 후보 생성 (Span Candidate Generation)

첫 번째로 스팬 후보 생성 모듈은 문장에 등장하는 모든 토큰들의 조합으로 구성된 전체 스팬 중에서 실제 개체일 가능성이 높은 후보 스팬들을 생성합니다. 해당 모듈은 경계 탐지(boundary detection)와 비개체 후보 스팬의 네거티브 다운샘플링(negative down-sampling) 과정을 포함합니다. 먼저 경계 탐지 모듈은 사전 학습된 인코더를 통해 토큰 임베딩을 추출한 뒤, 경계 분류기가 개체명의 시작과 끝이 될 가능성이 높은 토큰을 예측합니다. 이후 이렇게 예측된 시작 토큰과 종료 토큰들을 조합하여 후보 스팬을 구성합니다. 이를 통해 유효할 가능성이 있는 스팬만을 제한적으로 생성함으로써 기존의 과도한 연산 오버헤드를 대폭 줄입니다. 이어서 모델의 레이블 불균형 문제를 해결하기 위해, 경계 탐지로 생성된 후보 스팬 중에서 실제 개체명이 아닌 비개체일 확률이 높은 스팬(예: "Smith visited Boston University")의 수를 줄이는 다운샘플링을 수행합니다. 실제 개체명은 비교적 짧은 반면 과도하게 긴 스팬은 대부분 비개체라는 코퍼스의 통계적 특성에 착안하여, 특정 길이 이상의 비개체 스팬들을 무작위로 일부만 샘플링합니다. 이를 통해 비개체 스팬으로 인해 발생하는 극심한 레이블 불균형을 해결하고 모델의 학습 효율을 높일 수 있습니다.

2. 스팬 그리드 기반 문맥적 상호작용 모델링 (Span Grid-based Context Modeling)

다음으로, 스팬 그리드 모듈에서는 선별된 후보 스팬들 간의 문맥적 상호작용을 포착하여 중첩된 스팬 간의 전역적 특성을 아우르는 스팬 표현 벡터를 얻고자 합니다이를 위해 스팬들의 시작 인덱스와 끝 인덱스를 기준으로 2차원 그리드를 생성하고 후보 스팬들을 그리드 상에 배치합니다이후 축 방향 트랜스포머(axial transformer)를 이용해 해당 그리드 위에서 2단계에 걸친 어텐션(attention) 연산을 수행합니다(그림 3 참조). 먼저 행 방향 패스(row-wise pass)에서는 동일한 시작점을 공유하는 모든 스팬들(즉, 그리드의 각 행)을 하나의 시퀀스로 묶어 멀티헤드 셀프 어텐션을 적용함으로써 행 방향의 상호작용을 포착합니다연이어 진행되는 열 방향 패스(column-wise pass)에서는 동일한 종료점을 공유하는 스팬들(즉, 그리드의 각 열)의 의존성을 모델링합니다. 이처럼 시작 토큰이나 종료 토큰을 공유하는 스팬들에 순차적으로 어텐션을 집중하는 방식을 통해, 복잡하게 얽히고 중첩된 스팬 간의 상호작용과 구조적 관계를 매우 자연스럽고 효과적으로 포착해 낼 수 있습니다.

그림 3. 스팬 그리드 상에서 이루어지는 2단계 axial Transformer 인코딩

3. 개체명 분류 (Entity Classification)

마지막으로 개체명 분류 모듈에서는 앞선 트랜스포머 과정을 거쳐 도출된 문맥화된 스팬 임베딩을 사용하여 최종적인 개체명 분류를 수행합니다. 이 단계에서는 전역적 문맥이 반영되어 한층 풍부해진 스팬의 표현(representation)을 바탕으로, 각 스팬이 사전에 정의된 개체명 범주 중 어디에 속하는지 확률적으로 예측하게 됩니다SwaGNER는 이 세 가지 모듈의 흐름을 단일 프레임워크 내에서 결합 학습을 통해 유기적으로 처리하여, 초기 단계의 예측 오류가 후속 단계로 전파되는 문제를 완화하고 더욱 정교한 인식을 가능하게 합니다.

Experiment

본 논문은 실험을 통해 제안된 SwaGNER의 우수한 성능을 보였습니다. 표 1을 보면, SwaGNER는 중첩 개체명 인식 벤치마크 데이터셋인 ACE2004, ACE2005, GENIA에서 각각 88.92%, 87.83%, 82.31%의 F1 점수를 기록하며 PIQN 등 기존 최고 성능 모델들을 뛰어넘었음을 확인할 수 있습니다. 특히 GENIA 데이터셋 실험에서는, 비교 모델들이 더 큰 규모의 도메인 특화 인코더를 사용했음에도 불구하고 SwaGNER가 상대적으로 가벼운 인코더만으로도 기존 성능을 상회하는 결과를 보여주었습니다. 이는 SwaGNER의 경계를 고려한 그리드 인코딩 구조가 강력한 귀납적 편향(inductive bias)을 제공함으로써, 모델 규모에 크게 의존하지 않고도 높은 성능을 달성할 수 있음을 시사합니다.

표 1. Nested NER 정확도 비교

아래 그림 4는 추론 속도(inference speed) 측면에서도 SwaGNER가 의미 있는 성능 향상을 달성했음을 보여줍니다GENIA 데이터셋을 기준으로 모든 가능성을 열거하는 DEM이나 Triaffine 방식과 비교했을 때, 경계 탐지 기반의 필터링과 비개체 후보 스팬의 다운샘플링 기법을 통해 처리해야 할 후보 스팬의 수를 획기적으로 줄였습니다그 결과, 테스트 셋에서 기존 모델인 Triaffine 대비 최대 5.8배 빠른 추론 속도를 달성하며 대규모 텍스트 처리에 대한 실용성까지 실험을 통해 검증하였습니다.

그림 4. GENIA 데이터셋을 기준으로 SwaGNER와 기존 모델들이 생성한 후보 스팬 수(왼쪽)와 이에 따른 추론 속도(오른쪽)를 비교한 결과

Conclusion

본 문서에서는 CIKM 2025에서 발표된 SwaGNER 논문을 소개했습니다. 이 논문은 스팬의 경계 확률을 기반으로 후보 스팬을 동적으로 선택하고, 스팬 그리드와 축 방향 트랜스포머를 통해 중첩된 개체명 간의 문맥을 효과적으로 포착하는 기법을 제안했습니다. 이를 통해 기존 스팬 기반 방식의 연산 비효율성과 레이블 불균형 문제를 모두 해결하고, 뛰어난 인식 성능과 빠른 추론 속도를 동시에 달성하였습니다. 특히, SwaGNER는 단순한 인코더 확장이 아닌 경계 기반의 영리한 후보군 필터링과 그리드 구조의 강력한 귀납적 편향을 결합하여, 복잡하게 얽힌 텍스트 데이터 환경에서도 훨씬 더 세밀하고 정확한 결과를 도출할 수 있음을 입증했습니다. 궁극적으로, SwaGNER는 의료 및 바이오 텍스트 분석, 법률 및 비즈니스 문서 검토 등 텍스트 구조가 복잡한 다양한 산업 분야에 즉각적으로 활용될 수 있습니다. 향후에는 이러한 파이프라인을 사전 학습된 거대 언어 모델 환경과 결합하여, 중첩 개체명 인식 과제의 성능을 한 단계 더 끌어올릴 수 있을 것으로 기대됩니다. 논문에 대한 자세한 내용은 (링크)에 업데이트될 예정입니다.