본 문서에서는 2025년 CIKM에서 발표된 "SwaGNER: Leveraging Span-aware Grid Transformers for Accurate Nested Named Entity Recognition" 논문을 소개합니다
Title: SwaGNER: Leveraging Span-aware Grid Transformers for Accurate Nested Named Entity Recognition
- Authors: SeungJoo Lee, Yong-chan Park, and U Kang
- Conference: ACM International Conference on Information and Knowledge Management (CIKM) 2025
Nested NER & Span-based Methods
중첩 개체명 인식(Nested NER). 자연어 처리(NLP)의 다양한 응용 분야에서 그 중요성이 대두되고 있는 과제입니다. 현실 세계의 텍스트 데이터에서 개체명은 하나의 개체가 다른 개체 내부에 포함되는 복잡한 중첩 구조(nested structure)를 보이는 경우가 많습니다. 예를 들어, 그림 1에서 보이듯이, "Professor Jane Smith"라는 문구에서 "Professor"는 직함(TITLE), "Smith"는 사람(PER)으로 각각 분류되면서도, 이 단어들이 모두 합쳐진 "Professor Jane Smith" 전체 역시 하나의 거대한 사람(PER) 개체로 묶이게 됩니다. 이처럼 텍스트 내에서 하나의 토큰이 여러 개체에 속하거나 서로 겹치는(overlapping) 개체 스팬들을 정확하게 식별하고 분류하는 작업이 바로 중첩 개체명 인식입니다.
스팬 기반 방법(Span-based Methods). 문장 내에서 가능한 모든 연속 토큰 구간(스팬)을 후보로 생성한 후, 각 스팬을 사전에 정의된 개체명 범주로 분류하는 방식입니다. 계층 기반(layer-based) 모델이나 하이퍼그래프 기반(hypergraph-based) 모델과 달리, 복잡한 그래프 구조를 별도로 구축하지 않고 중첩된 개체를 직접적으로 다루는 접근법입니다. 이 방식은 중첩된 구조를 매우 직관적으로 포착할 수 있다는 확실한 장점이 있지만, 모든 가능한 스팬을 열거하는 과정에서 막대한 연산 비용이 발생한다는 뚜렷한 한계도 함께 지니고 있습니다.
Goal & Limitations of Previous Works
기존의 스팬 기반 방법들은 모든 가능한 스팬을 빠짐없이 열거하기 때문에 매우 높은 연산 비용을 초래한다는 단점이 있습니다
Proposed Method
본 논문에서는 이러한 문제를 해결하기 위해 경계 탐지기와 스팬 그리드를 활용한 단일 프레임워크인 SwaGNER를 제안합니다. 아래 그림 2는 SwaGNER의 전반적인 동작 과정을 보여줍니다. SwaGNER의 전체 아키텍처는 (1) 스팬 후보 생성 모듈, (2) 스팬 간의 관계를 모델링하는 스팬 그리드 모듈, 그리고 (3) 개체명 분류 모듈로 구성됩니다. 기존 방식들이 모든 가능한 스팬을 열거함으로써 비효율을 초래했던 것과 달리, SwaGNER는 문장 내에서 유의미한 개체 스팬이 될 확률이 높은 후보군만을 선별하여 파이프라인의 병목을 해소합니다
1. 스팬 후보 생성 (Span Candidate Generation)
첫 번째로 스팬 후보 생성 모듈은 문장에 등장하는 모든 토큰들의 조합으로 구성된 전체 스팬 중에서 실제 개체일 가능성이 높은 후보 스팬들을 생성합니다. 해당 모듈은 경계 탐지(boundary detection)와 비개체 후보 스팬의 네거티브 다운샘플링(negative down-sampling) 과정을 포함합니다. 먼저 경계 탐지 모듈은 사전 학습된 인코더를 통해 토큰 임베딩을 추출한 뒤, 경계 분류기가 개체명의 시작과 끝이 될 가능성이 높은 토큰을 예측합니다. 이후 이렇게 예측된 시작 토큰과 종료 토큰들을 조합하여 후보 스팬을 구성합니다. 이를 통해 유효할 가능성이 있는 스팬만을 제한적으로 생성함으로써 기존의 과도한 연산 오버헤드를 대폭 줄입니다. 이어서 모델의 레이블 불균형 문제를 해결하기 위해, 경계 탐지로 생성된 후보 스팬 중에서 실제 개체명이 아닌 비개체일 확률이 높은 스팬(예: "Smith visited Boston University")의 수를 줄이는 다운샘플링을 수행합니다. 실제 개체명은 비교적 짧은 반면 과도하게 긴 스팬은 대부분 비개체라는 코퍼스의 통계적 특성에 착안하여, 특정 길이 이상의 비개체 스팬들을 무작위로 일부만 샘플링합니다. 이를 통해 비개체 스팬으로 인해 발생하는 극심한 레이블 불균형을 해결하고 모델의 학습 효율을 높일 수 있습니다.
2. 스팬 그리드 기반 문맥적 상호작용 모델링 (Span Grid-based Context Modeling)
다음으로, 스팬 그리드 모듈에서는 선별된 후보 스팬들 간의 문맥적 상호작용을 포착하여 중첩된 스팬 간의 전역적 특성을 아우르는 스팬 표현 벡터를 얻고자 합니다
3. 개체명 분류 (Entity Classification)
마지막으로 개체명 분류 모듈에서는 앞선 트랜스포머 과정을 거쳐 도출된 문맥화된 스팬 임베딩을 사용하여 최종적인 개체명 분류를 수행합니다. 이 단계에서는 전역적 문맥이 반영되어 한층 풍부해진 스팬의 표현(representation)을 바탕으로, 각 스팬이 사전에 정의된 개체명 범주 중 어디에 속하는지 확률적으로 예측하게 됩니다
Experiment
본 논문은 실험을 통해 제안된 SwaGNER의 우수한 성능을 보였습니다. 표 1을 보면, SwaGNER는 중첩 개체명 인식 벤치마크 데이터셋인 ACE2004, ACE2005, GENIA에서 각각 88.92%, 87.83%, 82.31%의 F1 점수를 기록하며 PIQN 등 기존 최고 성능 모델들을 뛰어넘었음을 확인할 수 있습니다
아래 그림 4는 추론 속도(inference speed) 측면에서도 SwaGNER가 의미 있는 성능 향상을 달성했음을 보여줍니다. GENIA 데이터셋을 기준으로 모든 가능성을 열거하는 DEM이나 Triaffine 방식과 비교했을 때, 경계 탐지 기반의 필터링과 비개체 후보 스팬의 다운샘플링 기법을 통해 처리해야 할 후보 스팬의 수를 획기적으로 줄였습니다. 그 결과, 테스트 셋에서 기존 모델인 Triaffine 대비 최대 5.8배 빠른 추론 속도를 달성하며 대규모 텍스트 처리에 대한 실용성까지 실험을 통해 검증하였습니다.
Conclusion
본 문서에서는 CIKM 2025에서 발표된 SwaGNER 논문을 소개했습니다. 이 논문은 스팬의 경계 확률을 기반으로 후보 스팬을 동적으로 선택하고, 스팬 그리드와 축 방향 트랜스포머를 통해 중첩된 개체명 간의 문맥을 효과적으로 포착하는 기법을 제안했습니다. 이를 통해 기존 스팬 기반 방식의 연산 비효율성과 레이블 불균형 문제를 모두 해결하고, 뛰어난 인식 성능과 빠른 추론 속도를 동시에 달성하였습니다. 특히, SwaGNER는 단순한 인코더 확장이 아닌 경계 기반의 영리한 후보군 필터링과 그리드 구조의 강력한 귀납적 편향을 결합하여, 복잡하게 얽힌 텍스트 데이터 환경에서도 훨씬 더 세밀하고 정확한 결과를 도출할 수 있음을 입증했습니다. 궁극적으로, SwaGNER는 의료 및 바이오 텍스트 분석, 법률 및 비즈니스 문서 검토 등 텍스트 구조가 복잡한 다양한 산업 분야에 즉각적으로 활용될 수 있습니다. 향후에는 이러한 파이프라인을 사전 학습된 거대 언어 모델 환경과 결합하여, 중첩 개체명 인식 과제의 성능을 한 단계 더 끌어올릴 수 있을 것으로 기대됩니다. 논문에 대한 자세한 내용은 (링크)에 업데이트될 예정입니다.




