Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models

  본 문서에서는 ACL ’25 Main Track에 채택된 “Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models” 논문을 소개합니다. 논문에 대한 상세 정보는 다음과 같습니다.

  • Title: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models
  • Authors: Seungcheol Park, Jeongin Bae, Beomseok Kwon, Minjun Kim, Byeongwook Kim, Se Jung Kwon, U Kang, and Dongsoo Lee
  • Conference: The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)

Large Language Model Quantization

LLM(Large Language Model)은 뛰어난 성능을 보여주지만, 수십억 개의 파라미터로 인한 막대한 메모리 사용량과 연산 비용은 실제 서비스 배포에 큰 걸림돌이 됩니다. 이를 해결하기 위한 핵심 기술인 양자화(Quantization)는 크게 균일 양자화(Uniform Quantization, UQ)와 이진 코드 양자화(Binary-coding Quantization, BCQ)로 나뉩니다. UQ는 가중치를 균일한 간격으로 매핑하여 하드웨어 친화적이고 최적화가 쉽다는 장점이 있지만, 종 모양 분포를 가진 LLM 가중치를 표현하는 데에는 표현력이 부족합니다. 반면 BCQ는 binary basis의 선형 결합으로 가중치를 표현하여 비균일한 간격을 가질 수 있어 표현력이 매우 높지만, 이산적인 최적화 문제로 인해 학습이 어렵다는 단점이 있습니다.

기존 연구들은 이러한 UQ의 최적화 용이성과 BCQ의 높은 표현력 중 하나만을 선택해야 하는 trade-off 관계에 놓여 있어 최적이 아닙니다. 본 논문은 이 두 가지 방식의 장점만을 결합하여 LLM의 성능 저하를 최소화하는 새로운 양자화 방법을 제안합니다. 정리하면, 본 논문은 기존 양자화 방법들이 가지는 아래의 세 가지 문제점들을 해결하였습니다.

  • (UQ의 낮은 표현력) 균일 양자화(UQ)는 최적화가 쉽지만, 가중치의 분포를 정확하게 반영하지 못해 양자화 오차가 큽니다. 어떻게 하면 최적화 용이성을 유지하면서 표현력을 높일 수 있을까요?
  • (BCQ의 최적화 난이도) 이진 코드 양자화(BCQ)는 표현력이 높지만, 최적화 과정이 복잡하고 불안정하여 최적의 해를 찾기 어렵습니다. BCQ 구조를 가지면서도 안정적으로 학습할 수 있는 방법은 무엇일까요?
  • (추론 시의 오버헤드) 복잡한 양자화 매핑 기술을 사용할 경우, 실제 추론 단계에서 추가적인 연산이나 메모리 오버헤드가 발생할 수 있습니다. 어떻게 하면 성능 향상을 위한 복잡한 구조를 추론 시 비용 없이 구현할 수 있을까요?

Proposed Method

그림 1. UQ, BCQ, 그리고 UniQuan (Proposed) 의 비교

UniQuanF(Unified Quantization with Flexible Mapping)는 UQ와 BCQ의 장점을 결합한 새로운 양자화 프레임워크입니다. UniQuanF는 UQ 공간에서 파라미터를 최적화하면서도, 이를 BCQ와 유사한 비균일 공간으로 매핑하는 기법을 통해 아래와 같이 문제를 해결합니다.
  • (통합 초기화) UQ의 step size와 BCQ의 binary basis 간의 관계를 수식적으로 연결하여, 학습 초기부터 안정적인 수렴을 유도합니다.
  • (지역적 및 주기적 매핑) 미분 가능한 UQ 파라미터를 비선형적인 BCQ 값으로 변환하는 유연한 매핑 함수를 도입하여, UQ의 최적화 용이성을 활용해 BCQ 수준의 표현력을 달성합니다.
  • (통합 정리) 학습이 완료된 후, 복잡한 매핑 과정을 거친 파라미터들을 수학적으로 병합하여, 실제 추론 시에는 표준 BCQ 형태와 동일하게 만듦으로써 추가적인 오버헤드를 제거합니다.

그림 1은 기존 UQ 및 BCQ 기법들과 비교하여 Unified Quantization (UniQuan)의 장점을 요약합니다. UniQuanF는 먼저 UQ와 BCQ의 파라미터 공간을 연결하는 초기화 기법을 적용합니다. 이후 학습 과정에서는 '지역적 매핑(Local Mapping)'과 '주기적 매핑(Periodic Mapping)' 함수를 통해, UQ의 파라미터를 조정함으로써 비균일한 양자화 레벨을 탐색합니다. 마지막으로 최적화가 끝난 후에는 제안된 정리에 따라 파라미터를 병합하여, 배포 시에는 어떠한 추가 연산도 필요 없는 효율적인 형태를 갖춥니다.

이어지는 절에서는 UniQuanF의 핵심 아이디어들에 대해 더 자세히 설명하도록 하겠습니다.

Unified Initialization

UQ와 BCQ는 서로 다른 파라미터 공간을 가지고 있어 단순 결합 시 학습이 불안정할 수 있습니다. BCQ는 가중치를 이진 벡터들의 가중합 형태로 표현하는 반면, UQ는 각 가중치를 rounding하여 정수 형태로 저장합니다. 본 논문에서는 BCQ의 계수들이 2의 거듭제곱 꼴일 때 UQ와 수학적으로 동등해진다는 점에 착안했습니다. 이를 바탕으로 UQ의 스텝 사이즈로부터 BCQ의 기저 벡터 초기값을 유도해내는 '통합 초기화' 기법을 제안합니다. 이는 학습 초기에 모델이 엉뚱한 극솟값에 빠지는 것을 방지하고, UQ의 안정적인 출발점에서 시작하여 BCQ의 넓은 표현력 공간으로 나아갈 수 있게 합니다.

Local and Periodic Mapping 

UniQuanF의 핵심은 UQ처럼 미분 가능한 파라미터를 학습하되, 결과적으로는 BCQ처럼 비균일한 양자화 레벨을 갖게 하는 것입니다. 이를 위해 저자들은 두 가지 매핑 함수를 제안합니다.
  • Local Mapping: 각 양자화 구간 내에서 미세한 조정을 가능하게 하여, 가중치가 밀집된 구간의 해상도를 높입니다.
  • Periodic Mapping: 주기 함수(sine, cosine 등)를 활용하여 파라미터 공간을 왜곡함으로써, 고정된 그리드에 얽매이지 않고 데이터 분포에 맞는 최적의 양자화 레벨을 스스로 찾도록 유도합니다.
이 두 매핑을 통해 UniQuanF는 기존 UQ(OmniQuant 등)가 가지는 선형성의 한계를 극복하고, LLM의 복잡한 가중치 분포를 정밀하게 근사합니다.

Unification Theorem 

아무리 성능이 좋아도 추론 속도가 느려지면 실용성이 떨어집니다. UniQuanF는 학습 중에 사용된 복잡한 매핑 함수들이 추론 단계에서는 필요 없음을 수학적으로 증명합니다. 이를 'Unification Theorem'이라고 명명하며, 학습된 매핑 파라미터들을 최종적으로 표준적인 BCQ의 형태(이진 벡터와 스케일링 팩터의 곱)로 환원할 수 있음을 보입니다. 결과적으로 배포된 모델은 일반적인 양자화 모델과 동일한 메모리 구조와 연산 방식을 가지므로, 정확도는 높이면서도 추가적인 배포 비용은 들지 않습니다.

Experiments

해당 연구에서는 UniQuanF의 성능을 검증하기 위해 LLaMA-2, LLaMA-3, Mistral 등 최신 LLM을 대상으로 실험을 진행하였습니다. 평가 지표로는 언어 모델의 기본 성능을 나타내는 Perplexity(WikiText2, C4)와 상식 추론 능력을 평가하는 Zero-shot task(PIQA, HellaSwag 등), 그리고 수학적 추론 능력을 요하는 GSM8K를 사용했습니다. 아래 표 1은 UniQuanF와 기존의 대표적인 양자화 방법론들의 성능을 비교한 결과의 일부입니다.


표 1. Mistral 및 LLaMA-3 모델에 대한 Quantization 성능 비교

실험 결과, UniQuanF는 기존 UQ 기반 방법과 BCQ 기반 방법 모두를 능가하는 성능을 보였습니다. 특히 수학적 추론 능력이 중요한 GSM8K 벤치마크에서 기존 방법 대비 최대 4.60%의 정확도 향상을 달성했습니다. 이는 UniQuanF가 단순히 텍스트 생성 능력뿐만 아니라 모델의 논리적 추론 능력 보존에도 탁월함을 입증합니다. 또한, 2비트와 같은 극단적인 압축 환경에서도 타 방법론 대비 월등히 낮은 Perplexity를 기록하여 강건성을 보여주었습니다.

Conclusion

본 문서에서는 ACL 2025에 발표된 통합 양자화 기법인 UniQuanF에 대해서 소개하였습니다. 해당 논문은 오랫동안 양립하기 어려웠던 균일 양자화(UQ)의 최적화 효율성과 이진 코드 양자화(BCQ)의 표현력을 성공적으로 결합하였습니다. UniQuanF는 LLM의 가중치 분포를 정밀하게 포착하면서도, 추론 시에는 어떠한 추가 비용도 발생시키지 않는다는 점에서 매우 실용적인 기술입니다. 특히 LLaMA-3와 같은 최신 거대 모델에서 GSM8K와 같은 복잡한 태스크의 성능 저하를 최소화했다는 점은 주목할 만합니다. 이 기술은 고성능 LLM을 온디바이스 AI나 엣지 컴퓨팅 환경에 배포할 때, 메모리 제약을 극복하면서도 사용자 경험을 저해하지 않는 핵심 솔루션으로 활용될 수 있습니다. 논문의 자세한 내용은 링크에서 확인할 수 있습니다.