본 문서에서는 ACL ’25 Main Track에 채택된 “Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models” 논문을 소개합니다. 논문에 대한 상세 정보는 다음과 같습니다.
- Title: Unifying Uniform and Binary-coding Quantization for Accurate Compression of Large Language Models
- Authors: Seungcheol Park, Jeongin Bae, Beomseok Kwon, Minjun Kim, Byeongwook Kim, Se Jung Kwon, U Kang, and Dongsoo Lee
- Conference: The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)
Large Language Model Quantization
LLM(Large Language Model)은 뛰어난 성능을 보여주지만, 수십억 개의 파라미터로 인한 막대한 메모리 사용량과 연산 비용은 실제 서비스 배포에 큰 걸림돌이 됩니다. 이를 해결하기 위한 핵심 기술인 양자화(Quantization)는 크게 균일 양자화(Uniform Quantization, UQ)와 이진 코드 양자화(Binary-coding Quantization, BCQ)로 나뉩니다. UQ는 가중치를 균일한 간격으로 매핑하여 하드웨어 친화적이고 최적화가 쉽다는 장점이 있지만, 종 모양 분포를 가진 LLM 가중치를 표현하는 데에는 표현력이 부족합니다. 반면 BCQ는 binary basis의 선형 결합으로 가중치를 표현하여 비균일한 간격을 가질 수 있어 표현력이 매우 높지만, 이산적인 최적화 문제로 인해 학습이 어렵다는 단점이 있습니다.
기존 연구들은 이러한 UQ의 최적화 용이성과 BCQ의 높은 표현력 중 하나만을 선택해야 하는 trade-off 관계에 놓여 있어 최적이 아닙니다. 본 논문은 이 두 가지 방식의 장점만을 결합하여 LLM의 성능 저하를 최소화하는 새로운 양자화 방법을 제안합니다. 정리하면, 본 논문은 기존 양자화 방법들이 가지는 아래의 세 가지 문제점들을 해결하였습니다.
- (UQ의 낮은 표현력) 균일 양자화(UQ)는 최적화가 쉽지만, 가중치의 분포를 정확하게 반영하지 못해 양자화 오차가 큽니다. 어떻게 하면 최적화 용이성을 유지하면서 표현력을 높일 수 있을까요?
- (BCQ의 최적화 난이도) 이진 코드 양자화(BCQ)는 표현력이 높지만, 최적화 과정이 복잡하고 불안정하여 최적의 해를 찾기 어렵습니다. BCQ 구조를 가지면서도 안정적으로 학습할 수 있는 방법은 무엇일까요?
- (추론 시의 오버헤드) 복잡한 양자화 매핑 기술을 사용할 경우, 실제 추론 단계에서 추가적인 연산이나 메모리 오버헤드가 발생할 수 있습니다. 어떻게 하면 성능 향상을 위한 복잡한 구조를 추론 시 비용 없이 구현할 수 있을까요?
Proposed Method
그림 1. UQ, BCQ, 그리고 UniQuan (Proposed) 의 비교
- (통합 초기화) UQ의 step size와 BCQ의 binary basis 간의 관계를 수식적으로 연결하여, 학습 초기부터 안정적인 수렴을 유도합니다.
- (지역적 및 주기적 매핑) 미분 가능한 UQ 파라미터를 비선형적인 BCQ 값으로 변환하는 유연한 매핑 함수를 도입하여, UQ의 최적화 용이성을 활용해 BCQ 수준의 표현력을 달성합니다.
- (통합 정리) 학습이 완료된 후, 복잡한 매핑 과정을 거친 파라미터들을 수학적으로 병합하여, 실제 추론 시에는 표준 BCQ 형태와 동일하게 만듦으로써 추가적인 오버헤드를 제거합니다.
그림 1은 기존 UQ 및 BCQ 기법들과 비교하여 Unified Quantization (UniQuan)의 장점을 요약합니다. UniQuanF는 먼저 UQ와 BCQ의 파라미터 공간을 연결하는 초기화 기법을 적용합니다. 이후 학습 과정에서는 '지역적 매핑(Local Mapping)'과 '주기적 매핑(Periodic Mapping)' 함수를 통해, UQ의 파라미터를 조정함으로써 비균일한 양자화 레벨을 탐색합니다. 마지막으로 최적화가 끝난 후에는 제안된 정리에 따라 파라미터를 병합하여, 배포 시에는 어떠한 추가 연산도 필요 없는 효율적인 형태를 갖춥니다.
이어지는 절에서는 UniQuanF의 핵심 아이디어들에 대해 더 자세히 설명하도록 하겠습니다.
Unified Initialization
UQ와 BCQ는 서로 다른 파라미터 공간을 가지고 있어 단순 결합 시 학습이 불안정할 수 있습니다. BCQ는 가중치를 이진 벡터들의 가중합 형태로 표현하는 반면, UQ는 각 가중치를 rounding하여 정수 형태로 저장합니다. 본 논문에서는 BCQ의 계수들이 2의 거듭제곱 꼴일 때 UQ와 수학적으로 동등해진다는 점에 착안했습니다. 이를 바탕으로 UQ의 스텝 사이즈로부터 BCQ의 기저 벡터 초기값을 유도해내는 '통합 초기화' 기법을 제안합니다. 이는 학습 초기에 모델이 엉뚱한 극솟값에 빠지는 것을 방지하고, UQ의 안정적인 출발점에서 시작하여 BCQ의 넓은 표현력 공간으로 나아갈 수 있게 합니다.
Local and Periodic Mapping
- Local Mapping: 각 양자화 구간 내에서 미세한 조정을 가능하게 하여, 가중치가 밀집된 구간의 해상도를 높입니다.
- Periodic Mapping: 주기 함수(sine, cosine 등)를 활용하여 파라미터 공간을 왜곡함으로써, 고정된 그리드에 얽매이지 않고 데이터 분포에 맞는 최적의 양자화 레벨을 스스로 찾도록 유도합니다.
Unification Theorem
Experiments
표 1. Mistral 및 LLaMA-3 모델에 대한 Quantization 성능 비교

