본 문서에서는 AAAI 2026에 채택된 “LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers” 논문을 소개합니다. 논문에 대한 상세 정보는 다음과 같습니다.
- Title: LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers
- Authors: Minjun Kim, Jaeri Lee, Jongjin Kim, Jeongin Yun, Yongmo Kwon, and U Kang
- Conference: The 40th Annual AAAI Conference on Artificial Intelligence (AAAI 2026)
Vision Transformer Quantization
Vision Transformer(ViT)는 이미지 분류, 객체 탐지 등 다양한 컴퓨터 비전 태스크에서 뛰어난 성능을 보여주지만, 복잡한 구조와 높은 메모리 및 연산 비용으로 인해 자원이 제한된 환경에 배포하기 어렵습니다. 이를 해결하기 위한 핵심 기술 중 하나인 양자화(Quantization)는 모델의 가중치와 활성값을 저비트 형식으로 변환하여 메모리 사용량과 연산 비용을 줄입니다. 특히 Vision Transformer에서는 추가 학습 비용이 큰 Quantization-Aware Training(QAT)보다, 사전 학습된 모델을 소량의 calibration 데이터만으로 압축하는 Post-Training Quantization(PTQ)이 실용적인 방법으로 널리 활용됩니다.
기존 ViT PTQ 연구들은 LayerNorm 이후 activation의 channel-wise variation, Softmax 이후 activation의 power-law distribution, block output의 outlier 등 ViT 특유의 문제를 해결하며 성능을 높여왔습니다. 하지만 대부분의 방법은 모든 layer 또는 module에 동일한 bit-width를 적용하는 uniform precision 방식을 사용합니다. 문제는 ViT 내부의 block, module, layer마다 양자화 민감도(sensitivity)가 크게 다르기 때문에, 동일한 bit-width를 일괄 적용하면 중요한 layer에는 bit가 부족하고 덜 중요한 layer에는 bit가 낭비될 수 있다는 점입니다. Mixed Precision Quantization(MPQ)은 민감도가 높은 부분에는 높은 bit-width를, 민감도가 낮은 부분에는 낮은 bit-width를 할당하여 이러한 비효율을 줄이고자 합니다. 기존 연구들은 ViT에 MPQ를 적용할 때 granularity, sensitivity metric, bit assignment 측면에서 한계를 보였습니다. 본 논문은 이 세 가지 요소를 모두 개선하여 ViT의 정확도를 유지하면서도 효율적인 layer-wise MPQ를 가능하게 하는 LampQ를 제안합니다. 정리하면, 본 논문은 기존 ViT MPQ 방법들이 가지는 아래의 세 가지 문제점들을 해결하였습니다.
- (큰 granularity) 기존 ViT MPQ 방법은 module-wise로 bit-width를 할당하여 MSA나 MLP 내부의 서로 다른 layer들이 동일한 bit-width를 공유합니다. 하지만 qkv와 proj, fc1과 fc2는 서로 다른 민감도를 가지므로, module 단위 할당은 최적이 아닙니다. 어떻게 하면 더 세밀한 layer 단위 제어를 하면서도 실제 low-bit kernel 지원과 추론 효율성을 유지할 수 있을까요?
- (타입별 metric scale 불일치) 기존 방법은 attention map이나 feature map의 nuclear norm을 민감도 지표로 사용했지만, MSA와 MLP처럼 component type이 다르면 metric 값의 scale이 크게 달라 직접 비교가 어렵습니다. 서로 다른 layer type을 공정하게 비교할 수 있는 민감도 metric은 무엇일까요?
- (양자화를 고려하지 않는 bit assignment) 기존 bit allocation은 full-precision 모델에서 한 번 계산한 metric에 기반하여 bit-width를 정합니다. 그러나 일부 layer가 먼저 양자화되면 이후 layer의 민감도 패턴도 달라질 수 있습니다. 어떻게 하면 양자화 이후의 reconstruction error를 반영하면서도 bit allocation 비용을 낮출 수 있을까요?
Proposed Method
- (레이어 단위 MPQ) ViT block을 qkv, proj, fc1, fc2 layer로 나누고 각 layer에 개별 bit-width를 부여하여, module-wise MPQ보다 세밀하게 양자화 민감도를 반영합니다.
- (타입 인식 Fisher metric) Hessian trace 기반 중요도 아이디어를 Fisher information matrix trace로 근사하고, qkv, proj, fc1, fc2 type별 scaling factor를 적용하여 서로 다른 layer type을 동일한 기준으로 비교합니다.
- (ILP 및 반복적 비트 업데이트) 초기 bit allocation은 average bit-width 제약을 만족하는 ILP 문제로 풀고, 이후 quantization으로 인해 변화한 민감도를 layer-wise reconstruction error 기반으로 반영하여 bit allocation을 반복적으로 수정합니다.
그림 1은 LampQ의 전체 과정을 요약합니다. 먼저 pre-trained full-precision ViT를 입력받아 N개의 block을 4N개의 layer로 구조화합니다. 이후 각 layer의 Fisher-based sensitivity를 계산하고 type-aware scaling으로 보정합니다. 보정된 sensitivity metric을 기반으로 ILP를 풀어 초기 bit-width를 결정한 뒤, 실제 양자화된 모델에서 발생하는 reconstruction error를 추적하며 bit-width를 반복적으로 조정합니다. 이 과정은 average bit-width budget을 유지하면서 중요한 layer에 bit를 더 배정하고, 덜 중요한 layer에서 bit를 회수하는 방식으로 동작합니다.
이어지는 절에서는 LampQ의 핵심 아이디어들에 대해 더 자세히 설명하도록 하겠습니다.
Layer-wise Mixed Precision Quantization
기존 module-wise MPQ는 MSA 전체 또는 MLP 전체에 동일한 bit-width를 적용하기 때문에, 같은 module 내부의 qkv와 proj, fc1과 fc2가 서로 다른 민감도를 가진다는 사실을 반영하지 못합니다. LampQ는 이를 해결하기 위해 ViT block을 네 개의 핵심 linear layer, 즉 qkv, proj, fc1, fc2로 추상화하고 각 layer를 bit allocation의 최소 단위로 사용합니다. per-channel이나 per-weight처럼 더 작은 단위의 MPQ는 이론적으로 더 세밀할 수 있지만, 하나의 weight 또는 activation matrix 내부에서 bit-width가 달라지면 연산 중 full precision 변환이 빈번해져 runtime overhead가 커질 수 있습니다. 반면 layer-wise granularity는 low-bit kernel이 지원 가능한 단위이면서도 module-wise보다 훨씬 세밀한 제어가 가능하므로, 성능과 효율성 사이의 균형을 맞출 수 있습니다.

