LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers

본 문서에서는 AAAI 2026에 채택된 “LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers” 논문을 소개합니다. 논문에 대한 상세 정보는 다음과 같습니다.

  • Title: LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers
  • Authors: Minjun Kim, Jaeri Lee, Jongjin Kim, Jeongin Yun, Yongmo Kwon, and U Kang
  • Conference: The 40th Annual AAAI Conference on Artificial Intelligence (AAAI 2026)

Vision Transformer Quantization

Vision Transformer(ViT)는 이미지 분류, 객체 탐지 등 다양한 컴퓨터 비전 태스크에서 뛰어난 성능을 보여주지만, 복잡한 구조와 높은 메모리 및 연산 비용으로 인해 자원이 제한된 환경에 배포하기 어렵습니다. 이를 해결하기 위한 핵심 기술 중 하나인 양자화(Quantization)는 모델의 가중치와 활성값을 저비트 형식으로 변환하여 메모리 사용량과 연산 비용을 줄입니다. 특히 Vision Transformer에서는 추가 학습 비용이 큰 Quantization-Aware Training(QAT)보다, 사전 학습된 모델을 소량의 calibration 데이터만으로 압축하는 Post-Training Quantization(PTQ)이 실용적인 방법으로 널리 활용됩니다.

기존 ViT PTQ 연구들은 LayerNorm 이후 activation의 channel-wise variation, Softmax 이후 activation의 power-law distribution, block output의 outlier 등 ViT 특유의 문제를 해결하며 성능을 높여왔습니다. 하지만 대부분의 방법은 모든 layer 또는 module에 동일한 bit-width를 적용하는 uniform precision 방식을 사용합니다. 문제는 ViT 내부의 block, module, layer마다 양자화 민감도(sensitivity)가 크게 다르기 때문에, 동일한 bit-width를 일괄 적용하면 중요한 layer에는 bit가 부족하고 덜 중요한 layer에는 bit가 낭비될 수 있다는 점입니다. Mixed Precision Quantization(MPQ)은 민감도가 높은 부분에는 높은 bit-width를, 민감도가 낮은 부분에는 낮은 bit-width를 할당하여 이러한 비효율을 줄이고자 합니다. 기존 연구들은 ViT에 MPQ를 적용할 때 granularity, sensitivity metric, bit assignment 측면에서 한계를 보였습니다. 본 논문은 이 세 가지 요소를 모두 개선하여 ViT의 정확도를 유지하면서도 효율적인 layer-wise MPQ를 가능하게 하는 LampQ를 제안합니다. 정리하면, 본 논문은 기존 ViT MPQ 방법들이 가지는 아래의 세 가지 문제점들을 해결하였습니다.

  • (큰 granularity) 기존 ViT MPQ 방법은 module-wise로 bit-width를 할당하여 MSA나 MLP 내부의 서로 다른 layer들이 동일한 bit-width를 공유합니다. 하지만 qkv와 proj, fc1과 fc2는 서로 다른 민감도를 가지므로, module 단위 할당은 최적이 아닙니다. 어떻게 하면 더 세밀한 layer 단위 제어를 하면서도 실제 low-bit kernel 지원과 추론 효율성을 유지할 수 있을까요?
  • (타입별 metric scale 불일치) 기존 방법은 attention map이나 feature map의 nuclear norm을 민감도 지표로 사용했지만, MSA와 MLP처럼 component type이 다르면 metric 값의 scale이 크게 달라 직접 비교가 어렵습니다. 서로 다른 layer type을 공정하게 비교할 수 있는 민감도 metric은 무엇일까요?
  • (양자화를 고려하지 않는 bit assignment) 기존 bit allocation은 full-precision 모델에서 한 번 계산한 metric에 기반하여 bit-width를 정합니다. 그러나 일부 layer가 먼저 양자화되면 이후 layer의 민감도 패턴도 달라질 수 있습니다. 어떻게 하면 양자화 이후의 reconstruction error를 반영하면서도 bit allocation 비용을 낮출 수 있을까요?

Proposed Method

그림 1. LampQ의 전체 구조

LampQ(Layer-wise Mixed Precision Quantization for Vision Transformers)는 ViT를 위한 metric-based 혼합 양자화 PTQ 방법입니다. LampQ는 ViT의 각 block을 qkv, proj, fc1, fc2라는 네 가지 type으로 분해하고, layer 단위로 서로 다른 bit-width를 할당합니다. 이후 Fisher information matrix의 trace를 기반으로 각 layer의 민감도를 측정하되, layer type별 scaling을 적용하여 서로 다른 type 간 metric scale을 맞춥니다. 마지막으로 Integer Linear Programming(ILP)을 통해 초기 bit-width를 할당하고, 양자화 모델의 layer-wise reconstruction error를 이용해 bit-width를 반복적으로 업데이트합니다.
  • (레이어 단위 MPQ) ViT block을 qkv, proj, fc1, fc2 layer로 나누고 각 layer에 개별 bit-width를 부여하여, module-wise MPQ보다 세밀하게 양자화 민감도를 반영합니다.
  • (타입 인식 Fisher metric) Hessian trace 기반 중요도 아이디어를 Fisher information matrix trace로 근사하고, qkv, proj, fc1, fc2 type별 scaling factor를 적용하여 서로 다른 layer type을 동일한 기준으로 비교합니다.
  • (ILP 및 반복적 비트 업데이트) 초기 bit allocation은 average bit-width 제약을 만족하는 ILP 문제로 풀고, 이후 quantization으로 인해 변화한 민감도를 layer-wise reconstruction error 기반으로 반영하여 bit allocation을 반복적으로 수정합니다.

그림 1은 LampQ의 전체 과정을 요약합니다. 먼저 pre-trained full-precision ViT를 입력받아 N개의 block을 4N개의 layer로 구조화합니다. 이후 각 layer의 Fisher-based sensitivity를 계산하고 type-aware scaling으로 보정합니다. 보정된 sensitivity metric을 기반으로 ILP를 풀어 초기 bit-width를 결정한 뒤, 실제 양자화된 모델에서 발생하는 reconstruction error를 추적하며 bit-width를 반복적으로 조정합니다. 이 과정은 average bit-width budget을 유지하면서 중요한 layer에 bit를 더 배정하고, 덜 중요한 layer에서 bit를 회수하는 방식으로 동작합니다.

이어지는 절에서는 LampQ의 핵심 아이디어들에 대해 더 자세히 설명하도록 하겠습니다.

Layer-wise Mixed Precision Quantization

기존 module-wise MPQ는 MSA 전체 또는 MLP 전체에 동일한 bit-width를 적용하기 때문에, 같은 module 내부의 qkv와 proj, fc1과 fc2가 서로 다른 민감도를 가진다는 사실을 반영하지 못합니다. LampQ는 이를 해결하기 위해 ViT block을 네 개의 핵심 linear layer, 즉 qkv, proj, fc1, fc2로 추상화하고 각 layer를 bit allocation의 최소 단위로 사용합니다. per-channel이나 per-weight처럼 더 작은 단위의 MPQ는 이론적으로 더 세밀할 수 있지만, 하나의 weight 또는 activation matrix 내부에서 bit-width가 달라지면 연산 중 full precision 변환이 빈번해져 runtime overhead가 커질 수 있습니다. 반면 layer-wise granularity는 low-bit kernel이 지원 가능한 단위이면서도 module-wise보다 훨씬 세밀한 제어가 가능하므로, 성능과 효율성 사이의 균형을 맞출 수 있습니다.

Type-aware Fisher-based Metric

LampQ의 핵심은 “어떤 layer가 양자화에 더 민감한가”를 정확하게 측정하는 것입니다. 기존 VT-PTQ는 attention map과 feature map의 nuclear norm을 사용해 민감도를 추정했지만, 이 지표는 성능 저하와 직접적으로 연결되는 이론적 근거가 약하고, MSA와 MLP 사이에서 metric scale이 10배에서 40배까지 차이 나는 문제가 있습니다. LampQ는 이를 해결하기 위해 Hessian trace가 layer importance를 나타낼 수 있다는 관찰을 기반으로 하되, 계산 비용이 큰 Hessian 대신 Fisher information matrix의 trace를 사용합니다.

또한 ViT는 qkv, proj, fc1, fc2처럼 서로 다른 layer type을 가지므로, 단순히 Fisher trace만 비교하면 type 간 scale mismatch가 발생할 수 있습니다. LampQ는 각 type에 대해 scaling factor를 계산하고, 이를 Fisher trace에 곱해 type-scaled sensitivity metric을 만듭니다. 이 scaling factor는 모든 layer를 조사하지 않고, 각 type에서 일부 layer를 sampling하여 해당 type의 평균 accuracy drop과 평균 Fisher trace의 비율로 근사합니다. 이를 통해 서로 다른 component type의 layer들도 “예상 정확도 하락”이라는 동일한 기준에서 비교할 수 있습니다.

Iterative Bit Update

초기 bit allocation만으로는 충분하지 않습니다. 어떤 layer가 먼저 낮은 bit-width로 양자화되면, 이후 layer의 입력 activation 분포와 reconstruction error가 달라져 full-precision 모델에서 측정한 민감도와 다른 패턴이 나타날 수 있습니다. LampQ는 이러한 quantization feedback을 반영하기 위해 두 단계의 bit assignment를 사용합니다. 먼저 type-aware Fisher-based sensitivity에 bit-width가 낮아질수록 커지는 penalty를 결합하여 ILP 문제를 구성하고, average bit-width 제약을 만족하는 초기 bit allocation을 구합니다. 이 방식은 기존 Pareto frontier 기반 탐색보다 bit allocation 과정을 250배 이상 빠르게 수행할 수 있다고 보고됩니다.

이후 LampQ는 layer-wise reconstruction error를 기반으로 bit allocation을 반복적으로 업데이트합니다. 매 iteration마다 한 layer에는 bit-width를 1 증가시키고, 다른 layer에는 bit-width를 1 감소시켜 전체 average bit-width를 유지합니다. bit를 올렸을 때 error가 얼마나 줄어드는지를 gain으로, bit를 내렸을 때 error가 얼마나 증가하는지를 degradation으로 정의하고, 이 정보를 이용해 어떤 layer에 bit를 더 주고 어떤 layer에서 bit를 줄일지 결정합니다. 또한 모든 bit-width 조합의 reconstruction error를 직접 다시 계산하면 비용이 크기 때문에, LampQ는 weight와 activation 분포에 대한 통계적 추정을 활용하여 gain과 degradation을 효율적으로 근사합니다.

Experiments

본 논문에서는 LampQ의 성능을 검증하기 위해 image classification, object detection, zero-shot quantization의 세 가지 환경에서 실험을 진행하였습니다. Image classification과 zero-shot quantization에서는 ImageNet 데이터셋을 사용하고 ViT, DeiT, Swin 모델을 평가했으며, object detection에서는 MS-COCO 데이터셋에서 Swin 기반 Mask R-CNN 및 Cascade Mask R-CNN을 평가했습니다. 이 문서에서는 image classification 결과만 다룹니다.

표 1. ImageNet에 대한 Quantization 성능 비교

실험 결과, LampQ는 다양한 architecture와 bit-width에서 기존 방법보다 높은 성능을 보였습니다. ImageNet image classification에서는 4MP/4MP와 3MP/3MP 설정 모두에서 ViT-S, ViT-B, DeiT-T, DeiT-S, DeiT-B, Swin-S, Swin-B 전반에 대해 가장 높은 평균 정확도를 기록했습니다. 특히 3MP/3MP 설정에서는 LampQ가 평균 51.81%를 달성하여 VT-PTQ의 45.94%보다 5.87%p 높은 결과를 보였고, 논문은 bit-width가 낮아질수록 LampQ의 효과가 더 두드러진다고 분석합니다.

Conclusion

본 문서에서는 AAAI 2026에 발표된 Vision Transformer용 mixed precision quantization 방법인 LampQ에 대해서 소개하였습니다. LampQ는 기존 ViT 양자화 방법들이 놓치고 있던 layer별 민감도 차이를 반영하기 위해 layer-wise MPQ를 도입하고, 서로 다른 layer type 간 metric scale 문제를 해결하기 위해 type-aware Fisher-based metric을 제안했습니다. 또한 ILP 기반 초기 bit allocation과 reconstruction error 기반 iterative bit update를 결합하여, 양자화 이후 변화하는 민감도까지 반영하는 실용적인 bit assignment 전략을 제시했습니다.

LampQ의 핵심 의의는 단순히 bit-width를 섞어 쓰는 데 그치지 않고, “어떤 layer에 더 많은 bit를 주어야 하는가”를 ViT 구조와 양자화 과정의 특성에 맞게 정교하게 정의했다는 점입니다. 그 결과 image classification, object detection, zero-shot quantization에서 기존 방법보다 높은 성능을 보였으며, 특히 저비트 환경에서 정확도 저하를 효과적으로 완화했습니다. 이 기술은 ViT 기반 모델을 온디바이스 AI, 엣지 컴퓨팅, 실시간 비전 시스템과 같이 메모리와 연산 자원이 제한된 환경에 배포할 때 중요한 기반 기술로 활용될 수 있습니다. 논문의 자세한 내용은 링크에서 확인할 수 있습니다.