Quantization, 적용 후 성능 비교하기 (Pytorch, Cifar10)
·
MLOps
양자화의 목표는 성능을 유지하면서 모델을 가볍고 빠르게 만드는 것입니다. 이걸 왜 안 해?필요한 곳빠른 연산이 필요해: 빠른 응답이 필요한 곳 (latency를 낮춰야 할 때)모델이 가벼워야 해: 모바일 디바이스, 임베디드 시스템, 엣지 컴퓨팅 등 자원이 제한된 상황이번 글에서는 양자화의 개념을 간단히 이해한 후, Cifar 10 데이터셋을 분류하기 위한 모델을 학습한 뒤 양자화하고 성능을 비교해 보겠습니다.아젠다Quantization 개념 이해하기Quantization 기법 알아보기 (PTQ와 QAT)모델 성능 비교하기1. Quantization 개념 이해하기하나의 Dense Layer를 정의하면 레이어 내에 weight와 bias 값들은 어떠한 값을 가지고 있을까요?각각은 torch.float32 타..