量化
Quantization将模型权重从 FP32/BF16 压缩为 INT8/INT4 等低精度格式,大幅减少显存占用和推理延迟,以少量精度损失换取显著效率提升。
# 推理优化
# 效率
# 本地部署
量化(Quantization)
直觉: 用更少的比特数来存储和计算浮点权重,类似将高清图压缩为 JPEG。
常见精度:
| 格式 | 位数 | 每参数显存 | 精度损失 |
|---|---|---|---|
| FP32 | 32位 | 4 bytes | 无损 |
| BF16 | 16位 | 2 bytes | 极小 |
| INT8 | 8位 | 1 byte | 小 |
| INT4 | 4位 | 0.5 bytes | 中 |
70B 模型显存需求: - FP16:~140 GB - INT8:~70 GB - INT4(Q4):~35 GB(可在 2×A100 上运行)
主流工具: GGUF/llama.cpp(CPU 推理)、bitsandbytes(QLoRA)、AWQ、GPTQ
提示: Q4_K_M 是本地运行的推荐甜点——显存需求低,质量损失可接受。