YYMuse

量化

Quantization
大语言模型

将模型权重从 FP32/BF16 压缩为 INT8/INT4 等低精度格式,大幅减少显存占用和推理延迟,以少量精度损失换取显著效率提升。

# 推理优化 # 效率 # 本地部署

量化(Quantization)

直觉: 用更少的比特数来存储和计算浮点权重,类似将高清图压缩为 JPEG。

常见精度:

格式 位数 每参数显存 精度损失
FP32 32位 4 bytes 无损
BF16 16位 2 bytes 极小
INT8 8位 1 byte
INT4 4位 0.5 bytes

70B 模型显存需求: - FP16:~140 GB - INT8:~70 GB - INT4(Q4):~35 GB(可在 2×A100 上运行)

主流工具: GGUF/llama.cpp(CPU 推理)、bitsandbytes(QLoRA)、AWQ、GPTQ

提示: Q4_K_M 是本地运行的推荐甜点——显存需求低,质量损失可接受。

← 返回词汇列表