YYMuse

量化（Quantization）

直觉： 用更少的比特数来存储和计算浮点权重，类似将高清图压缩为 JPEG。

常见精度：

格式	位数	每参数显存	精度损失
FP32	32位	4 bytes	无损
BF16	16位	2 bytes	极小
INT8	8位	1 byte	小
INT4	4位	0.5 bytes	中

70B 模型显存需求： - FP16：~140 GB - INT8：~70 GB - INT4（Q4）：~35 GB（可在 2×A100 上运行）

主流工具： GGUF/llama.cpp（CPU 推理）、bitsandbytes（QLoRA）、AWQ、GPTQ

提示： Q4_K_M 是本地运行的推荐甜点——显存需求低，质量损失可接受。