热搜词: 马頔爷们儿要脸

华为苏黎世团队发布开源SINQ量化技术, 显著降低大模型显存占用

华为位于苏黎世的研究团队近日公布了一种新型开源量化技术,能够在保持大语言模型输出质量的同时显著降低显存占用。该方法命名为SINQ(Sinkhorn-Normalized Quantization),目前已通过GitHub与Hugging Face平台向公众开放,遵循Apache 2.0许可协议,支持个人、企业及科研机构自由使用、修改并用于商业场景。

SINQ的主要特点在于无需依赖校准过程、执行效率高,并可便捷地融入现有的模型部署流程。通过创新的量化机制,该技术能将模型运行所需的显存减少60%至70%,具体压缩效果因模型结构和量化位宽而异。这一优化使得原本需超过60GB显存支持的大型模型,可在约20GB显存的设备上顺利运行。

得益于显存需求的大幅下降,原先只能在高端数据中心级GPU(如A100或H100)上部署的大模型,现可迁移至消费级硬件环境,例如单张RTX 4090显卡即可承载,为更多研究者和开发者提供了低成本实验与应用的可能性。

该方法已在多个主流模型架构上完成验证,涵盖Qwen3系列、LLaMA以及DeepSeek等,在WikiText2和C4等标准评估基准中表现优异,有效降低了困惑度与权重翻转率。同时,SINQ支持非对称量化格式(如NF4),也可与现有校准策略(如AWQ)协同使用,进一步缩小与全精度模型之间的性能差距。

在量化速度方面,SINQ相较HQQ提升约一倍,较AWQ提速超过30倍,展现出极高的处理效率,尤其适用于对时间成本敏感的实际研究和生产场景。