模型压缩（Model Compression）

模型压缩（Model Compression）是机器学习和深度学习中，通过削减大型模型的规模和计算量，实现轻量化和加速的技术与方法的总称。它尤其适用于在智能手机、边缘设备等资源受限的环境中运行AI，或需要降低推理成本的场景。大型AI模型虽然精度高，但内存占用、推理速度和能耗等方面存在挑战。对此，模型压缩在尽量保持性能的前提下，去除冗余部分，实现高效运行。主要压缩方法如下： • 剪枝（Pruning）：删除重要性低的参数或节点，简化模型结构 • 量化（Quantization）：用低位数（如32位→8位）表示权重和激活值，以减少内存占用 • 知识蒸馏（Knowledge Distillation）：利用大型教师模型的输出，训练小型学生模型 • 权重共享和压缩算法：将相似权重合并存储，以缩小文件体积近年来，OpenAI的GPT系列、Meta的LLaMA、Google的TFLite和ONNX等，也在积极推进针对设备端推理的模型压缩工作。模型压缩是提升AI能效和可及性的关键，是实现"高性能、轻量、高速运行AI"的重要技术。

模型压缩（Model Compression）

相关术语