肖彬：大模型推理框架升级之路

发布日期：2024-12-22 07:29 点击次数：133

今天分享的是：肖彬：大模型推理框架升级之路

报告共计：26页

本次分享主要介绍了百川智能在大模型推理框架性能优化方面的工作，从量化、投机采样、TTFT与TPOT优化、通信优化四个专项展开：

1. 量化：通过多种量化方式降低显存占用和访存量，如Weight-int8 + KV_cache-int8、Activation int8、Weight-int4 + kv_cache-int4等，还在开发Attention QKV int8，各版本在降低成本、减少耗时上有不同程度效果。

2. 投机采样：利用decode过程算力冗余，通过特定模型结构设计（如Clover模型）和Sample策略，提升命中率和端到端推理速度，Clover2模型进一步优化结构，在多个数据集上表现优于同类模型。

3. TTFT与TPOT优化：为平衡首token耗时与decode每个token间耗时，采用Chunk prefillchunk prefill技术及Split fused技术提升计算利用率，PD分离是终极方案但仍在开发测试，同时介绍了Cache策略及其收益。

展开剩余80%

4. 通信优化：针对4090卡通信能力弱、通信耗时高的问题，通过计算通信overlap方法，根据不同GPU计算通信占比情况进行针对性优化，如4090卡通信占大头时进行8bit通信量化，A800卡计算占大头时采用gemm切块策略，在不同卡数和模型下取得了一定的prefill阶段耗时减少收益。

以下为报告节选内容

发布于：广东省