
•生成式AI模型植入到端侧设备中运行一个很重要指标是平均数据速率,这需要消耗大量内存计算,对于终端设备的DRAM等内存硬件设备要求较高。例如,70亿参数规模的LLaMA模型,其FP16版本大小为14GB,而移动设备仅有不到10GB内存,因此通过训练时间优化(如稀疏化、量化或权重聚类)来压缩相关模型才能使其运行在移动设备中,而衡量其性能指标的平均数据速率提升,涉及到DRAM到SRAM等一系列读取的过程。
•Snorkel与斯坦福大学曾提出FlashAttention,通过优化DRAM等内存使用策略,相较于传统的Pytorch而言,模型效果有明显提升。
YoY 各产品的份额占比
2023 PC 3.7% 12.4%
Server 17.2% 37.0%
Mobile 6.2% 36.9%
Graphics 7.7% 5.2%
Consumer 16.1% 8.5%
2022 PC 19.1% 13.2%
Server 22.7% 34.9%
Mobile 15.3% 38.5%
Graphics 18.7% 5.3%
Consumer 18.6% 8.1%
图表:手机与PC合计占DRAM终端产品份额近一半图表:通过对DRAM/HBM等内存使用策略改进能很好提升模型性能