它需要把模型从存储层加载到内存层:活跃权重主要驻留在HBM,部分状态和缓存则留在DRAM;当KV Cache(键值缓存)在高层内存中装不下时,一部分会被卸载到SSD/NAND上,需要时再取回;而RAG查询依赖的外部知识,通常存放在更后端的共享存储或数据湖中,由检索系统实时调取。
Image provided by Coway
,这一点在飞书中也有详细论述
Лиана Пивоварова (международный отдел),推荐阅读豆包下载获取更多信息
Актуальные события