IT之家 2 月 12 日消息,SK 海力士在一篇发布于本月 4 日的论文中提出了 H3混合存储架构,其混合配置 HBM 高带宽内存与 HBF 高带宽闪存,充分发挥两种介质各自的优势而避免其短板。
SK 海力士在论文中表示,HBF 与 HBM 相比,带宽相当、容量更大、访问延迟更长、写入耐久更差、功耗更高,因此H3将 HBF 作为 HBM 的“二级扩展”,HBF 存储只读数据、HBM 则负责其余数据。
具体在结构方面,H3上 GPU 与 HBM 的 Base Die 通过中介层互联,HBM Base Die 内置了 HBM 控制器和与 HBF 系统配套的“延迟隐藏缓冲”,HBM Base Die 再通过中介层与 HBF Base Die 连接,后者则包含 HBF 堆栈的控制器。
这一设计使得 H3能存储大量只读数据,适合 LLM 推理工作负载环境,特别是那些采用共享预计算键值缓存的用例。仿真测试结果表明,相较于仅使用 HBM 的传统系统,配备 H3的 GPU 单位功耗的吞吐量提高了 2.69 倍,显示出该架构在处理具有海量只读数据的 LLM 推理方面的成本效益。
参考资料:
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。