研究人员推出 xLSTM 神经网络 AI 架构：并行化处理 Token、有望迎战 Transformer

2024-05-13 08:59 IT之家 - 漾仔

IT之家 5 月 13 日消息，研究人员 Sepp Hochreiter 和 Jürgen Schmidhuber 在 1997 年共同提出了长短期记忆（Long short-term memory，LSTM）神经网络结构，可用来解决循环神经网络（RNN）长期记忆能力不足的问题。

而最近 Sepp Hochreiter 在 arXiv 上发布论文，提出了一种名为 xLSTM（Extended LSTM）的新架构，号称可以解决 LSTM 长期以来“只能按照时序处理信息”的“最大痛点”，从而“迎战”目前广受欢迎的 Transformer 架构。

IT之家从论文中获悉，Sepp Hochreiter 在新的 xLSTM 架构中采用了指数型门控循环网络，同时为神经网络结构引入了“sLSTM”和“mLSTM”两项记忆规则，从而允许相关神经网络结构能够有效地利用 RAM，实现类 Transformer“可同时对所有 Token 进行处理”的并行化操作。

团队使用了 150 亿个 Token 训练基于 xLSTM 及 Transformer 架构的两款模型进行测试，在评估后发现 xLSTM 表现最好，尤其在“语言能力”方面最为突出，据此研究人员认为 xLSTM 未来有望能够与 Transformer 进行“一战”。

参考

xLSTM: Extended Long Short-Term Memory

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。