硅基大脑指日可待!英特尔神经拟态计算再突破:11.5 亿神经元,1280 亿突触,已达人脑 1/80

2024-06-04 10:53IT之家 - 阿迷

从碳基到硅基,人类发明创造出电脑,通过各种芯片和电力帮助管理存储这个世界产生的信息,大大的帮助人类社会提升生产力。

虽然传统电脑这样以时钟频率为基础的模拟计算过程已经得到了全球广泛的推广,但这并没有阻碍人类进一步探索的脚步,量子计算、神经拟态计算等新的计算体系也在广泛的进行探索。

其中,神经拟态计算更接近人脑工作过程,它能很好的模拟人脑计算的过程。在神经拟态计算领域,英特尔已经探索了很多年,2023 年,英特尔推出了 Hala Point 神经拟态计算系统,带来 11.5 亿个神经元和 1280 亿个神经突触,整体的神经元规模已经达到人脑的 1/80。

很多人也许对神经拟态计算这个概念比较陌生,但实际上,英特尔在神经拟态计算领域深耕多年,早在 2017 年,英特尔研究院就基于 14 纳米工艺发布了 Loihi 神经拟态芯片并基于此构建出 Pohoiki Springs 神经拟态计算系统,这一系统由 768 块 Loihi1 芯片构成,在 5U 的单元内实现了接近 1 亿个神经元,人脑的神经元大约为 860 亿个。

作为神经拟态计算领域的专家,英特尔研究院副总裁、英特尔研究院院长宋继强向我们讲述了有关神经拟态计算领域的诸多技术细节,他说到:“Loihi 芯片包含一个最小的计算单元,这个单元是模拟生物大脑神经元,这个单元是模拟生物大脑神经元的结构运作的。因此,它内部确实有承载所谓神经元胞体能力的组织,有计算逻辑也有存储逻辑,也有模拟它的输入输出。关于突触是什么,简单来说,轴突是神经元的输入,树突是神经元的输出。一个神经元胞体的树突可以连接到其他神经元的轴突,从而形成一个网络,使得神经元之间能够互相连接。”

简单来说,神经拟态芯片能够模拟生物大脑神经元和突触,这些神经元和突触的规模越大,也就越接近真实生物大脑的运行逻辑。

Loihi 的每一个最小的计算单元就是由计算逻辑和对应的存储构成的,这些存算一体化的计算单元互相之间连接形成神经元硬件的阵列,并放在一个核心里。这样多个核心构成一整个 Loihi 芯片。

神经拟态计算作为英特尔探索的实验性项目,早期会在 Loihi 芯片上做一些技术验证,由此来确定这样的硬件结构能否正常工作,主要验证是否可以做脉冲神经网络(SNN)的学习、训练和推理。

在验证可行后,英特人最初一代的神经拟态计算系统 Pohoiki Springs 就诞生了,通过整合 768 个 Loihi 芯片,带来接近 1 亿个神经元的神经拟态计算系统。

硬件有了,自然相关生态和研究人员也不能落下。英特尔自 2018 年开始筹建英特尔神经拟态研究社区(INRC),这一社区包括很多相关领域的学校、创业公司、世界 500 强企业等,目前为止已经包括学术界和产业界的 200 多家成员。

宋继强表示,INRC 目前做的工作有很多,有一些是针对性的去测一些具体的算法,有一些是测应用,有一些是跟具体的设备相关的测试。比如和机器人相关的设备。有一半左右的神经拟态计算应用是把它跟机器人、无人机以及一些其他的工业类型的应用整合在一起。

软件开发方面,英特尔在三年前针对 Loihi 2 研发了一个新的软件体系 Lava。这个软件体系也不是封闭的,它上面是对接的开源的编程框架,同时也会兼容,把 Loihi 的硬件跟 CPU、GPU、FPGA 混合在一起去编程解决问题。

针对这几年拟态神经网络的发展,宋继强表示,英特尔从硬件、软件以及生态社区上都做好了准备。

硬件方面,将进一步推动架构的优化,通过更先进的制成获得更大的神经元规模和更好的能效比;软件方面,继续打磨,积极适应当下最新的大模型之类的框架;生态社区方面,则是要通过 INRC 继续推进产业规模化和商业化。

2021 年,英特尔基于 Intel 4 工艺推出了 Loihi 2 神经拟态计算芯片,相比于第一代 Loihi 晶体管密度和能效比都大幅提升,并基于此,打造出居于 1152 个 Loihi 2 芯片的 Hala Point 神经拟态计算系统,这一系统相比于此前的 Pohoiki Springs 尺寸更大一些,从 5U 提升到 6U,但由于制成的大幅提升,在神经元的数量上实现了 11 倍的增长,从 1 亿增加到 11.5 亿,整体尺寸与一个行李箱大小相当,它的神经元规模已经达到人脑的 1/80。也就是说,80 个 Hala Point 组成的神经拟态计算集群,就相当于一个人脑规模的神经元数量,这样的一个规模就具备了类脑的能力。

具体来看,Hala Point 提供每秒 380 万亿次突触操作,每秒 240 万亿次神经元操作以及每秒 16PB 的内存带宽。最大功耗只有 2600W。

Hala Point 很大部分都是 Loihi 神经拟态计算核,还有一小部分 x86 核心,这些 x86 核心用于配置和调度任务,本身并不是最主要的计算单元,毕竟 Hala Point 这类超多核心的使用调度、模型优化、参数配置、消息传递等都需要统一调度。

Hala Point 相比于上一代 Pohoiki Springs 神经拟态计算系统,在规模上变大了很多,同时由于先进工艺的加持,能效比也非常高。这样很好的避免了传统核内外架构在处理大量数据传输时的能量损耗。

与传统基于同步时钟的计算系统相比,拟态神经网络是采用异步电路设计的,传统基于同步时钟的计算系统一旦开启,电路所有相关器件、内存等设备都在耗电。

但是拟态神经网络是基于事件驱动的,只有某一事件走了相关的路径,这一条路径才会产生能耗,而其他未被事件触发的路径则是休眠的。也就是说,即便是一个超大规模的拟态神经集群,实际使用中,也是在局部的某个稀疏区域进行并行化的运算,并且这些突触之间的连接不是硬线连接,而是通过消息式的队列动态连接,这样的好处并不会真的占用总线连接,并且通过高效的消息传输队列,整体系统运行的能耗会相对比较低。

根据目前数据,单个 Hala Point 节点运行传统深度神经网络,INT8 运算能效比达到 15TOPS / W。在特定场景下能够实现传统计算 3000 倍的节能效果。绝大多数场景下,并不是全速满额的工作,因为基于事件驱动的计算系统,有很大的稀疏性,实际执行任务时,只有一小部分在工作。如果将 AI 这类负载交由神经拟态计算处理,这样的能耗是非常低的,目前很多传统的计算系统,如果运行 AI 这类负载,很大部分的能耗都放到了数据搬运上,而神经拟态计算存算一体化的特性,加上事件驱动的计算方式,则能很大程度上降低使用的功耗。有事件发生,这个计算系统就会一步一步往后走,在约定好的步长前提下,信号会从一个神经元传递到下一个神经元,再往后去传递扩散,因此在时钟上神经元与神经元之间并不需要完全同步。

宋继强针对神经网络这一特性总结道:“神经拟态计算一般来讲不追求高频率,因为高频率就意味着高能耗,所以它就是在满足你这个应用需求的情况下,设置到合适的一个频率就可以了,不多浪费能量。通常来讲,它的性能效比是一个能量延迟积去评估的,学术界有一个词叫‘能量延迟积’,它最终测量的是你完成这件事,是不是在需要的延迟内搞定了,又用很低的能量搞定。所以神经拟态计算适合做的事情是对整体的能耗有要求,同时你这个应用又对实时性要求很高,从输入到输出的一个延迟是有限制的。这是它适合做的事情,而不是非常大规模的数据输入。通俗来说,就是同样的能耗,以最小的延迟完成这个任务,或者在同样的延迟下,以最低的能耗把任务完成。”

总结来看,神经拟态计算不光要看性能,更注重能效比,这是传统计算系统无法比拟的。拟态神经计算英特尔目前已经构建了完整的硬件、软件和生态社区,虽然神经拟态计算目前还是一种实验性的计算方法,但未来商业化的道路还很长,未来发展,还有许多挑战和机遇。随着技术的进步和应用场景的拓展,我们可以预见神经拟态计算将在各个领域发挥重要作用。然而,要想实现更真实地模拟大脑,还需要在神经元模型、突触连接和学习算法等方面不断进行研究和改进。只有通过不断的量变,才能最终实现质变,使神经拟态计算系统更加接近真实大脑的工作方式和性能水平。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      一大波评论正在路上
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享