美国IBM公司研究人员开发了一种以大脑为灵感的计算机芯片,可以更少的功耗提高人工智能(AI)的工作速度。这一名为NorthPole的大型处理器芯片不再需要频繁访问外部存储器,因此在执行诸如图像识别之类的任务时比同类商用芯片快了22倍,同时消耗的电力也大大减少。
“它的能源效率令人震惊。”法国巴黎—萨克雷大学纳米电子学研究员Damien Querlioz说,这项研究表明,计算和内存可以大规模集成。“我觉得这篇论文将动摇计算机体系结构中的普遍思维基础。”
NorthPole运行神经网络是通过编程简单计算单元的多层阵列来识别数据模式。即底层接收数据,例如图像中的像素;随后每个连续层检测日益复杂的模式,并将信息传递 至 下一层;最终顶层 产 生输出。例如,可以表达一幅图像包含一只猫、一辆汽车或其他物体的可能性。
一些计算机芯片可以有效处理这些计算,但每计算一层时仍需要使用被称为RAM的外部存储器。以这种方式在芯片之间传输数据会减慢速度,这种现象被称为冯·诺依曼瓶颈—数学家约翰·冯·诺依曼第一个提出了基于处理单元和独立存储单元的计算机标准架构。
冯·诺依曼瓶颈是影响包括人工智能在内的计算机应用发展的最重要因素之一,也导致能源效率低下。IBM的计算机工程师Dharmendra Modha说,他曾估计,在这种架构上模拟人类大脑,可能需要相当于12个核反应堆的输出。
而NorthPole由256个计算单元或核心组成,每个计算单元都有自己的内存。“我们正在核心内克服冯·诺依曼瓶颈。”Modha说。
Modha说,这些核心以网络连接在一起,而这种网络的灵感来自人类大脑皮层之间的白质连接。这一设计原则和其他设计原则中的大部分以前就存在,但从未结合在一个芯片中,这使NorthPole在图像识别的标准基准测试中以相当大的优势击败了现有的人工智能机器。尽管没有使用最新、最小型化的制造工艺,但它的能耗只有最先进的人工智能芯片的1/5。作者估计,如果NorthPole的设计采用最先进的制造工艺,其效率将是目前设计的25倍。
但是,即便NorthPole有224兆字节的内存,也不足以容纳大型语言模型,比如聊天机器人ChatGPT使用的语言模型—就算在最精简的版本中,它也有数千兆字节的数据。
此外,该芯片只能运行预先编程的神经网络,后者需要在单独的机器上提前“训练”。但作者表示,NorthPole架构可能在速度关键型应用中很有用,比如自动驾驶汽车。
NorthPole使存储单元在物理上尽可能接近核心中的计算单元。在其他地方,研究人员一直在使用新材料和制造工艺进行更激进的创新。这使得存储单元本身能够执行计算,从而在原则上可以进一步提高速度和效率。
(余文文)