IBM的电阻计算技术可以大大加速人工智能的发展

2021-09-14 09:01:24

近年来,随着机器学习的快速发展,神经网络——计算机软件的复兴通过使用分布在许多虚拟节点或“神经元”中的复杂模式匹配过程来解决像人脑这样的问题。现代计算能力使神经网络能够识别图像、声音和人脸,并驾驶自动驾驶汽车,并在围棋和危险游戏中获胜。大多数计算机科学家认为这只是最后可能的开始。不幸的是,我们用来训练和运行神经网络的硬件看起来不像它们的架构。这意味着训练一个神经网络来解决一个问题可能需要几天甚至几周的时间——即使是在计算集群中——然后一旦他们被训练,就需要很大的力量来解决这个问题。

IBM的研究人员希望通过完善另一种技术来改变这一切,就像几十年前首次出现的神经网络一样。松散地称为电阻计算,它的概念是一个具有模拟性质的计算单元,本质上非常小,可以保留它们的历史,以便在训练过程中学习。用硬件加速神经网络对IBM来说并不新鲜。它最近宣布将其部分真北芯片出售给劳伦斯国家实验室进行人工智能研究。振北的设计是神经形状的,这意味着芯片大致近似于大脑中神经元和突触的结构。虽然它的慢时钟频率为1千赫,但真北可以非常有效地运行神经网络,因为它有一百万个微小的处理单元,每个处理单元都模仿一个神经元。

然而,到目前为止,像真北这样的神经网络加速器仅限于部署神经网络来解决问题。训练——让系统在测试数据集上给自己打分,然后调整参数(称为权重)直到成功的艰苦过程——仍然需要在传统的计算机上进行。从CPU转移到GPU和定制硅可以提高性能并降低功耗,但这一过程仍然昂贵且耗时。这是IBM研究人员Tayfun Gokmen和YuriVlasov的新工作。他们提出了一种新的芯片结构,利用电阻计算创建数百万个电阻处理单元(R PUs),可以用来训练和运行神经网络。

电阻计算是一个很大的课题,但大致来说,在IBM的设计中,每个小的处理单元(R PU)都模仿大脑中的突触。它接收电压形式的各种模拟输入,并根据过去的“经验”使用它们的加权函数来决定将什么结果传递给下一组计算元件。突触在大脑中有一个令人困惑且不完全理解的布局,但芯片和电阻元件通常会使它们整齐地组织成二维阵列。例如,IBM最近的工作展示了如何通过4,096个数组来组织4,096个数组的可能性。

因为电阻计算单元是专用的(与中央处理器或图形处理器内核相比),不需要将模拟信息转换为数字信息或访问除自身之外的存储器,所以它们可以很快,并且消耗很少的功率。因此,从理论上讲,一个复杂的神经网络——就像用于识别自动驾驶车辆中的路标的神经网络一样——可以通过将阻力计算元素专用于软件描述的每个节点来直接建模。然而,因为rpu是不精确的——由于它们的模拟特性和电路中一定量的噪声——任何运行在它们上面的算法都需要抵抗不精确的固有电阻计算元素。

传统的神经网络算法——无论是在执行还是训练中——都假设有一个高精度的数字处理单元,它可以轻松调用任何所需的内存值。重写它们,让每个本地节点都可以在很大程度上执行自己,这并不准确,但结果仍然足够准确,这需要大量的软件创新。

为了使这些新的软件算法大规模工作,有必要在硬件方面取得进展。现有技术不足以创建突触,突触可以紧密结合并在低功耗的嘈杂环境中运行,从而使电阻治疗成为现有方法的实用替代方案。运行时执行首先发生,在混合电阻计算机上训练神经网络的逻辑直到2014年才开发出来。当时,匹兹堡大学和清华大学的研究人员声称,这样的解决方案可能会以精度仅为5%左右为代价,将能效提高三到四个级别。

IBM研究人员声称,基于RPU的设计将大大提高神经网络应用的效率,正如他们的论文所示。

IBM的这项新工作进一步推广了电阻计算的使用。假设一个系统几乎所有的计算都是在RPU上完成的,传统的电路只需要用来支持功能和输入输出。这一创新依赖于结合一个版本的神经网络训练算法,该算法可以在基于RPU的架构上运行,并为能够运行它的RPU提供硬件规格。

到目前为止,阻力计算主要是一种理论结构。第一款RRAM于2012年成为原型,预计未来几年内不会成为主流产品。这些芯片虽然有助于扩展存储系统,并展示了在计算中使用电阻技术的可行性,但并没有解决类似突触处理的问题。

所提出的RPU设计有望适应各种深度神经网络(DNN)架构,包括完全连接和卷积,这使得它们在几乎整个神经网络应用领域都具有潜在的实用价值。使用现有的互补金属氧化物半导体技术,并假设RPU在4,096和4,096个元素的瓦片之间,周期时间为80纳秒,一个瓦片将能够使用少量的功率每秒执行大约510亿次。一个有100个瓦片和一个互补的中央处理器内核的芯片可以处理一个重量高达160亿的网络,而功耗只有22瓦(只有两瓦)。

个实际上来自RPU-其余的来自CPU核心,需要帮助获取数据进出芯片和提供整体控制)。

这是一个惊人的数字,相比之下,什么是可能的数据通过相对较少的核心在一个GPU(想想大约1600万计算元素,而不是几千)。研究人员使用密集填充这些RPU瓷砖的芯片,声称一旦建成,基于电阻计算的AI系统可以实现高达30,000倍的性能改进,与目前的体系结构相比,所有这些系统的功率效率都是每秒84,000GigaOps。如果这成为现实,我们可以在实现艾萨克·阿西莫夫对机器人Positronic大脑的幻想的道路上。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。