人工智能或许能解决一些科学和行业最棘手的挑战,但要实现人工智能,需要新一代的计算机系统。IBM在博客中的一篇文章中指出,通过使用基于相变存储器(Phase-Change Memory,简称PCM)的模拟芯片,机器学习可以加速一千倍。
相变存储器基于硫化物玻璃材料,这种材料在施加合适的电流时会将其相从晶态变为非晶态并可恢复。每相具有不同的电阻水平,在相位改变之前是稳定的。两个电阻构成二进制的1或0。
PCM是非易失性的,访问延迟与DRAM水平相当,他们都是存储级内存的代表。英特尔与美光联合开发的3D XPoint技术就基于PCM。
IBM在博客中透露,为了实现AI真正的潜力,在纽约州立大学和创始合作伙伴成员的支持下,IBM正在建立一个研究中心,以开发新一代AI硬件,并期待扩展其纳米技术的联合研究工作。
IBM Research AI硬件中心合作伙伴涵盖半导体全产业链上的公司,包括IBM制造和研究领域的战略合作伙伴三星,互联解决方案公司Mellanox Technologies,提供仿真和原型设计解决方案软件平台提供商Synopsys,半导体设备公司Applied Materials和Tokyo Electron Limited(TEL)。
还与纽约州奥尔巴尼的纽约州立大学理工学院主办方合作,进行扩展的基础设施支持和学术合作,并与邻近的伦斯勒理工学院(RPI)计算创新中心(CCI)合作,开展人工智能和计算方面的学术合作。
新的处理硬件
IBM研究院的半导体和人工智能硬件副总裁Mukesh Khare表示,目前的机器学习限制可以通过使用新的处理硬件来打破,例如:
数字AI核心和近似计算
带模拟内核的内存计算
采用优化材料的模拟核心
图1:IBM Research AI硬件中心制定的一个路线图,在未来十年内将AI计算性能效率提高1000倍,并提供数字AI核心和模拟AI核心管道。
Mukesh Khare提到将深度神经网络(DNN)映射到模拟交叉点阵列(模拟AI核心)。它们在阵列交叉点处具有非易失性存储器材料以存储权重。
DNN计算中的数值被加权以提高训练过程中决策的准确性。
这些可以直接用交叉点PCM阵列实现,无需主机服务器CPU干预,从而提供内存计算,无需数据搬移。与英特尔XPoint SSD或DIMM等数字阵列形成对比,这是一个模拟阵列。
PCM沿着非晶态和晶态之间的8级梯度记录突触权重。每个步骤的电导或电阻可以用电脉冲改变。这8级在DNN计算中提供8位精度。
图2:非易失性存储器的交叉开关阵列可以通过在数据位置处执行计算来加速完全连接的神经网络的训练。
模拟存储器芯片内部的计算
在IBM的研究报告中指出:
“模拟非易失性存储器(NVM)可以有效地加速”反向传播(Backpropagation)“算法,这是许多最新AI技术进步的核心。这些存储器允许使用基础物理学在这些算法中使用的“乘法-累加”运算在模拟域中,在权重数据的位置处并行化。
“与大规模电路相乘并将数字相加在一起不同,我们只需将一个小电流通过电阻器连接到一根导线上,然后将许多这样的导线连接在一起,让电流积聚起来。这让我们可以同时执行许多计算,而不顺序执行。也不是在数字存储芯片和处理芯片之间的传输数字数据,我们可以在模拟存储芯片内执行所有计算 。“
图3:我们的模拟AI内核是性能效率内存计算方法的一部分,通过消除与内存之间的数据传输来突破所谓的冯·诺伊曼结构瓶颈,从而提高了性能。深度神经网络被映射到模拟交叉点阵列,并且切换新的非易失性材料特性以在交叉点中存储网络参数。