模拟内存诡计,还好吗?
(原标题:模拟内存诡计,还好吗?)
若是您但愿不错时时碰面,接待标星保藏哦~
开始:内容来自semiengineering,谢谢。
内存诡计 (In-memory computing,IMC) 的发展之路陡立,最引东谈主细心的生意化尝试以失败告终。尽管一些公司也曾转向数字化,而另一些公司则皆备毁灭了这项时刻,但开发东谈主员仍在奋力让模拟 IMC 取得获胜。
对于 IMC(也称为内存诡计,或 CIM)的平正存在不合。有东谈主说,这一切都是为了减少数据迁移,而数据迁移是 AI 能耗的重要构成部分。“把 MAC(乘法/累加电路)放下来很容易,” Synopsys ARC AI 处理器产物司理 Gordon Cooper 说。“为它们提供数据并确保数据高效地流过它们要困难得多。”
其他公司则专注于诡计才气,每家公司都信赖我方开发的产物不错贬责这两个问题中最重要的一个,以致两个问题。然则,既能减少数据迁移,又能履行低功耗 AI 诡计,同期兼顾老本和可制造性的优化电路仍然难以收场。
Rambus的了得发明家 Steven Woo 暗意:“数据迁移是枢纽问题,无论是对于性能照旧功耗而言都是如斯。世界上并不短缺数据,尤其是对于这些大型 AI 模子而言,磨练集相配强大。”
现在尚不明晰哪种方法才是贬责这一问题的最好阶梯,但 IMC 是一种可能的选拔。对于那些不知谈正在进行的隐私创业责任的东谈主来说,这个话题似乎也曾奉赵到谈论实验室,那处正在进行遍及责任。“我以为咱们还莫得皆备走出谈论阶段,” Cadence产物营销集团总监 Frank Ferro 说。
事实上,IMC 以致不在大多数瞎想师的体恤范围内。“咱们在客户的网站上莫得看到它,” Quadric伙同创举东谈主兼首席时刻官 Nigel Drego 说。
然则,新的产物和方法正在尝试篡改这一近况。
不啻一种含义
“内存诡计”一词过甚变体对不同的公司有不同的含义。当其想法是将数据迁移保合手在最低限制时,它与“内存”或“近内存”诡计的观念密切关系。在这些情况下,它波及诡计发生位置近邻的小块 SRAM。使用这种内存仍然需要数据迁移,但与保存到 DRAM 比较,距离较短。
“内存中”的观念将这一观念进一步发展,并绝对颠覆了这一观念。先前的方法是将内存放在诡计近邻。IMC 则更多地是将诡计放在内存所在的所在。不同 IMC 之间的一个主要区别是,诡计是在内存阵列里面但在内存单位以外进行,照旧这些单位我方履行诡计。
另一个区别是诡计的性质——数字或模拟。数字 IMC 通常是那种在通盘阵列中散布着几个数字门的类型。“你将存储单位与履行乘法的诡计元件和履行累加的诡计元件交错在沿路,并在通盘这些周围摒弃遍及其他数字逻辑来履行通盘其他操作,”Axelera 首席履行官 Fabrizio del Maffeo 暗意。
数字 IMC 背后的理念并不复杂——它仅仅将数字算术电路从一个所在迁移到另一个所在。但这并不料味着它很容易。构建高效的电路和器具仍需要遍及责任。仅仅它不像模拟那样弥留。
模拟诡计普通通过将存储单位视为具有可变内容来履行,这些内容不错通过感测流过存储单位的电流来测量。字线继承实值。在最有名的收场类型中,字线和位线交叉处的每个单位本体上将输入电压乘以单位电导率,该电导率由存储的单位值诞生。通过允很多个字线同期处于举止情状,每个相乘电流的总数将成为乘积的肃除总数。位线上的通盘单位都不错并行履行乘法。
Sagence 战术与业务开发副总裁 Richard Terrill 暗意:“(闪存 IMC 贬责决策)基于将数亿个闪存单位摒弃在一个芯片上,以便咱们能够在现场完成通盘责任。”
图 1:经典的基于闪存的 IMC 架构。数字输入转换为字线上的模拟电压。与内存不同,多个字线不错同期处于举止情状。位线上的通盘单位提供输入电压乘以闪存单位电导率的乘积,该乘积由存储的权重笃定。位线上的每个单位凭证单位电流孝顺电流,感测放大器将通盘这些电流相加以提供积蓄。然后必须将肃除数字化并通过其他电路(举例激活函数)发送,然后将其路由回另一层或行为完整遣发放送出去。开始:Bryon Moyer/Semiconductor Engineering
该时刻的一个限定是它需要整数数据。这对于视觉来说很天然,但基于可贵力的聚积(举例大型言语模子 (LLM))更时时使用浮点数据,这使得此类应用方法超出了该架构的范围。
咱们要贬责什么问题?
IMC 所要贬责的问题尚未明确界说或达成一致。天然通盘东谈主都应允镌汰功耗是最终想法,但存在争议的是主要问题是迁移数据的老本照旧诡计的老本。
数字方法通常侧重于迁移数据的老本,因为无论数字电路是在内存阵列里面照旧外部,诡计才气都大体换取。这试图贬责内存带宽问题。Cadence 的 Ferro 暗意:“咱们每天都被超大界限诡计需要更多带宽的问题搞得头疼。”
Expedera首席科学家兼伙同创举东谈主 Sharad Chole对此暗意应允。“瓶颈不再是诡计或内存,而是诡计和内存之间的带宽,”他说。
使用数字 IMC,诡计口头不会发生紧要变化。“你领有的基本时刻仍然与数字加快器换取,”Encharge AI 首席履行官 Naveen Verma 暗意。“通过在内存中插入 加法器,你本体上所作念的即是扩大内存,何况所耗尽的能量与你在内存外部履行时所耗尽的能量换取。与标准数字诡计比较,其平正是渐进的。”
也可能莫得一个正确的谜底。相背,它可能取决于正在履行的模子的性质,尤其是 LLM。Expedera 的 Chole 解释说:“若是你的高下文长度很小,比如 256 个 token,那么权重就占主导地位。但是若是你生成了 32,000 个 token,那么激活就运转成为重要的部分。若是你的激举止作东导了力量,那么将权重存储在模拟域中的平正将无法对消这少量。”
争论的另一个方面是,将所需的通盘权重全部填充到内存中是否可行,这样就无需进一步迁移。基于闪存的方法宣称具有非易失性的上风,因此权重即使在电源轮回后仍会保留在原位。但这意味着拓荒必须妥贴最大的模子。另一方面,容量向上必要会猝然硅,尽管该分析假定瞎想中唯唯一个模子。“咱们本体上最终存储了多个模子,”Sagence 的 Terrill 说。
其他东谈主则认为,将通盘模子都存储起来是不切本体以致不可取的,而是选拔在处理流程中更新权重的方法。“IMC 谈论也曾普通标明,权重不行永远存储在内存中,”Verma 指出。“原因是不同位的数据波及的操作数目相配不同,若是每个位都分拨一个内存单位,那么一些内存单位将履行遍及操作,而另一些则大部分期间处于欢然情状,从而导致硬件欺诈率低。”
若是这种不雅点是正确的,那么 IMC 就无法像东谈主们但愿的那样贬责分量迁移问题。它还使非易失性存储器变得不切本体,因为编程期间比重写 SRAM 所需的期间大要长三个数目级。但 SRAM 是一个大而耗电的单位,这进一步加重了衡量的复杂性。
直到推出这些芯片的各家公司有契机在现场解释我方之前,这场争论都不会肃除。现在,还莫得一个明确的正确谜底。
模拟的挑战
模拟 IMC 并非极新事物。Mythic 曾试图将基于闪存的模拟 IMC 推理引擎推向商场,但最终失败,因此受到密切体恤。由于使用闪存进行权重存储,它承诺镌汰诡计才气并减少数据迁移。现在尚不明晰 Mythic 技俩失败的具体原因,但该时刻带来了一些紧要挑战。而模拟需要辗转的衡量。“模拟是功率、速率照旧准确性,”Drego 说。“二选一。”
在经典收场中,每个闪存单位都保存通盘权重。INT8 是视觉和卷积神经聚积 (CNN) 中较为流行的数据神志之一,但在单个闪存单位中保存 8 位值是一项辗转的任务。而且有用精度仍然会受到影响。“我还莫得传闻过有任何东西能向上 4 位有用精度,”Drego 补充谈。“但在一些小众应用中,这些东西不错相配相配高效。”
图 2:减弱多位单位的读取窗口。单位包含的位越多,永诀越精粹,读取机制必须越贤惠。开始:Bryon Moyer/Semiconductor Engineering
商用闪存单位存储三位数据也曾存在多年。四位单位现已成为践诺,五位单位正在兴起。但莫得东谈主领有八位单位。这需要极其抑制,尤其是若是要跨多个单位、芯片、晶圆和批次以及通盘环境条款和老化后责任。践诺情况是,东谈主们可能不得不接受较低的精度,从而限定该时刻的实用性。
老化问题是潜在客户一直体恤的问题。Expedera 营销副总裁 Paul Karazuba 暗意:“当我向潜在客户接洽模拟产物时,老化是他们不笃定若何处理的问题之一,这通常会吓跑他们。”
令东谈主担忧的是,跟着细胞老化,它们的运作口头将发生变化,从而导致潜在的幻觉,咱们大致不错称之为“硅老化”。事实上,这种老化的芯片不太可能产生幻觉,即给出可能合理但诞妄的谜底。东谈主们更有可能得到妄语连篇,但这仍然是不可接受的。
除了老化以外,还必须以某种口头摒除制造和环境变化,以便通盘芯片都能正常责任。事实解释,这极具挑战性,而且这个问题可能是影响曩昔奋力的枢纽问题。即使莫得变化,模拟从界说上来说也没罕有字那样的噪声裕度。“模拟的问题一直是噪声,”Verma 说谈。
另一个挑战是模拟诡计仅仅加快器操作的一部分。其他函数,如softmax或非线性激活函数,必须在数字域中发生。这意味着在每一层以模拟口头诡计其矩阵乘积后,必须将肃除转换为数字以生成激活,然后必须将其转换回模拟以供下一层使用。Quadric 首席营销官 Steve Roddy 指出:“最终,激活往复流动,最终会变得一团糟。”
在通盘这些转换流程中保合手精度需要精准的 DAC 和 ADC,而这些电路会耗尽遍及能量,从而对消该架构的主要上风之一。
终末一个挑战可能是老本,尽管这还有待不雅察,配资门户何况取决于所实施的内存时刻。“若是你正在构建一个带有闪存或 DDR 变体的独处芯片,你的老本将媲好意思光、海力士和三星高得多,而这些公司的产量高达数以亿计,”Drego 说。
尽管存在这些问题,一家名为 Sagence(隐身模拟推理)的新创业公司照旧推出了一款新的模拟 IMC 产物——从外不雅上看,它与 Mythic 的作念法惊东谈主地相似。另一家尚未肃肃推出的新公司是 EnCharge AI,它领有独到的传感时刻。
再说一次,若是你仔细不雅察 Sagence 的时刻,你会说它与 Mythic 所作念的雷同。闪存阵列?对。校准以处理变化?对。多位闪存单位?对。在感测放大器中进行乞降?对。现在尚不明晰 Mythic 继承了哪种闪存单位,但 Sagence 暗意它使用的是已得回 NOR 设置许可的标准闪存单位。通盘使闪存阵列稳妥推理的电路都位于阵列外部,因此单位面积着力为4F2。
与之前收场的主要区别在于,该公司在深亚阈值情状下运行闪存阵列。这不错节俭几个数目级的功率,电流以纳安的几分之一来测量。但这也带来了一个挑战,因为数学不再是线性的,因此图 1 所示的欧姆定律方法不再适用。
Sagence 通过对数存储权重来贬责这个问题。这意味着闪存单位中的不同级别并不是均匀散播的。数据值越高,它们就越接近。底部部分可能比线性版块更容易检测,但顶部部分将更难区分。更困难的是,在深亚阈值下操作时,合座读取窗口更小。
图 3:线性和对数“间距”之间的相反。左侧,线性方法创建格外的间距。右侧,跟着值变高,间距变窄。(对数永诀不准确。)开始:Bryon Moyer/半导体工程
Sagence 也认为数字和模拟之间的转换必须精准,而且这些转换需要耗能。“若是咱们莫得阿谁 ADC,咱们每次操作的电流耗尽将比非 IMC 收场低三到四个数目级,”Sagence 创举东谈主、总裁兼首席履行官 Vishal Sarin 暗意。“但由于咱们使用精密 ADC,因此亏本了一个数目级。”
然则,有些应用方法不错以较低的精度责任。“每个单位存储的位数 取决于聚积的要求,”Terrill 解释谈。“咱们不错将存储位数晋升到 8。普通更少,因为咱们笃定了所需的精度,然后以该量化口头存储。”
另一个令东谈主骇怪的方面是,乘法略有立时性。Sagence 暗意,它尽其所能摒除系统过错,但即使它齐备地作念到了这少量,小的立时过错仍会存在。立时性本体上使值之间的界限变得朦拢,而在尖端,部分相配狭隘,一些可能会有用崩溃。
Sagence 暗意,这种方法之是以有用,是因为本体版块将罕有百以致数千个单位沿着每条位线。探讨到这些大数字,这样多单位上正负几个百分点的过错将平均达到实足的精度。“若是你思要准确地纪录某东谈主的银行账户,你就不会作念这种乘法和加法,”Sarin 说。“但对于深度学习来说,这是一个齐备的选拔。”
不外,对于任何 AI 贬责决策来说,器具都是必不可少的,这样用户就不会被复杂性所困扰。Sagence 的编译器在瞎想时就探讨到了对数性质,静态地为单位分拨权重。
“对于硬件资源识别,一切都是在编译时完成的,这意味着您毋庸进行任何运行时转换,”Sagence 产物营销高等总监 Suhas Nayak 解释谈。“模拟量化器进行硬件感知磨练、噪声感知磨练,并在运行时需要时生成信息以供进一步校准。”这种静态转换的平正是延伸固定且可估量。
该公司有多种方法来处理变化、漂移和老化问题。校准处理制造变化,但 Sagence 还监控单位,若是漂移太大,不错选拔再行加载权重。“有一种计量电路不错不雅察闪存单位随期间的变化,若是它们达到咱们无法通过底层电路缓解的进度,咱们不错凭证需要再行加载它们,”Terrill 指出。
凭证架构,这似乎是一个仅使用整数的贬责决策,这会将其撤销在基于可贵力的聚积以外,但该公司还有其他盘算。“咱们盘算使用专有方法在咱们的 Gen AI 贬责决策中收场可贵力,”Sarin 说。“这是咱们贬责决策的重要构成部分。”
一些探索
EnCharge 在三个主要界限继承了皆备不同的方法——存储单位的类型、每个单位存储的位数以及感测肃除的口头。后者是一项紧要冲破,因为通盘之前的电流感测决策都因制造和环境条款而有很大相反。在从普林斯顿大学分离出来之前,该公司发现电容器不错存储电荷行为感测机制,而不受任何依赖。
“这种电容器最重要的少量是它不受温度影响,”Verma 解释谈。“它不受材料参数影响。它是皆备线性的。它只取决于导线之间的空间。它不错膨胀到源头进的节点,因为它们不错让你更好地独揽几何风物。”
该公司已笃定,累加需要比乘法更高的精度,而这恰是电容器所提供的。该阵列由 SRAM 单位构成,每个单位存储一位权重。由于 EnCharge 尚未肃肃推出当时刻,因此仍有很多细节未表现。要点是 SRAM 单位提供乘法,每个肃除独揽一个将电荷置于电容器上的开关。
电容器物理上位于 SRAM 单位上方,位于两层金属之间,因此易于构建且不占用特等空间。单个 MAC 的电容器承接在统一块板上。然后,相背的电容器板会平均通盘这些电荷,从而有用地提供加法。它是一个模拟值,因此需要 ADC 转换为数字风物。无需 DAC。
EnCharge 的阵列需要再行加载数据,因为内存是易失性的,而且阵列不够大,无法容纳通盘模子。“为了最大限制地镌汰支拨,咱们使用了雷同于造谣内存的造谣化架构,”Verma 说。
尽管这种传感方法似乎很新颖,但该公司暗意,它已在 ADC 等高精度电路中得到考据。Verma 指出:“它的可靠性、可膨胀性、准确性和可制造性已通过这些其他超高精度模拟电路得到考据。”
DRAM 或将加入游戏
在终末一个新思法中,初创公司 Neo Semiconductor 冷漠了使用其 3D DRAM 的 IMC 决策。“咱们不错在 3D DRAM 阵列中履行遍及诡计,而无需将其发送到 SRAM,”Neo 首席履行官兼伙同创举东谈主 Andy Hsu 暗意。
Neo 的主要开发重心是使用浮体电荷存储而不是电容器的堆叠 3D DRAM。与 EnCharge 不异,每个 DRAM 单位都包含一个权重位。这标明乘法时刻与 EnCharge 雷同,但 Neo 尚未暴露其若何处理多位乘法。
然则,传感口头有所不同。垂直位线承载着经过测量和数字化的模拟电流。它还有一个 ADC,但莫得 DAC。该方法只需使用相宜数目的 DRAM 位(普通对于 INT8 为 8 位)即可径直用于整数数据。该公司暗意,浮点单位对于基于可贵力的聚积是必不可少的,但尚未暴露其责任旨趣。
Neo 的想法是将 HBM 分为两个阶段。最初,它不错用 3D DRAM 版块替换 HBM 堆栈中的内存芯片,这不错将容量晋升两个数目级。第二阶段将 HBM 基片上的感测放大器电路替换为神经电路。“对于 AI,底部芯片将被替换为 不错 履行激活功能的芯片,”Hsu 说。
这种时刻的一个可能问题是热量。在 DRAM 中,典型的位线将反应单个单位的值。使用 AI,您不错测量多个单位的电流。HBM 也曾靠近热挑战。若是不采纳进一步的缓解法度,进一步增多电流量似乎是值得怀疑的。
Neo 暗意,由于其 DRAM 时刻名满寰宇,其读取电流约为标准 DRAM 典型值的 10%,因此其肇始电流较小。它一次处理 8 位,因此电流应低于标准 DRAM 电流。8 位并未几,但该公司将合座数据分红 8 位组并按规则处理。这种方法可能会影响延伸,但现在尚无具体数字。
这个提议需要更多的考据才能成为践诺。Neo 现在的主要重心是其 3D DRAM。东谈主工智能游戏是该公司的另一个思法,本年刚刚表现。但现在它仍处于观念阶段。
模拟 IMC 又活了一天
东谈主们也曾进击期待了多年,很多东谈主赫然认为它还未准备好管待黄金时段。这是一个老到的大学谈论课题,很多不知谈行将推出的东谈主也曾笃信,要让它进展作用,需要进行一些紧要篡改。
Sagence 的时刻试图撤职也曾走过的谈路,同期幸免先前的陷坑。EnCharge AI 专注于用于感测积蓄的电容器。Neo 的 DRAM 思法太新,无法笃定它是否能取得生意获胜。来岁应该有契机望望前两者是否能取得进展。若是莫得,就回到谈论实验室。
然则,若是其中一种或两种方法都能收效,那么将为推理确立一个新的低功耗标准。西门子 EDA 高等概述部门技俩总监 Russ Klein 暗意:“无需迁移所罕有据和IMC承诺的并行性所带来的节能后果将不仅对东谈主工智能产生巨大影响,而且对任安在大型数据阵列上进行的诡计也会产生巨大影响。”
咱们还将提供硬数据来自满对于数据迁移才气与诡计才气的哪种表面是正确的。
https://semiengineering.com/is-in-memory-compute-still-alive/
半导体极品公众号保举
专注半导体界限更多原创内容
体恤巨匠半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或扶植,若是有任何异议,接待关系半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3976期内容,接待体恤。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”共享给小伙伴哦