NBA下注首页

NBA下注首页

NBA下注(中国)官网 更好的硬件怎样将零值酿成AI加速引擎:稀罕酌量让AI更轻量、更高效

发布日期:2026-05-09 16:30 来源:未知 作者:admin 浏览次数:

在AI模子领域,范围至关进击。

尽管部分AI众人教学称,握续扩大大讲话模子的范围正在遇到性能收益递减的瓶颈,各大公司仍在不停推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子范围的扩大,其智商也在增强,但随之而来的是更高的能耗需乞降更长的运行时辰,进而加重了碳排放问题。为了缓解这些问题,业界运行转向范围较小、智商相对有限的模子,并尽可能选拔低精度数值来暗示模子参数。

然则,还有另一条旅途,有望在保留超大模子高性能的同期,裁减运行时辰、降痴呆耗。这一范例的中枢,即是充分应用大型AI模子里面广博存在的零值。

关于好多模子而言,大多数参数——包括权重和激活值——实质上齐是零,或者独特接近于零,系数不错在不亏损精度的前提下将其视为零贬责。这种特质被称为稀罕性。稀罕性为从简酌量资源提供了广宽契机:与其花费时辰和能量对零进行加法或乘法运算,不如平直跳过这些酌量;与其在内存中存储广博零值,不如只保存非零参数。

缺憾的是,面前主流硬件(如多核CPU和GPU)并不可自然充分应用稀罕性。要真确阐扬稀罕性的上风,酌量东说念主员和工程师需要重新想考并重构通盘设计架构,涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的酌量团队中,咱们诱惑出了(据咱们所知)首款大概高效贬责各种稀罕和传统使命负载的硬件芯片。在不同使命负载下,能耗从简幅度相反显耀,但平均而言,咱们的芯片能耗仅为CPU的七十分之一,酌量速率平均进步至CPU的八倍。为已毕这一认识,咱们从底层运行,对硬件、固件和软件进行了全面的针对稀罕性的工程设计。咱们但愿这只是硬件与模子协同发展的开首,最终已毕更高能效的AI。

数组与稀罕暗示

神经蚁集超过输入数据以数字数组的体式暗示,这些数组不错是一维(向量)、二维(矩阵)或更高维度(张量)。稀罕向量、矩阵或张量中大多数元素为零。稀罕进度因情况而异,但当零值占比跨越50%时,就不错从挑升针对稀罕性的酌量范例中获益。与之相对的是"密集"对象——即零值数目联系于元素总额较少的情况。

稀罕性不错自然存在,也不错通过东说念主工表情引入。举例,酬酢蚁集图自然即是稀罕的。设计一个图,其中每个节点代表一个东说念主,每条边代表一段友谊关系。由于大多数东说念主互相并不领路,暗示系数可能聚首关系的矩阵中绝大多数元素齐是零。其他AI应用场景,如图学习和推选模子,相通存在自然的稀罕性。

往常情况下,一个4×4的矩阵岂论包含些许个零值,在内存中齐会占用16个存储空间。若矩阵是稀罕的,即广博元素为零,则不错更高效地用"纤维树"结构暗示:最初是包含非零元素方位行坐标的"纤维",聚首至包含非零元素列坐标的纤维,最终绽放到对应的非零值自己。在酌量机内存中存储纤维树时,每条纤维的端点(即"段")会与坐标和数值一同保存。

除自然存在的稀罕性外,还不错通过多种表情在AI模子中主动引入稀罕性。两年前,Cerebras的酌量团队解释,不错将大讲话模子中多达70%至80%的参数建立为零,而不亏损任何精度。Cerebras在Meta开源的Llama 7B模子上考证了这一论断,关系想路相通适用于ChatGPT、Claude等其他大讲话模子。

稀罕酌量的上风

稀罕酌量的高效性源于两个基本特质:压缩零值的智商,以及零的特殊数学性质。稀罕酌量算法和专用硬件齐充分应用了这两个中枢想路。

最初,稀罕数据不错被压缩,从而以"稀罕数据类型"的体式更从简内存地进行存储。压缩还能在贬责广博数据时指责数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例:传统表情会将其完好意思存储,占用16个内存空间;而压缩为稀罕数据类型后,只需保留非零元素,仅占用3个存储空间,相较于原本的16个大幅从简。跟着稀罕进度和矩阵范围的增大,这种从简效果将更加显耀。

除实质数据值外,压缩数据还需要存储元数据,即非零元素的行各位置信息。这往常以"纤维树"的表情抒发:列出包含非零元素的行标签,并与对应的列标签邻接,进而绽放到存储在这些位置的数值。

在内存层面,情况更加复杂:每个非零值的行列标签,以及标识标签数目的"段"信息,齐需要一并存储,以便明晰区别元数据和实质数据。

在密集、未压缩的矩阵数据类型中,不错逐个或并行窥探数值,且其位置可通过浮浅公式平直酌量。但在稀罕压缩数据中,窥探数值需要先查找行索引坐标,再"障碍"查找列索引坐标,最终身手定位到认识值。由于稀罕数据的位置具有就地性,这些障碍查找操作可能极为就地,导致酌量进程依赖于数据自己,并需要动态分派内存窥探。

其次,零的两个数学特质使软件和硬件不错广博跳过酌量:任何数乘以零等于零,因此无需实质实施乘法;任何数加零等于其自己,因此加法也不错平直跳过。

在矩阵-向量乘法这一AI最常见的运算中,除波及两个非零元素的酌量除外,其余酌量均可跳过。往常述4×4矩阵与一个四元素向量的乘法为例:在密集酌量中,需要16次乘法和16次加法;而在稀罕酌量中,只需贬责向量中的非零元素,NBA下注通过障碍查找定位矩阵中对应的非零元素,仅对这部分进行乘加运算——在示例中,只需实施两次乘法,而非16次。

现存硬件的局限

缺憾的是,当代硬件并不擅长加速稀罕酌量。以矩阵-向量乘法为例,在单核CPU中,向量中的每个元素需逐个相乘后写入内存,效用低下。因此,实质使用中时常借助提拔向量运算的CPU或GPU,将系数元素并行贬责,大幅进步速率。但当矩阵和向量齐极为稀罕时,向量化CPU和GPU的大部分算力齐花费在了与零的乘法运算上,产生广博无效酌量。

新一代GPU大概对一种特定类型的稀罕性——结构化稀罕性——进行一定进度的硬件加速。结构化稀罕性假定每四个相邻参数中有两个为零。然则,部分模子更合乎非结构化稀罕性——即允许任性参数(权重或激活值)为零并被压缩,岂论其位置怎样。GPU不错通过软件表情(如cuSparse库)提拔非结构化稀罕酌量,但这种提拔时常十分有限,GPU硬件应用率偏低,广博算力耗尽在特地支拨上。

在通过软件进行稀罕酌量时,当代CPU未必比GPU更具上风,因为CPU具备更好的活泼性。但CPU在稀罕酌量中常受限于障碍查找操作带来的性能瓶颈。CPU往常会把柄预期需求对数据进行"预取",但关于就地稀罕数据,这一机制时常失效,导致CPU不得不花费时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中提拔"指针数组"窥探模式,加速了障碍查找速率。尽管预取期间的改进使苹果CPU在稀罕酌量方面更具竞争力,但CPU架构仍存在专用稀罕酌量架构所不具备的根人性支拨,因为CPU需要兼顾通用酌量需求。

其他公司也在诱惑加速稀罕机器学习的硬件,包括Cerebras的晶圆级引擎(Wafer Scale Engine)和Meta的进修与推理加速器(MTIA)。Cerebras的晶圆级引擎超过配套稀罕编程框架,在大讲话模子上已毕了高达70%的稀罕度,效用超卓。但其硬件和软件决策仅提拔权重稀罕性,不提拔对好多应用至关进击的激活值稀罕性。MTIA第二版声称在稀罕酌量性能上较初版进步七倍,但当今公开表示的稀罕性提拔信息仅限于矩阵乘法,尚未障翳向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要酌量时辰,但为其他运算提供稀罕性提拔相通至关进击。为幸免在稀罕与密集数据类型之间往常切换,系数操作齐应原生提拔稀罕贬责。

Onyx:从底层提拔稀罕酌量的硬件加速器

针对上述各种折中决策的不及,斯坦福大学团队研发了一款硬件加速器——Onyx,大概从底层充分应用稀罕性,岂论是结构化还口角结构化稀罕性均可提拔。Onyx是首款可编程加速器,同期提拔稀罕和密集酌量,大概对两种模式下的裂缝操作进行加速。

CPU、粗粒度可重构阵列(CGRA)和现场可编程门阵列(FPGA)代表了效用与活泼性之间的不同衡量。CPU的每个逻辑单位针对特定功能高效设计;FPGA的每个比特均可树立,极具活泼性但效用较低;CGRA则旨在兼顾FPGA的活泼性与CPU的效用。

CGRA由针对特定应用领域优化的可树立内存和酌量单位组成,裂缝员不错在高端倪上对其里面进行重新树立,使其比FPGA更高效,同期比CPU更活泼。

Onyx基于CGRA架构构建,由活泼可编程的贬责单位(PE)模块和内存(MEM)模块组成。内存模块认真存储压缩矩阵和其他数据阵势,贬责单位模块则平直对压缩矩阵进走时算,摒除系数不消要的无效酌量。

Onyx的编译器认真将软件提醒诊疗为CGRA树立。最初,输入抒发式(如稀罕向量乘法)被转念为抽象内存节点和酌量节点组成的图;编译器将这些抽象节点映射到CGRA的内存模块和贬责单位上,并打算数据传输旅途;最终身成树立CGRA所需的提醒集。

由于Onyx具备可编程性,工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们选拔"能量延伸积"(EDP,即能耗与酌量时辰的乘积)来评估硬件的效用进步,该打算抽象反应了速率与能耗之间的衡量关系。

Onyx的能量延伸积最高可达使用专用稀罕库的CPU(12核Intel至强贬责器)的565倍。此外,Onyx还可树立为加速惯例密集酌量应用,访佛GPU或TPU的使命表情:当酌量为稀罕类型时,Onyx切换至稀罕酌量模式;当酌量为密集类型时,则切换至并行加速模式。这一架构为在团结芯片上同期加速稀罕与密集酌量迈出了进击一步。

相通值得善良的是,Onyx开启了算法层面的新想路。稀罕加速硬件不仅能进步AI的性能效用和动力效用,还将激勉酌量东说念主员和工程师探索具有打破性后劲的新式算法。

畴昔瞻望

咱们的团队已在Onyx基础上入部下手诱惑下一代芯片。除矩阵乘法外,机器学习模子还波及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器超过编译器添加对完好意思酌量类型的提拔。由于稀罕机器学习模子可能同期包含稀罕层和密集层,咱们也在酌量怎样更高效地将密集与稀罕加速架构集成于团结芯片,以已毕不同数据类型之间的快速诊疗。此外,咱们还在探索通过更有用地拆分稀罕数据来打破内存礼貌,从而在多个稀罕加速芯片上协同运行酌量任务。

与此同期,咱们正在研发大概预测稀罕加速器性能的系统,以辅助更优硬件的设计使命。从永久来看,咱们但愿不雅察高度稀罕性是否会在更多模子类型中赢得普及,以及稀罕加速器是否会在更大范围上赢得应用。

为非结构化稀罕性构建硬件、充分应用零值的后劲,只是是个运行。有了这么的硬件,AI酌量东说念主员和工程师将有契机探索以全新、敷裕创意的表情应用稀罕性的模子与算法。咱们笃信,这是顶住AI不停增长的运行时辰、本钱和环境影响的裂缝酌量标的。

Q&A

Q1:什么是稀罕酌量?它对AI有什么道理?

A:稀罕酌量是一种应用AI模子中广博参数为零这一特质来跳过无效运算、压缩存储的酌量表情。由于模子中70%以上的参数可能为零或接近零,稀罕酌量不错平直跳过与零关系的乘法和加法,从而显耀降痴呆耗、加速运算速率,在不燃烧模子精度的前提下进步举座效用。

Q2:现存的GPU和CPU为什么不可很好地提拔稀罕酌量?

A:GPU主要提拔一种叫作念"结构化稀罕性"的特定模式,对更活泼的非结构化稀罕性提拔有限,导致广博算力被花费在无效的零值运算上。CPU自然更活泼,但在稀罕酌量中常受限于就地内存窥探导致的预取失败问题,相通存在效用瓶颈。两者齐浮泛从底层针对稀罕酌量挑升设计的架构提拔。

Q3:Onyx芯片比拟普通CPU能进步些许性能?

A:Onyx在能量延伸积(速率与能耗的综共打算)上,最高可达12核Intel至强CPU的565倍。平均而言,Onyx的能耗仅为CPU的七十分之一NBA下注(中国)官网,酌量速率则平均进步至CPU的八倍。Onyx同期提拔稀罕和密集酌量,大概把柄任务类型自动切换酌量模式,是当今已知首款兼顾两种酌量模式的可编程加速器。

Z6尊龙凯时官方网站