测评,究竟谁才是机能和性价比之王?
家喻户晓,在处置深度进修和神经收集义务时,最好应用GPU而不是CPU来处置,由于在神经收集上级,即使是一个比拟低端的GPU,机能也会赛过CPU深度进修是一个对盘算具有宏大批须要的范畴,从一定程度上来讲,GPU的抉择将从根本上决议深度进修的体会。
但成绩来了,怎样选购适合的GPU也是件头疼烧脑的事怎样防止踩雷,怎样做出性价比高的抉择?已经拿到过斯坦福、UCL、CMU、NYU、UW 博士 offer、今朝在华盛顿宏大学读博的著名评测博主Tim Dettmers就对于深度进修范畴须要怎样的GPU,联合本身教训撰写了万字长文,最初给出了DL范畴的推举GPU。
Tim Dettmers这人的研讨标的目的是表征进修、硬件优化的深度进修,他本人创立的网站在深度进修和盘算机硬件范畴也是小有名气。
Tim Dettmers此文推举的GPU全体来自N厂,他明显也以为,搞机械进修,AMD今朝还不配领有姓名。原文链接小编也贴在底下啦。
earning_Performance_per_Dollar
RTX40和30系的优缺点与英伟达图灵构筑RTX 20序列比拟,新的英伟达安培构筑RTX 30序列消亡更多上风,如稀少收集练习和推理其余功效,如新的数据范例,应更多地被看作是一种易用化功效,由于它们供给了与图灵构筑雷同的机能进步,但不须要任何额外的编程请求。
Ada RTX 40序列以至有更多的进步,比方上级详细介绍的张量内存加速器(TMA)和8位浮点运算(FP8)与RTX 30比拟,RTX 40序列也有类似的电源和温度成绩RTX 40的电源衔接器电缆熔化的成绩可能经由过程准确衔接电源电缆而轻松防止。
稀少的收集练习安培容许在麋集的速率下停止细粒度构造的主动稀少矩阵乘法。此是怎样做到的?以一个权重矩阵为例,把它切成4个元素的碎片。当初想象此4个元素中的2个元素为零。图1显现了此种情形的模样。
图1:Ampere构筑GPU中的稀少矩阵乘法功效所支撑的构造当你将此个稀少权重矩阵与一些麋集输出相乘时,安培的稀少矩阵张量中心功效会主动将稀少矩阵紧缩为麋集表示,其巨细为图2所示的一半在紧缩以后,麋集紧缩的矩阵瓦片被送入张量中心,张量中心盘算的矩阵乘法是凡是巨细的两倍。
此有用地发生了2倍的速率,由于在同享内存的矩阵乘法过程当中,带宽请求减半
图2:在停止矩阵乘法之前,稀少矩阵被紧缩为麋集表示我在研讨中致力于稀少收集练习,我还写了一篇对于稀少练习的博文对我的事情的一个批驳是:"你减少了收集所需的FLOPS,但并不发生速率的进步,由于GPU不可停止疾速的稀少矩阵乘法"。
跟着Tensor Cores的稀少矩阵乘法功效的增添,我的算法或其余稀少练习算法,当初实际上在练习时期供给了高达2倍的速率。
开发的稀少练习算法有三个阶段:(1)断定每层的主要性(2) 删除最不主要的权重(3) 进步与每层的主要性成比例的新权重固然此一功效仍处于试验阶段,而且练习稀少收集还不广泛,但在你的GPU上领有此一功效意味着你已经为稀少练习的将来做好了筹备。
低精度盘算在我的事情中,我之前已经表白,新的数据范例可能进步低精度反向传布时期的稳定性。
图4:低精度深度进修8位数据范例深度进修练习得益于高度专业化的数据范例今朝,假如你想用16位浮点数(FP16)停止稳定的反向传布,最宏大的成绩是一般FP16数据范例只支撑[-65,504, 65,504]范畴内的数字。
假如你的梯度滑过此个范畴,你的梯度就会爆炸成NaN值为了防止在FP16练习出现此种情形,咱们凡是会停止丧失缩放,即在反向传布之前将丧失乘以一个小数字,以防止此种梯度爆炸Brain Float 16格局(BF16)对指数应用了更多的比特,此样可能的数字范畴与FP32雷同,BF16的精度较低,也就是有用数字,但梯度精度对进修来讲其实不那末主要。
因此BF16所做的是,你不再须要做任何丧失缩放,也不须要担忧梯度会敏捷爆炸因而,咱们应该看到,经由过程应用BF16格局,练习的稳定性有所进步,由于精度略有丧失此对你意味着甚么应用BF16精度,练习可能比应用FP16精度更稳定,同期供给雷同的速率进步。
应用TF32精度,你可能获得濒临FP32的稳定性,同期供给濒临FP16的速率进步好的是,要应用此些数据范例,你只需用TF32代替FP32,用BF16代替FP16--不须要修正代码不外总的来讲,此些新的数据范例可能被看作是怠惰的数据范例,由于你可能经由过程一些额外的编程尽力(适当的丧失缩放、初始化、标准化、应用Apex)来获得旧数据范例的一切利益。
因而,此些数据范例并不供给速率,而是改良了练习中低精度的应用方便性电扇设想和GPU温度固然RTX 30序列的新电扇设想在冷然而GPU上级表示十分好,但非开创版GPU的差别电扇设想可能会呈现更多成绩假如你的GPU发烧超越80C,它就会自我撙节,减慢其盘算速率/电功率。
处理此个成绩的办法是应用PCIe扩宏大器,在GPU之间发明空间用PCIe扩宏大器疏散GPU对散热十分有用,华盛顿宏大学的其余博士生和我都应用此种设置,并获得了巨宏大的胜利它看起来其实不美丽,但它能使你的GPU坚持凉快!。
底下此套体系已经运转了4年,完整不成绩。假如你不敷够的空间在PCIe插槽中安装一切的GPU,也可够此么用。
图5: 带PCIE扩宏大口的4显卡体系,看起来一团乱,但散热效力很高文雅地处理功耗限度成绩在你的GPU上设置一个电功率限度是可能的因而,你将可能以编程方法将RTX 3090的电功率限度设置为300W,而不是其标准的350W。
在4个GPU体系中,此相当于节俭了200W,此可能恰好充足用1600W PSU建立一个4x RTX 3090体系的可行性此还有助于坚持GPU的冷却因而,设置电功率限度可能同期处理4x RTX 3080或4x RTX 3090设置的两个主要成绩,冷却和电源。
对4倍的设置,你仍然须要高效散热电扇的 GPU,但此处理了电源的成绩
图6:下降电功率限度有轻微的冷却后果将RTX 2080 Ti的电功率限度下降50-60W,温度略有降落,电扇运转愈加宁静你可能会问,「此不会下降GPU的速率吗?」 是的,确切会降,但成绩是降了几我对图5所示的4x RTX 2080 Ti体系在差别电功率限度下停止了基准测试。
我对推理过程当中BERT Large的500个小批次的时间停止了基准测试(不包括softmax层)抉择BERT Large推理,对GPU的压力最宏大
图7:在RTX 2080 Ti上,在给定的电功率限度下测得的速率降落咱们可能看到,设置电功率限度其实不严重影响机能将电功率限度在50W,机能仅降落7%RTX 4090讨论起火成绩有一种曲解,以为RTX 4090电源线起火是由于被弯折适度了。
实际上只要0.1%的用户是此个起因,主要成绩是电缆不准确拔出因而,假如你遵照以下安装说明,应用RTX 4090是完整安全的1. 假如你应用旧的电缆或旧的GPU,确保触点不碎片/尘埃2.应用电源衔接器,并将其拔出插座,直到你听到咔嚓一声--此是最主要的局部。
3. 经由过程从左到右扭动电源线来测试能否适合电缆不应该挪动4.目视检讨与插座的打仗情形,电缆和插座之间无间隙H100和RTX40中的8位浮点支撑对8位浮点(FP8)的支撑是RTX 40序列和H100 GPU的一个巨宏大上风。
有了8位输出,它容许你以两倍的速率加载矩阵乘法的数据,你可能在缓存中存储两倍的矩阵元素,而在Ada和Hopper构筑中,缓存是十分宏大的,当初有了FP8张量中心,你可能为RTX 4090获得0.66 PFLOPS的盘算量。
此比2007年世界上最快的超等盘算机的全体算力还要高。4倍于FP8盘算的RTX 4090,可与2010年世界上最快的超等盘算机相媲美。
可能看到,最好的8位基线未能供给良好的零点机能我开发的方法LLM.int8()可能停止Int8矩阵乘法,成果与16位基线雷同然而Int8已经被RTX 30 / A100 / Ampere此一代GPU所支撑,为何FP8在RTX 40中又是一个宏大进级呢?FP8数据范例比Int8数据范例要稳定很多,而且很容易在层标准或非线性函数中应用,此在整型数据范例中是很难做到的。
此将使它在练习和推理中的应用变得十分简单明了我以为此将使FP8的练习和推理在几个月后变得绝对广泛底下你可能看到此篇论文中对于Float vs Integer数据范例的一个相干主要成果咱们可能看到,一一比特,FP4数据范例比Int4数据范例保存了更多的信息,然而进步了4个义务的均匀LLM零点准确性。
GPU深度进修机能排行先上一张图来看GPU的原始机能排行,看看谁最能打。
咱们可能看到H100 GPU的8位机能与对于16位机能优化的旧卡消亡巨宏大差异上图显现的是GPU的原始绝对机能,比方对8位推理,RTX 4090的机能宏大约是 H100 SMX 的 0.33 倍换句话说,与RTX 4090比拟,H100 SMX的8位推理速率快三倍。
对此数据,他不为旧GPU建模8位盘算由于8位推理和练习在Ada/Hopper GPU上更有用,而张量内存加速器 (TMA) 节俭了宏大批寄存器,此些寄存器在 8 位矩阵乘法中十分准确Ada/Hopper 也有 FP8 支撑,此使得特别是 8 位练习愈加有用,在Hopper/Ada上,8位练习机能很可能是16位练习机能的3-4倍。
对旧GPU,旧GPU的Int8推理机能则濒临16位推理机能每美圆能买到几算力那末成绩来了,GPU机能强可是我买不起啊......对于预算不充分的小搭档,接下来的图表是他依据各个GPU的价格和机能统计的每美圆机能排名(Performance per Dollar),正面反映了GPU性价比。
抉择一个实现深度进修义务而且合乎预算的GPU,可分为以下几个步调:起初断定你须要多宏大的显存(最少12GB用于图象天生,最少24GB用于处置Transformer);对于选8位仍是16位(8-bit or 16-bit),倡议是能上16位就上,8位在处置庞杂编码义务时仍是会有困难;
依据上图中的目标,找到消亡至高绝对机能/本钱的GPU咱们可能看到,RTX4070Ti 对8位和16位推理的本钱效益至高,而RTX3080对16位练习的本钱效益至高固然此些GPU最具本钱效益,但他们的内存也是个短板,10GB和12GB的内存可能无法满足一切须要。
但对刚入坑深度进修的老手来讲可能是幻想GPU其中一些GPU十分适合Kaggle比赛,在Kaggle比赛中获得好成绩,事情方法比模子巨细更主要,因而很多较小的 GPU十分适合Kaggle号称是全球最宏大的数据科学家会聚的平台,高手云集,同期对萌新也很友爱。
假如用作学术研讨和服务器经营的最好GPU似乎是 A6000 Ada GPU同期H100 SXM的性价比也很高,内存宏大机能强小我私家教训来讲,假如我要为公司/学术试验室构建一个小型集群,我推举66-80%的A6000 GPU 和20-33%的 H100 SXM GPU。
综合推举说了此么多,终究到了GPU安利环节Tim Dettmers特地制作了一个「GPU选购流程图」,预算充分就可能上更高配套,预算不敷请参考性价比之选此里起初重申一点:无论你选哪款 GPU,起初要确保它的内存能满足你的须要。
为此,你要问本人几个成绩:我要拿GPU做甚么?是拿来加入 Kaggle 比赛、学深度进修、做CV/NLP研讨仍是玩小项目?
预算充分的情形下,可能查看上级的基准测试并抉择适合本人的最好GPU还可能经由过程在vast.ai或Lambda Cloud中运转您的成绩一段时间来预算所需的GPU内存,以便懂得它能否能满足你的须要假如只是偶然须要一个GPU(每隔几天连续几个小时)而且不须要下载和处置宏巨大数据集,那末vast.ai或 Lambda Cloud也可很好地事情。
然而,假如一个月天天都应用GPU且应用频次很高(天天12小时),云GPU凡是不是一个好的抉择。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 298050909@qq.com 举报,一经查实,本站将立刻删除。如若转载,请注明出处:https://www.kufox.com/smtj/2023-03-29/4155.html