芯片资讯
- 发布日期:2024-11-26 06:49 点击次数:149
面积42225 平方毫米, 具有1.2 万亿个晶体管,400000 个中心,片上内存18 Gigabytes,内存带宽19 PByte/s,fabric带宽100 Pbit/s。 这就是有史以来最大的芯片——Cerebras Wafer Scale Engine!
这颗巨型芯片由Cerebras Systems公司推出,芯片发布后,三位中国芯片范畴专家在朋友圈立刻做出评价:
芯片专家唐杉:“膜拜一下Cerebras的巨型芯片,每边大约9英寸,22cm。我记得我之前写文章还画过一个相似的比照图。[机智]Wired的文章,看来Cerebras要走到前台了。”
深鉴科技结合开创人姚颂:“Cerebras的Wafer-scale chip的确壮观,有一种共同的美感,就仿佛看到大炮巨舰的那种绚丽之情。希望Andrew Feldman一切顺利。”
猎户星空首席战略官王兵:“一万两千亿晶体管的宏大芯片,300mm wafer能做出的最大芯片,应战芯片行业极限之作。假如能胜利必然会推翻整个AI芯片行业。不过即使是用了多种错误冗余技术,量产良品率还将会是个宏大的应战。”
Cerebras Wafer Scale Engine具有1.2万亿个晶体管。1971年英特尔首款4004处置器的晶体管数量为2,300个,最近的AMD处置器具有320亿个晶体管。
大多数芯片实践上是在12英寸硅晶片上创立的芯片汇合,并在芯片工厂中批量消费。但Cerebras Systems芯片是在单个晶圆上互连的单芯片。这些互连设计使这些芯片全部坚持高速运转状态,万亿个晶体管能够全部一同工作。
经过这种方式,Cerebras Wafer Scale Engine成为有史以来最大的处置器,它特地设计用于处置AI应用问题。该公司在本周在斯坦福大学举行的Hot Chips会议上讨论这款“世界最大”的芯片的设计。
此前,三星实践上已制造出了一个闪存芯片eUFS,具有2万亿个晶体管。但Cerebras芯片专为流程加工而设计,具有400,000个中心,芯片面积42,225平方毫米。它比最大的Nvidia GPU大56.7倍,后者尺寸为815平方毫米,含211亿个晶体管。
史上最大芯片跟棒球的比照
WSE还包含3,000倍的高速片上存储器,并且具有10,000倍的存储器带宽。
该芯片来自Andrew Feldman指导的团队,后者曾创立微型效劳器公司SeaMicro,并以3.34亿美圆的价钱卖给了AMD。Cerebras Systems的结合开创人兼首席硬件架构师Sean Lie将将在Hot Chips大会上展现Cerebras Wafer Scale Engine。这家位于加州Los Altos的公司具有194名员工。
Cerebras CEO Fieldman与 SeaMicro box最初版本合影
芯片尺寸在AI任务中十分重要,由于大尺寸芯片能够更快地处置信息,在更短的时间内给出答案。这可以减少“锻炼时间”,使研讨人员可以测试更多想法,运用更多数据并处理新问题。谷歌、Facebook、OpenAI、腾讯、百度和许多企业都以为,今天限制AI开展的根本限制是锻炼模型需求的时间太长。因而,缩短锻炼时间有望消弭整个行业获得进步的主要瓶颈。
当然,芯片制造商通常不会制造这么大的芯片。在单个晶片的制造过程中通常会呈现一些杂质。假如一种杂质会招致一块芯片发作毛病,那么晶圆上的多种杂质就会招致多块芯片出问题。实践制造出的芯片产量仅占实践工作芯片的一小局部。假如晶圆上只要一个芯片,它有杂质的几率是100%,杂质会使芯片失效。但Cerebras设计的芯片留有冗余,一种杂质不会招致整个芯片都不能用。
单晶圆提供超级计算机级的计算才能
“Cerebras WSE”专为人工智能设计而设计,其中包含了不少根底创新,处理了限制芯片尺寸的长达数十年的技术应战 - 如良品率,功率传送、封装等,推进了最先进技术的开展。和包装,每个架构决策都是为了优化AI工作的性能。结果是,Cerebras WSE依据工作量提供了数百或数千倍的现有处理计划的性能,只需很小的功耗和空间。”Cerebras Systems首席执行官的Fieldman说。
经过加速神经网络锻炼的一切元从来完成这些性能提升。神经网络是一种多级计算反应回路。输入在循环中挪动速度越快,循环学习的速度越快,即锻炼时间越短。能够经过加速循环内的计算和通讯来加速输入的循环速度。
Cerebras WSE芯片面积比目前最大的GPU大56.7倍, 电子元器件采购网 并提供更多中心停止计算,有更多中心靠近内存,因而内核能够高效运转。由于这些大量的内核和内存位于单个芯片上,因而一切通讯都在芯片上停止,通讯带宽高、延迟低,因而中心组能够以最高效率停止协作。
Cerebras WSE中的46,225平方毫米的芯片面积上包含40万个AI优化中心,无缓存、无开支的计算内核,以及和18千兆字节的本地化散布式超高速SRAM内存。内存带宽为每秒9 PB。这些中心经过细粒度、全硬件、片上网状衔接通讯网络衔接在一同,可提供每秒100 petabits的总带宽。更多中心、更多本地内存和低延迟高带宽构造,共同构成了面向AI加速任务的最佳架构。
“固然AI在普通意义上被运用,但没有两个数据集或两个AI任务是相同的。新的AI工作负载不时涌现,数据集也在不时变大,”Tirias Research首席剖析师兼开创人Jim McGregor在一份声明中表示。
“随着AI的开展,芯片战争台处理计划也在不时开展。Cerebras WSE是半导体战争台设计方面的一项惊人的工程成就,它在单个晶圆级的处理计划中提供了超级计算机级的计算才能、高性能内存和带宽。”
Cerebras 表示,假如没有多年来与台积电(TSMC)的亲密协作,他们不可能获得这个创纪录的成就。台积电是全球最大的半导体代工厂,在先进工艺技术方面处于抢先位置。WSE芯片由台积电采用先进的16nm制程技术制造。
400000个AI优化的内核
WSE包含40万个AI优化的计算内核(compute cores)。这种计算内核被称为稠密线性代数核(Sparse Linear Algebra Cores, SLAC),具有灵敏性、可编程性,并针对支持一切神经网络计算的稠密线性代数停止了优化。SLAC的可编程性保证了内核可以在不时变化的机器学习范畴运转一切的神经网络算法。
由于稠密线性代数内核是为神经网络计算停止优化的,因而它们可完成业界最佳应用率——通常是GPU的3倍或4倍。此外,WSE中心还包括Cerebras创造的稠密捕获技术,以加速在稠密工作负载(包含0的工作负载)上的计算性能,比方深度学习。
零在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是0。但是,乘以0是糜费硅,功率和时间的行为,由于没有新的信息。
由于GPU和TPU是密集的执行引擎——引擎的设计永远不会遇到0——所以它们即便在0时也会乘以每一个元素。当50-98%的数据为零时,如深度学习中经常呈现的状况一样,大多数乘法都被糜费了。由于Cerebras的稠密线性代数中心永远不会乘以零,一切的零数据都被过滤掉,能够在硬件中跳过,从而能够在其位置上完成有用的工作。
比GPU大3000倍的片上内存
内存是每一种计算机体系构造的关键组成局部。靠近计算的内存意味着更快的计算、更低的延迟和更好的数据挪动效率。高性能的深度学习需求大量的计算和频繁的数据访问。这就请求计算中心和内存之间要十分接近,而在GPU中却不是这样,GPU中绝大多数内存都很慢,而且离计算中心很远。
Cerebras Wafer Scale Engine包含了比迄今为止任何芯片都要多的内核和本地内存,并且在一个时钟周期内具有18 GB的片上内存。WSE上的中心本地内存的汇合提供了每秒9 PB的内存带宽——比最好的GPU大3000倍的片上内存和10000倍的内存带宽。
低延迟、高带宽的共同通讯构造
Swarm通讯构造是WSE上运用的处置器间通讯构造,它以传统通讯技术功耗的一小局部完成了带宽的打破和低延迟。Swarm提供了一个低延迟、高带宽的2D网格,它将WSE上的一切400,000个核衔接起来,每秒的带宽合计达100 petabits。
路由、牢靠的音讯传送和同步都在硬件中处置。音讯会自动激活每个抵达音讯的应用程序处置程序。Swarm为每个神经网络提供了一个共同的、优化的通讯途径。软件依据正在运转的特定用户定义的神经网络的构造,配置经过400,000个中心的最优通讯途径,以衔接处置器。
典型的音讯遍历一个具有纳秒延迟的硬件链接。一个Cerebras WSE的总带宽是每秒100 PB。不需求TCP/IP和MPI等通讯软件,因而能够防止性能损失。这种构造的通讯能量本钱远低于远低于每比特 1 焦耳,比GPU低了近两个数量级。分离了宏大的带宽和极低的延迟,Swarm通讯构造使 Cerebras WSE比任何当前可用的处理计划学习得更快。亿配芯城(WWW.YiBEiiC.COM)隶属于深圳市新嘉盛工贸有限公司,成立于2013年并上线服务,商城平台主要特点“线上快捷交易配单+线下实体供应交货”两全其美的垂直发展理念,是国内电子元器件专业的电子商务平台+实体店企业。未来发展及模式主要以(一站式配单,平台寄售/处理闲置库存达到资源共享双赢,电子工程师交流社区,硬件开发与支持等互动服务平台)在这个高效而发展迅猛的科技互联网时代为大家提供精准的大数据资源平台。
- ic交易网:白光芯片是什么又有何优势2024-11-14
- 详解人工智能芯片 CPU/GPU/FPGA有何差异?2024-10-26
- dsp芯片和通用微处理器有什么不同2024-10-25
- 苹果电脑用自家芯片难度高、放风声为逼Intel降价?2024-10-02
- 联发科获大量智能语音设备芯片订单 今年出货量将增长50%2024-10-01
- 进口原装TI CC系列射频芯片 C8051系列芯片2024-09-29