加入收藏 | 设为首页 | 会员中心 | 我要投稿 广元站长网 (https://www.0839zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

十大AI训练芯片大盘点

发布时间:2021-03-14 13:47:44 所属栏目:外闻 来源:互联网
导读:包含410,592个处理核心 之所以能够有如此亮眼的数据,直接得益于其集成了 84个 高速互连的芯片,单个芯片在FP32上的峰值性能表现为40 Tera FLOPs,芯片功率达15千瓦,与AI集群相当。 片上缓存也达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比
  • 包含410,592个处理核心

之所以能够有如此亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值性能表现为40 Tera FLOPs,芯片功率达15千瓦,与AI集群相当。

片上缓存也达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

晶片规模集成,并不是一个新的想法,但产量、功率传输和热膨胀相关的问题使其很难商业化。在这些方面,Cerebras都给出了相应的解决办法:

  • 为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。
  • Cerebras与台积电合作发明了新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。
  • 在芯片上方安装了一块“冷却板”,使用多个垂直安装的水管直接冷却芯片。

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创立。后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工,其中包括173名工程师,迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

拓展阅读:

史上最大AI芯片诞生:462平方厘米、40万核心、1.2万亿晶体管,创下4项世界纪录

Google TPU(v1、v2、v3)

Google TPU系列芯片正式发布于2016年,第一代芯片TPU v1只用于推理,而且只支持整数运算。

通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数,从而为主机CPU提供加速,节省了大量的设计和验证时间。其主要数据为:

  • 芯片面积331平方毫米,28nm制程
  • 频率为700 MHz,功耗28-40W
  • 片上存储为28 MB SRAM:24MB 用于激活,4MB 用于累加器
  • 芯片面积比例:35%用于内存,24%用于矩阵乘法单元,剩下的41%面积用于逻辑。
  • 256x256x8b收缩矩阵乘法单元(64K MACs/cycle)
  • Int8和 INT16算法(峰值分别为92和23 TOPs/s)

IO数据:

  • 可以通过两个接口访问8 GB DDR3-2133 DRAM,速度为34 GB/s
  • PCIe-3x16 (14 GBps)

2017年5月,Google TPU v2发布,改进了TPU v1的浮点运算能力,并增强了其内存容量、带宽以及HBM 集成内存,不仅能够用于推理,也能够用于训练。其单个芯片的数据如下:

  • 20nm制程,功耗在200-250W(推测)
  • BFloat16上性能表现为45 TFLOPs,也支持 FP32
  • 具有标量和矩阵单元的双核
  • 集成4块芯片后,峰值性能为180 TFLOP

(编辑:广元站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读