十大AI训练芯片大盘点

发布时间：2021-03-14 13:47:44 所属栏目：外闻来源：互联网

导读：包含410,592个处理核心之所以能够有如此亮眼的数据，直接得益于其集成了 84个高速互连的芯片，单个芯片在FP32上的峰值性能表现为40 Tera FLOPs，芯片功率达15千瓦，与AI集群相当。片上缓存也达到了18GB，是GPU缓存的3000倍；可提供每秒9PB的内存带宽，比

之所以能够有如此亮眼的数据，直接得益于其集成了84个高速互连的芯片，单个芯片在FP32上的峰值性能表现为40 Tera FLOPs，芯片功率达15千瓦，与AI集群相当。

片上缓存也达到了18GB，是GPU缓存的3000倍；可提供每秒9PB的内存带宽，比GPU快10,000倍。

晶片规模集成，并不是一个新的想法，但产量、功率传输和热膨胀相关的问题使其很难商业化。在这些方面，Cerebras都给出了相应的解决办法：

为了解决缺陷导致良率不高的问题，Cerebras在设计的芯片时候考虑了1~1.5%的冗余，添加了额外的核心，当某个核心出现问题时将其屏蔽不用，因此有杂质不会导致整个芯片报废。
Cerebras与台积电合作发明了新技术，来处理具有万亿加晶体管芯片的刻蚀和通讯问题。
在芯片上方安装了一块“冷却板”，使用多个垂直安装的水管直接冷却芯片。

Cerebras公司由Sean Lie（首席硬件架构师）、Andrew Feldman（首席执行官）等人于2016年创立。后者曾创建微型服务器公司SeaMicro，并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工，其中包括173名工程师，迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

拓展阅读：

史上最大AI芯片诞生：462平方厘米、40万核心、1.2万亿晶体管，创下4项世界纪录

Google TPU（v1、v2、v3）

Google TPU系列芯片正式发布于2016年，第一代芯片TPU v1只用于推理，而且只支持整数运算。

通过在PCIe-3之间发送指令来执行矩阵乘法和应用激活函数，从而为主机CPU提供加速，节省了大量的设计和验证时间。其主要数据为：

IO数据：

2017年5月，Google TPU v2发布，改进了TPU v1的浮点运算能力，并增强了其内存容量、带宽以及HBM 集成内存，不仅能够用于推理，也能够用于训练。其单个芯片的数据如下：

（编辑：广元站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

单刀赴会英特尔 CEO	沃尔沃打造动力电池研
王毅同中国创建和发展	谷歌高管重归办公室工