AI大算力高能耗挑战能否由存算一体+晶片来迎接?

发布时间：2023-05-24 14:44:20 所属栏目：动态来源：

导读：在最近由 AspenCore 主办的 2023 中国 IC 领袖峰会上，中国半导体行业协会 IC 设计分会理事长魏少军教授在《集成电路发展中的“正”与“奇”》的主题演讲中提到，中国半导体产业的发展要在&ldqu

在最近由 AspenCore 主办的 2023 中国 IC 领袖峰会上，中国半导体行业协会 IC 设计分会理事长魏少军教授在《集成电路发展中的“正”与“奇”》的主题演讲中提到，中国半导体产业的发展要在“守正”的市场发展道路上稳步前行，同时也需要在新的赛道“出奇”。比如在高性能计算领域，在先进工艺、技术和芯片产品受到外界限制的情况下，我们如何利用国产工艺技术实现创新而跟全球高性能计算和 AI 发展保持同步甚至超越? 更具体一点，就目前炒作火热的 AIGC 大模型所需要的大算力 AI 芯片来说，能否利用我们现在可用的工艺和技术来开发在性能上可以跟英伟达 GPGPU 对标的 AI 芯片呢? 一些“守正且出奇”的技术包括: 软件定义芯片、chiplet、3D 堆叠和先进封装、存算一体等。这些技术的目标是提高计算密度，降低功耗，增强性能，同时减少漏洞和安全风险。

自从 OpenAI 的 ChatGPT 于 2022 年 11 月推出以来，AIGC 迅速在全球掀起一股热潮。与 OpenAI 有深度合作的微软在 BING 搜索方面有了明显的收益，谷歌和百度等搜索引擎和互联网巨头纷纷发布各自的大语言模型 (LLM)。在这些热潮的背后是 GPU 芯片的疯狂购买囤货，因为训练 LLM 需要庞大的算力支持。要支撑这类 AI 大模型的训练和基于这些模型的 AIGC 应用，需要投入数十亿美元的资金，同时还需要巨大的电力供应，因为算力强大的 GPGPU 耗电量也十分惊人。

据统计预测，全球算力需求呈现高速发展态势。2021 年，全球计算设备算力总规模达到 615EFLOPS (每秒一百京次 (=10^18) 浮点运算); 到 2025 年，全球算力规模将达 6.8 ZFLOPS (每秒十万京 (=10^21) 次的浮点运算), 与 2020 年相比提升 30 倍；到 2030 年，有望增至 56ZFLOPS。算力翻倍时间在明显缩短，大模型出现后，带来了新的算力增长趋势，平均算力翻倍时间约为 9.9 个月。

对国内 AI 应用企业来说，即便资金不是问题，能否购买到最先进的 GPU 芯片也是个大问题。即便部署了足够的 GPU 和服务器机柜，日常运营的耗电成本也不容小觑。尽管最近两年有不少国产 GPU 初创公司发布性能不错的 GPU 芯片，但到目前为止还难以跟英伟达的 GPU 相提并论。面对算力和能耗这两大挑战，国产 AI 芯片公司能否想出“出奇”之道?

在存算一体这一赛道上，最早是美国的 Mythic 公司在 2010 年左右推出了存算一体芯片，国内在 2017 年左右出现了存算一体技术路径的创业团队，到现在为止已有数家，比如知存科技、千芯科技、苹芯科技、九天睿芯、后摩智能和亿铸科技等。但这些初创公司在存储器的选择上出现了三种主要方向，最早从传统存储器开始，如 Flash,SRAM 再到新型忆阻器 ReRAM。算力也从微小算力 (<1T)、500T 到 1P 的大算力。存算一体最大的优势在于高能效比，但微小算力场景与大算力场景最大的应用区别是对计算精度要求的满足及成本。这也决定着这些存算一体初创公司通向了不同的应用场景，比如九天睿芯的芯片产品主要面向小算力的边缘和端侧应用。而 ChatGPT 等大模型的出现势必对 AI 大算力芯片提出新的要求。

在传统冯诺依曼计算架构中，占据主要地位的 DRAM 和 Flash 等传统存储技术面临技术瓶颈，面对低功耗和高性能的需求，无法实现根本性的改善，而新型存储技术成为业界重点布局与探索的方向。经过 10 多年的努力，MRAM (磁性存储器)、PCRAM (相变存储器)、FRAM (铁电存储器) 和 ReRAM (阻变存储器) 等新型存储技术也逐步走出实验室，进入试用甚至商用阶段。

ReRAM (阻变存储器，或忆阻器) 是以非导性材料的电阻在外加电场作用下，在高阻态和低阻态之间实现可逆转换为基础的非易失性存储器。ReRAM 包括许多不同的技术类别，比如氧空穴存储器 (OxRAM)、导通桥联存储器 (CBRAM) 等。ReRAM 的单元面积极小，可做到 4F², 读写速度是 NAND Flash 的 1000 倍，同时功耗可降低 10 倍以上。

由于电阻切换机制基于金属导丝，Crossbar ReRAM (CBRAM) 单元非常稳定，能够承受从-40°C 到 125°C 的温度波动，写周期为 1M+, 在 85°C 的温度下可保存 10 年。从密度、能效比、成本、工艺制程和良率各方面综合衡量，ReRAM 存储器在目前已有的新型存储器中具备明显优势。

基于导通桥联的 ReRAM 具有高达 1000 倍的低 / 高阻态差异，使其不易受外界运行环境的干扰影响，具有很强的稳定性。同时，以 ReRAM 组成的存算阵列单元因为阻态区分度大，所实现的存内计算可以更好地满足大算力应用场景对算力、精度、能效比和可靠性的严格要求。

基于 ReRAM 工艺的芯片主要用于存储和存算一体两个方面，其中采用”存算一体“结构和技术的 AI 芯片将有可能实现 AI 大算力突破，成为可以应对 AIGC 大算力挑战的 GPGPU 有力竞争者，有望在 AIoT、智能汽车、数据中心和高性能计算等方面获得广泛的应用。存算一体 AI 芯片初创公司亿铸科技基于忆阻器这种新型存储器件，创新性地采用全数字化的实现方式，将存算一体架构应用于 AI 大算力芯片，从而让存算一体真正在高精度、大算力 AI 方向实现商用落地。

由于 AI 模型规模不断扩大，用于深度学习的存内计算 (IMC) 单芯片方案在芯片面积、良率和片上互连成本等方面面临着巨大挑战。存算一体 AI 芯片能否借助芯粒 (chiplet) 和 2.5D / 3D 堆叠封装技术实现异构集成，从而形成大型计算系统，提供超越单一架构 IMC 芯片的大型深度学习模型训练和推理方案?

美国亚利桑那州立大学的学者于 2021 年发布了一种基于 chiplet 的 IMC 架构基准测试仿真器 SIAM, 用于评估这种新型架构在 AI 大模型训练上的潜力。SIAM 集成了器件、电路、架构、片上网络 (NoC)、封装网络 (NoP) 和 DRAM 访问模型，以实现一种端到端的高性能计算系统。SIAM 在支持深度神经网络 (DNN) 方面具有可扩展性，可针对各种网络结构和配置进行定制。其研究团队通过使用 CIFAR-10、CIFAR-100 和 ImageNet 数据集对不同的先进 DNN 进行基准测试来展示 SIAM 的灵活性、可扩展性和仿真速度。据称，相对于英伟达 V100 和 T4 GPU, 通过 SIAM 获得的 chiplet +IMC 架构显示 ResNet-50 在 ImageNet 数据集上的能效分别提高了 130 和 72。

尽管 SIAM 仿真器仅针对同质架构或定制架构，但为异构集成实现的存算一体 + Chiplet 架构提供了很有价值的设计思路。就存算一体、Chiplet 和 2.5D / 3D 先进封装技术的发展而言，国内厂商跟国外同行基本处于同一起跑线上。在兼容 CMOS 的国产 ReRAM 工艺上，通过 Chiplet 和先进封装集成 IMC 单元、GPU 和 CPU 等不同工艺节点的处理单元，来实现大算力 AI 芯片以应对算力和功耗的挑战，看来是可行的。

有业界专家总结出 AI 算力增长的阶段性曲线，自 2018 年至今的 GPGPU 和 AI 芯片算力增长属于第一增长曲线阶段。这一阶段的参与者有英伟达和 AMD 等国际 GPU 巨头，也有众多国内厂商参与其中，包括百度昆仑芯、华为海思、天数智芯、寒武纪和壁仞科技等。这些公司所采用的晶圆工艺从 14nm 到 5nm 不等；算力从 130T 到 485T; 功耗从 70W 到 150W。这一阶段的 AI 芯片的共同点在于都是采用传统的处理器架构，伴随着算力的提升，功耗和成本也随之上升。工艺节点到了 5nm, 一颗芯片的研发成本以亿美元计算，不是每一家公司都能够支撑得起的。即便有这个实力可以继续支撑下去，但算力与功耗的矛盾也是难以解决的，因为处理器架构在本质上决定了其局限性。所以，如果不能解决这个问题，那么就只能选择退出市场了。不过，这并不意味着英特尔就没有机会了，毕竟它还有一个备胎计划。

（编辑：驾考网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!