神经网络加速器设计研究寒武纪DaDianNao论文阅读

Jacob-liu

2024-04-20 帮助2人

神经网络加速器设计研究：寒武纪DaDianNao

0. 前言

我本人的研究方向为智能芯片，开此系列专题，主要用意为留下学习痕迹，并为同样参与此方向研究的同行者提供参考。由于入行时间较短，还处于学习阶段，文章中不免有错漏，敬请大家批评指正。

设计考虑
- 突破数据带宽瓶颈，减少访存消耗
- 缩减关键路径长度，减少连线占用的片上面积
- 增大功能单元处理能力，进一步增加芯片计算能力
- 异构化功能单元，满足不同网络运行需求
具体设计
- 采用eDRAM用于片上存储，增大片上存储容量
- 区分数据类型，确定权重参数、输入数据和输出数据的流向
- 将片上存储划分为多个bank，增大数据带宽
- 将每个节点划分为多个tile，缩短关键路径长度
- 片上采用树状网络连接，用于传输数据
- 片间（节点间）采用2D网络互连

以上为个人总结的本文中指出的要点，后续阅读研究如有其他体会，也会在上面列出。

1. 摘要

摘要行文从ML应用现状出发，引出实现神经网络加速器的必要性。作者指出，虽然神经网络算法在计算量和存储上需求很高，但是同通用处理器不同，多芯片系统（SoC）可以满足相关需求，这同通用处理器面临的内存墙瓶颈有本质的不同。在硬件可行性、算法本身特性基础上，可以完成高速神经网络加速器设计。本文中进行的相关研究，也是在上述两点基础上，进行的加速器架构设计，其最后的实验效果远远高于同期GPU运算水平，相应的单位面积功耗有明显降低。原文中提到数据相关部分如下。

We show that, on a subset of the largest known neural network layers, it is possible to achieve a speedup of 450.65x over a GPU, and reduce the energy by 150.31x on average for a 64-chip system. We implement the node down to the place and route at 28nm, containing a combination of custom storage and computational units, with industry-grade interconnects.

2. 文章介绍

介绍行文思路十分清晰，从机器学习应用出手，引出现阶段市场和科研需求，并通过对比最新的相关领域（当年最新的）研究，指出可以通过构建多芯片联合系统，以实现可重构、可扩展的神经网络加速器。

在本节处，需要理解作者在行文过程中提到的几个重点，这是加速器研究的基础。

在说明机器学习发展迅速，并将继续如此的观点时，提到现阶段推动高性能计算发展的主要动力正逐渐变为机器学习应用

It is probably not exaggerated to say that machine-learning applications are in the process of displacing scientific computing as the major driver for high-performance computing
在硬件领域，设计研究专用且在某一领域应用灵活的芯片成为主要研究方向，因为这种ASIC芯片可以在低功耗前提下，实现更高性能。

Our community is well aware of the trend towards heterogeneous computing where architecture specialization is seen as a promising path to achieve high performance at low energy [21], provided we can find ways to reconcile architecture specialization and flexibility.

自2006年开始，深度学习算法在大量应用上表现良好，相关领域研究进展十分迅速，结合上述两个趋势，专注于加快神经网络计算的加速器设计的相关研究，开始逐渐增多，以满足相关算法对计算性能的高需求。这里其实主要通过两者间的互补，指出神经网络加速器出现的必然性和进行相关研究的必要性。更明确一点说，硬件领

这篇好文章是转载于：学新通技术网

神经网络加速器设计研究寒武纪DaDianNao论文阅读