华为达芬奇架构到底好在哪里?
华为达芬奇架构好在哪里?
从使用效果看,我们华为手机的AI能力就能体现实实在在的好效果。
如果从技术角度看,达芬奇架构可以在同样的单位功耗下提供更多的AI算力。
而现在的科技时代正是人工智能AI快速发展的时代,达芬奇架构将来一定会大放光彩。
1、什么是达芬奇架构达芬奇架构是华为在深入研究ARM的架构基础上,为了实现更快的AI计算,而自主研发的面向AI计算特征的全新计算架构。
具备高算力、高能效、灵活可裁剪的特性,是将来万物互联,智能计算的重要架构。
它不仅继承了ARM的低功耗,又实现了高算力,确实是一个不可多得的架构。
2、达芬奇架构的实际效果讲达芬奇架构,很多非技术人士可能不太了解,但直接看实际使用效果应该都可以体会得到。
很多使用华为手机的人都知道,华为手机里有一个叫做NPU的人工智能芯片。
它在默默的为我们做很多AI驱动的功能。
比如,余承东曾经介绍的:人像分割功能:该功能可以精准地将人物和背景识别出来,并对两者进行分离。
同时在这基础上,可以实现人物美颜、背景虚化、以及直播过程中很多特效。
智慧识物:我们可以用华为手机对着食物扫一扫,华为的AI算法很快就能帮助你识别食物的卡路里,让你轻松管理你的饮食。
实时翻译:华为手机支持数十种国家的语言实时翻译,我们只需要唤醒华为的“小艺、小艺”,然后说“翻译一下+需要翻译的语句”。
以上只是部分AI功能,但这都是华为HiAI的功能,也是用达芬奇架构下的NPU的AI计算作为支撑的。
这下应该知道达芬奇有多好了吧,它的AI能力可以方便我们生活的方方面面。
2、达芬奇架构的技术优势从技术上讲,达芬奇架构是采用3D Cube针对矩阵运算做了加速设计,能够大幅度提升AI运算能力,又不会增加太多能耗。
目前,每个AI Core可以在一个时钟周期内实现4096个MAC操作,相比传统的CPU和GPU实现了数量级的提升。
同时,为了提升AI计算的完备性和不同场景的计算效率,达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。
同时支持多种精度计算,支撑训练和推理两种场景的数据精度要求,实现AI的全场景需求覆盖。
在华为的NPU中,里面有很多很多AI Core。
每个core里面又包含了核心的3D cube、Vector向量计算单元、Scalar标量计算单元等等。
他们各自负责AI场景中的各种关于深南,并最大程度实现并行化计算,确保AI计算高效处理。
3D Cube矩阵乘法单元:这是AI计算的核心,这部分运算由3D Cube完成,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,负责向Cube计算单元输送数据和存放计算结果。
Vector向量计算单元:是为了补充3D Cube无法完成的向量计算类型,也可以覆盖各种基本的计算类型和许多定制的计算类型。
Scalar标量计算单元:主要负责标量运算,就像一个微型CPU,它可以很高效的完成程序的循环控制、条件判断、基本的算术运算。
计算加速:华为达芬奇架构不同于以前的标量、矢量运算。
它以3D Cube计算引擎为基础,针对矩阵运算进行加速。
比如:同样进行4096次运算,2D结构需要64X64矩阵运算才能算出结果。
而3D Cube只需要16X16X16的结构就能算出。
运算明显得到了加速。
综上,在华为达芬奇架构下的NPU,能够大幅提高单位面积下的AI算力,充分激发端侧AI的运算潜能。
这也是我们手机能够实时的为我们处理很多AI场景的原因。
达芬奇架构的开发者优势在达芬奇架构下,可以针对不同环境独,支持可大可小,适应全场景立部署。
对开发者来说是非常方便的。
而且除了方便还有更多开发优势:将模型保护已经嵌入到AI框架中了,实现模型安全可靠。
通过实现AI算法即代码,使开发态变得更加友好,减少模型开发时间。
以自然语言处理模型为例,最高可以减少20%的核心代码量,效率整体提升50%以上。
总结总之,华为达芬奇架构是华为AI战略的重要基础。
它可以让华为的消费者享受更智能的AI功能,也能让华为的开发者享受更加便捷的服务。
同时,该架构技术上提高了单位面积的AI算力,可以为华为在将来的人工智能时代占领领先地位。
感谢阅读!我是数智风,用经验回答问题,欢迎关注评论。