深度学习加速技术会是AI“高度近视”的破解之法？

2022-08-25 12:19来源：未知编辑：admin

扫一扫

分享文章到微信

扫一扫

关注99科技网微信公众号

【导读】

「是什么黑科技，成全了AI又快又准又省的心愿？」有什么比秃头更心酸的吗？有，比如智能机器人将秃了的后脑勺识别成未戴口罩的脸，跟随一路提醒佩戴口罩。如今AI应用已非常普遍，这过程中也收获了不少“人工智障”的笑话，上述只是其中一个，除了离谱的图像自动识别，还有答非所问的智能对话。自迎来以深度学习为代表的第三次发展浪潮，人工智能技术已被广泛应用在目标检测、图像识别、自然语言处理（NLP）等场景，从语音识别、自动送餐机器人到生产线影像监控，AI的身影无处不在。客户的业务需求与创新应用对AI推理和训练的效率和质量都提出了更为严格的要求，推动人工智能发展从三个方面——数据、算力、算法都需要进一步调优和高效。两全其美之事已是世间难得，倘若想要在一件事上达到“三全”，着实有些困难且“贪心”。但踏平“人工智障”，真的需要“贪心”一些。

数据精度、存储空间、处理速度，发展AI必须三者共同进步数据、算力和算法之间存在一些原生矛盾。通常来说，数据类型的宽度越大，能表达的动态范围和精度也就越高。更大的动态范围和更高的精度意味着更多的存储空间，譬如FP32就需要FP16两倍的内存占用，并给内存带宽带来成倍的压力，对算力带来挑战。同时算法层面，尽管深度学习是人工智能（AI）近几年重新走红的功臣，也是吞噬算力的巨大 “黑洞”。这三者平衡起来依然也会存在困难，从数据类型的层面，要节省存储空间就需要做出一定的让步或牺牲，例如，Google为加速AI深度学习而引入的BFloat16（BF16）数据类型，用FP16的数据宽度实现了与FP32相当的动态范围，其代价是精度有所降低。这只是解决了一方面，但如果实现“既准，又省，还快”三重快乐AI，三大要素必须共同发力：简化数据，强化算力，优化算法。

英特尔深度学习加速技术：准、省、快，低精度成就高效率！算法上的革新是重中之重。如同上述所说，大多数深度学习应用在其训练和推理工作负载中多采用 32 位浮点精度（FP32），尽管精度高但占用更大内存，进而影响计算效率。当数据格式由 FP32 转为 8 位整数（INT8）或 16 位浮点数（BF16）时，内存可以移动更多的数据量，进而更大化地利用计算资源。

图说：不同数据格式对内存利用率的影响这种精度的降低会对数据处理的准确率造成影响吗？答案是：并不会，或者说影响微乎其微。近年来已有众多研究和实践表明，以较低精度的数据格式进行深度学习训练和推理，并不会对结果的准确性带来太多影响，譬如BF16用于训练，INT8用于推理，能够将准确率的损失降至最低，甚至完全没有损失。而低精度数据格式带来的优势，也不仅在于提升内存利用效率，在深度学习常见的乘法运算上，它也能减少处理器资源消耗并实现更高的操作速度（OPS）。算法的升级助力了“准”和“省”的达标，但“快”的层面还略有些差强人意。为了保证推理过程中的精度，在CPU的向量处理单元中进行矩阵运算的时候，先将8位值相乘再累加到32位，需要3条指令来完成，代价是3倍的指令数，这也导致峰值运算性能只提高了33%。那么“提速”任务就交给了算力单元。英特尔® 深度学习加速（英特尔®Deep Learning Boost，简称DL Boost）技术的精髓，就是把对低精度数据格式的操作指令融入到了 AVX-512 指令集中，即AVX-512_VNNI(Vector Neural Network Instruction，矢量神经网络指令) 和AVX-512_BF16（bfloat16），分别提供了对 INT8（主打推理）和 BF16（兼顾推理和训练）的支持。英特尔® 深度学习加速技术带来训练和推理效率提升至此，英特尔® DL Boost技术可以让人工智能达到三全，即：

99科技网：http://www.99it.com.cn

共3页:

相关推荐