新闻 动态 ·
News Center
关注我们 关注前沿

构建高性能视频云服务--英特尔新型SIMD AVX-512技术

发表日期:2018-07-05        文章编辑:         阅读次数:

 1. 内容简介
现如今,各种大小视频异军突起。面对如此庞大的视频容量和存储,如何高效精准地对视频等新媒体进行云端处理,这既是视频开发人员的责任,也是云服务商的责任。云服务提供商 (Cloud Service Providers) 从视频处理、分析、搜索以及流媒体处理的性能方面出发,旨在提升媒体云计算的应用和服务。在流媒体中,视频和图像处理会占用大量计算和存储资源。本文在基于英特尔® 至强® 可扩展平台的新技术上,介绍了新型 SIMD(单一指令多数据流) AVX-512 指令集,并阐述了该指令集是如何帮助提升视频、图像处理以及视频深度学习应用等各方面的性能。
2. 背景
SIMD向量化技术已经在 x86 处理器上得到了广泛支持,在数代不同的 x86 平台上从 MMX、 SSE、 AVX、 AVX2 演进到了 AVX-512指令集。
快速增长的媒体云计算应用和服务给云服务提供商提供了各种机遇。如图1所示的思科流量预测数据,到 2020 年,全球视频流量将占到互联网用户消费流量总量的 82%。层出不穷的新兴媒体云计算应用,例如视频转码、视频分析等,随着4K/8K 视频格式而逐渐兴起,并将趋向成熟,但这对视频处理能力提出了更高的要求,同时也对更多的存储和网络带宽资源能力也给予一定的厚望,这就要求媒体云不断地提升计算性能。

图1 思科VNI: 全球IP流量预测
3. 利用AVX-512提升媒体云计算性能
在基础的媒体云计算模块中,处理好视频转码、编辑、特征抽取和分析等环节都需要消耗大部分计算资源,特别是在视频转码方面,并且视频转码也是进行其他进一步处理和分析的基础。优化这些计算密集型运算,英特尔的 SIMD(单指令多数据流)向量化技术关键性地解决掉了这个问题。随着英特尔架构平台的演进和代代升级,全新英特尔®至强®可扩展处理器已经成功集成了 AVX-512 技术, 本文简单介绍了AVX-512 这一新技术为媒体云计算客户提供的以下优势:
a.提供高效视频处理解决方案。基础视频编码和转码性能将提升 2到 4倍,显著提升媒体处理集群的计算能力。
b. 提供各种高性能图像处理解决方案。有效减小在线图像处理延迟和带宽问题。
c. 提高深度学习算法的性能,帮助消除新兴云服务提供商应用程序的性能瓶颈。
3.1 传统视频处理程序的性能提升
离线视频转码应用程序属于典型的 CPU 和内存密集型的应用,通过SIMD 向量化技术可优化其最耗时的核心代码。目前部分函数可以被编译程序自动优化为使用SIMD向量化技术,或者通过调用高性能的API来优化,如果前面两种方式都不可用,那么就需要分析代码并根据开发手册和相关文档用 SIMD 的向量化指令手动重写。我们手动重写以下四个函数x264_pixel_satd_8x4、x264_pixel_satd_8x8、x264_pixel_satd_8x16、x264_pixel_satd_16x16。
为了测试 SIMD 向量化实现的性能,我们使用 rand()% 10 随机生成两个像素矩阵中的元素的实验对比结果,得到如表一所示的实验结果。
表 1. SSE、 AVX2 和 AVX512 实现结果
从表1 中我们可以看到,与初始相比,最优的 SIMD向量化实现方案获得了3 倍到 5倍的性能加速。
3.2 提升HEVC/H.265 程序性能
视频云服务提供商可利用HEVC/H.265技术帮助以较小的带宽提供高质量视频, 并进一步支持 4k和 8k 的超高分辨率视频服务。这里,我们使用 rand()%40 - rand()%40 随机生成源矩阵,测试结果如表 2所示。
表 2. SSE、 AVX2 和 AVX512 DCT 实现结果
从表2中我们可以看到,对于 4x4/8x8/32x32/ 数据集, AVX-512 代码是最高效的选择,能够分别比初始代码提供 44.46%、70.45% 和 37.60% 的性能提升。 因此, 在具体的视频处理应用中, 需要综合考虑每种 SIMD 指令集的执行效率和性能,然后选择最高效的一种进行优化。
3.3提升图像处理程序性能

图 2.在英特尔® 至强® 可扩展 平台上使用 SIMD 提升图像缩放性能
图 2 是使用 IPP 图像缩放 API 来优化初始的 GraphicsMagick 函数的结果。在这 5 种标准图像的缩放加速4 倍以上,而 AVX-512 也比 AVX2 要高出 20% 以上。
3.4加速视频和图像深度学习程序
我们以 caffe 的评分和训练程序为例,测试AVX-512对英特尔® 数学函数库(英特尔® MKL)的优化效果。如图3和图4所示,在英特尔® 至强® 可扩展平台上,AVX-512 指令可比AVX2 提供高 10% 到 40%的性能。

图 3. Caffe 评分应用程序通过 SIMD 实现的性能提升
图 4. Caffe 应用程序通过 SIMD 向量化实现的性能提升
4.总结
本文简单阐述了英特尔® 至强®可扩展平台上的全新 AVX-512 技术和指令集,演示了如何利用它来优化媒体云应用程序。

文章摘自英特尔精英汇

欢迎联系宝通集团咨询英特尔产品信息

宝通集团联系方式

咨询热线:0755-88603572

宝通官网:www.ex-channel.com
客户垂询邮箱:cuifang.mo@ex-channel.com

客户垂询QQ1627678462

地址:深圳市福田区深南大道1006号国际创新中心C11
邮编:518026

电话:0755-82964380
邮件:ex-channel@ex-channel.com
地址:深圳市福田区深南大道1006号国际创新中心C座11楼

  • 官方微信

  • 官方微博
  • 服务热线

    0755-83647532

    微信服务号

    [!--page.stats—]