目标比特率和最大比特率-基于机器学习技术的非迭代内容自适应分布式编码_80楼网赚论坛|80楼网创
摘要: 分布式编码是缩短内容准备云工作流程的周转时间的一种有效方法。当前已经提出了内容自适应比特分配的策略以保证存储和传输的效率。但这些方法中的许多方法本质上倾向于使用迭代,需要消耗大量额外的计算资源,我们应限制计算复杂度的这种增加。本文提出了一种非迭代的代码同义方法,它采用机器学习技术来实现平均比特率的节省,同时保证目标质量。方法是以一种方式为每个自适应比特率(ABR)表示中的每个ABR段选择内容自适应比特率和分辨率,使它同样适用于实时和按需工作流程。初步结果表明,所提出的方法可以通过更详细的技术实现约85%的比特节省可能,而其计算复杂度仅为双通可变比特率(VBR)编码的15%-20%。 本文内容来自于Sriram Sethuraman, Nithya V. S.和Venkata Narayanababu Laveti D.在SMPTE Motion Imaging Journal刊登的文章“Noniterative Content-Adaptive Distributed Encoding Through ML Techniques” 引言 由于能够随时在任何地方消费内容,通过因特网流媒体的多媒体内容消费开始成为最优选的模式。基于HTTP的自适应比特率流,基于Apple的HTTP直播流(HLS)或基于MPEG的动态自适应HTTP流传输(DASH)等规范,为客户端应用程序提供了基于静态方面选择合适的ABR表示的能力,例如客户端设备属性,用户偏好等;以及动态方面,例如端到端连接上的可用带宽。传统做法是使用Apple,Inc中保守的固定比特率/分辨率ABR表示阶梯。在过去三年中,出现了多种内容自适应编码或流媒体方法目标比特率和最大比特率,可以节省平均比特率并保证更一致的视频质量。实现的比特节省减少了内容传送网络边缘设备中的存储需求以及用于服务订阅用户的平均字节数,这两者都提高了服务的操作效率。这些方法还可以带来更好的体验质量(QoE),并减少了流媒体服务使用者的月度数据消耗。这些方法中的大多数需要评估质量度量以确保能够通过设置给定的峰值比特率来限制目标质量水平,最终实现比特节省。 分布式编码通过在云端的多个计算实例中同时生成标题的HLS / DASH段的ABR表示集,可以缩短周转时间,因此它在现今得到了广泛的应用。它还提供根据所获取的计算实例的异构属性来调度和负载平衡编码实例的功能。即使对于视频直播,这种传统模式中在单个计算实例上使用更快编码设置的实时流式场景,分布式编码和ABR段的概念也为一种具有更高压缩效率的较慢编码设置提供了可能。内容自适应编码可能实现的平均比特节省是互补的,有时与通过更慢的编码预设实现的比特节省相比更有意义。由于流行体育和现实事件的直播流有数百万订阅者消费接近实时时间线的内容,因此交付效率更具重要性。然而,大多数内容自适应方法本质上是迭代的,因此,这些方法可能导致实时传送用例的延迟最终超出可接受的限制,实时解决方案成本的增加,或者如果给定的ABR段本身跨越多个计算实例,可能使内容准备工作流程过于复杂。内容自适应流式传输方法或是通过创建过剩的表示,或是失去保存额外比特,或是进一步提高质量,来增加边缘存储。此外,需要为每个流和每次迭代评估有意义的质量度量以实现最大的比特节省可能,这进一步增加了计算复杂度需求。 在本文中,作者提出了基于机器学习(ML)的方法,该方法消除了对迭代的需求,这些迭代通常用于描述以不同比特率和分辨率组合针对每个内容段获得的感知质量。一个简单的内容分析过程只需要双通道编码时间的一小部分,以及一个基于机器学习的、用于使用速率与质量数据最近邻来估计每个段的目标比特和分辨率的程序,就能实现接近迭代方法的性能。它也消除了对明确的质量度量评估的需求。因此,这种方法适用于现场和按需使用的情况。它还允许使用任何现有的编码器(例如,已经预先集成到工作流中的编码器)来执行最终编码。 内容自适应比特率分辨率阶梯 指定比特率和分辨率组合的固定ABR阶梯是一种保守的方法,它量化了跨用户基础的可用带宽范围(在某一时段内测量),并且为那些相对较难编码的视频片段集合识别出了在每个比特率上以最高质量出现的分辨率。自然地,当段非常简单时,为它配置的比特率不需要很高。当配置成使用标准双通VBR编码设置进行编码时,这些段达到的质量显著高于复杂段达到的质量。这导致在相同的表示内质量水平不必要的波动和比特的浪费。本文参考了一种基于整数规划的方法,该方法试图展示与当时流行的固定阶梯相比,比特节省的范围,同时确定使目标受众的平均QoE最大化的编码参数。×264开源编码器首先提出了恒定速率因子(CRF)模式,该模式通过淡化需求,在尽量满足编码质量一致性时允许限制峰值比特率,来满足高级别的平均比特率。当然,要配置正确的CRF值以达到某个质量目标,需要跨越多个分辨率以多个CRF值对内容进行迭代编码。为了能在编码给定段时利用CRF,并识别实现比特目标的CRF值,本文参考了一种基于神经网络的回归,其中在网络中使用在恒定量化参数下从实际编码生成的一组特征。该方法在使用预估的CRF值编码时能够满足目标比特率±20%的精度。然而,该方法使用了CRF值作为质量指示符,并且不建议被用于估计不超过目标感知质量水平所需的比特分配的方法中。在另一篇文献中,Netflix宣布了一种适用于每个标题的优化方法,其中阶梯适用于每个标题,从而在某些标题上节省了20%的比特。此方法后来被改进为块自适应调整,其中对应于标题级(title-level)比特率的CRF值用于识别块级(chunk-level)比特,以便在VBR模式下为最终编码进行分配。这个过程将分配的比特限制到比每个标题的比特率更低的级别,因此,与基于标题的编码方法相比,能够转换为额外的比特节省。该过程涉及使用不同的CRF值对标题内的中度复杂的片段在每个分辨率下进行多个编码,以获得每个分辨率下的率-失真曲线。 虽然CRF根据时间复杂度(相对于恒定量化器选项)来调整量化级别,但通过使用主观相关的客观质量度量,可以通过充分利用给定内容中存在的空间和时间掩蔽来进一步增加比特节省。此外,当从每个标题转到每个块时应使用相同的逻辑,在块级(chunk-level),场景或帧级别确定特定的比特分配也在预期中将与块级别相比增加比特节省。 Rehrer和Begen都以多个比特率对标题的每个片段执行一组恒定比特率或VBR编码,并依赖于质量度量来为给定内容选择正确的比特率表示。有多个相关优化工作正在进行。一个工作在内容准备端的后处理步骤通过去除超过某个基于SSIMplus的特定质量等级的比特率表示(并指向满足质量等级的较低比特率表示)来优化ABR阶梯,从而实现平均比特率节省。一个工作在流测量的质量等级被流式客户端用于选择一致的质量段表示或者在可用带宽改变时减少质量波动。还有一个工作在内容自适应编码由在编码处理内在帧级计算的主观质量度量引导,并且调整帧消耗的比特以确保不超过目标最大质量,同时将复杂帧的质量向平均一致质量改进,直到峰值比特率限制它。选择正确的依赖于内容的分辨率的过程要求对每个分辨率进行编码,然后选择在给定比特率下以相同质量或最高质量实现最低比特率的分辨率。 虽然上述方法的计算复杂度存在很大程度的变化,但是可以看出它们本质上都是迭代的。即使平均迭代计数很低,对于实时用例,峰值迭代计数也会增加解决方案的延迟。因此,仍然需要一种在复杂度上更具确定性,并且与传统工作流(为固定ABR阶梯生成流)的复杂性相比足够轻量的方法。因此,在本论文提出一种基于ML的方法,它消除了多重试用编码的需要,也消除了对任何与主观质量良好相关的复杂客观质量度量的在线评估的需要。在“基于ML的非迭代方法”中详细解释了该方法。 基于ML的非迭代方法 假设流服务提供商具有跨目标受众测量得到的比特率范围,该比特率范围表示随时间获得的可持续峰值比特率。基于离线分析,假定服务提供商已经到达该范围内的一组量化峰值比特率。例如,这种量化可以通过从最高要求的峰值比特率开始,找到一系列比特率来执行,这些比特率在质量上根据一组相当高的复杂度内容,与前一个比特率恰好相差一个可观测到的差值。这种量化的峰值比特率(Rmax i,i=1,N)的数目(N)决定所需的ABR表示的最大数量(对于一个目标显示类型)。该部分还假定服务提供商具有目标显示的分布。对于每个目标显示类型(D),假定服务提供商定义了一个“不超过质量度量”(Qmax N)表示集合中的最高质量。该部分假设速率量化过程为每个其它的表示(N-1个)导出相应的质量度量(Qmax i)提供了指导。 现在,每个ABR段的内容自适应阶梯计算具有识别M对(B,R)的问题,其中B代表比特,R代表空间分辨率,并满足(M≤N),在这些条件下使得在(R i≤Rmax i)和(Qi)的约束下段质量达到最大化。对于i=1,…,n,内容自适应梯形还可以扩展到考虑帧速率的自适应确定,以及跨越内容帧速率的一小组子集。 为了减少在线计算,所提出的方法依赖于ML技术。有工作已经提出了一种在稍微不同的场景中的方法,将具有不同时空复杂度的大量视频片段用作离线训练集。有相关文献提出了一种在2D可视化复杂度空间中的方法,其中x轴是空间复杂度的指示器,y轴是相对于空间复杂度的时间复杂度的指示器。在给定峰值比特率受到限制的情况下,所有达到Rmax N但仍未达到Qmax N的段必须在Rmax N处编码。 在过滤出所有这样的段之后,剩余段的分布如图1所示。峰值比特率约束导致2D空间中的点分布为下三角分布。对于每个训练视频段,获得跨越多个分辨率的速率与质量数据。在每个训练段上执行视频分析遍历,在此期间收集从复杂性角度表征内容的多个度量。通过这些措施,通过训练过程获得与识别具有非常相似(R,Q)曲线的最近邻相关的特征。(R目标比特率和最大比特率,Q)数据和训练段的特征将以适当的格式存储。 通过执行以下有序步骤来确定给定(Rmax i,Qmax i)组合的给定ABR段的内容自适应(Bi,Ri)对。图2说明了本方法的关键阶段。首先,对该段进行相同的视频分析以获得复杂性度量。从这些措施中,训练好的ML模型将生成一个特征向量。利用这个特征向量,通过评估当前片段的特征和每个训练片段的特征之间的相似性度量,识别出来自训练集的最多k个最近邻。检索这些相邻的(R,Q)数据。对于每个邻居,在每个分辨率中,查找QMAX...