/Content Based VP for Live Streaming (1)

LiveMotion

基于视频中物体的运动模式来做对应的FoV预测。

将用户的FoV轨迹与视频内容中运动物体的轨迹结合到一起考虑：

受限于Motion识别算法，前面提出的LiveMotion只能作用于有清晰并且容易分别的前景背景边界的视频，其健壮性并不能满足全景直播推流的场景。

LiveDeep处理问题的场景为：

LiveDeep的设计原则：

CNN的设计：

使用经典的 CNN：VGG 作为骨干网络，修改最后一层，只输出两类：感兴趣的和不感兴趣的。

直观上的想法是选择被分类为感兴趣的部分，并且这些所选部分在原始帧中的位置将指示其他帧中可能感兴趣的FoV。

实际上存在的问题是：几乎所有的部分都被分类为感兴趣的一类，最终结果是整个帧被选择作为预测的结果。

所以不直接使用 CNN 网络的输出，而是在被分类为感兴趣的部分中进一步细分。通过对输出的分数排序并选择前 $M$ 份比例的输出作为最终的结果，这样通过控制 $M$ 的大小可以调整精度和消耗的带宽。

在传统的监督训练中，训练时间取决于可接受的最低损失值和 epoch 的值。为了满足实时性，LiveDeep采用较高的最低损失值和较低的最大 epoch 值。

High acceptable loss value：因为直接对从被分类为感兴趣的部分中去获取最终结果，所以通过实验证明，损失值应该要比常规的 CNN 更高：设定为 0.2。
The number of epochs：因为直播推流的特殊性，重复的训练并不能持续降低损失，所以采用较小的值：10。
The batch size：受限于训练的图像，将其设定为训练图像的个数即： $k \times x \times y$。
Dynamic learning rate：

单纯的CNN模型可能会导致对视频内容有强记忆性，而这会使模型在面对新视频内容时需要花较长的时间去接受用户偏好，即对于用户偏好的快速切换不能做出即时响应。而LSTM的模块用于弥补这一缺陷；

采用与原始的LSTM模型相同的训练过程：先用收集的训练数据训练模型然后推断未来的数据。

收集用户在过去的视频片段中的用户轨迹，包括从 $k$ 个子采样帧中的 $k$ 个采样点，因此作为训练数据，同时将每个采样点中每个帧的索引指定为时间戳。最终模型的输出是预测出的分块的索引。

将CNN模块得到的输出作为主要的结果，接着结合LSTM模块的输出结果作为最终的预测结果。