(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211108991.6
(22)申请日 2022.09.13
(71)申请人 上海交通大 学
地址 200240 上海市闵行区东川路80 0号
申请人 咪咕文化科技有限公司
(72)发明人 宋利 李琛 张文军 冯亚楠
邢刚
(74)专利代理 机构 上海恒慧知识产权代理事务
所(特殊普通 合伙) 31317
专利代理师 徐红银 张琳
(51)Int.Cl.
G06T 5/30(2006.01)
G06T 5/50(2006.01)
G06T 7/20(2017.01)
G06V 10/74(2022.01)G06V 10/77(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多尺度由粗到精变换器网络视频帧率
提升方法和系统
(57)摘要
本发明提供一种基于多尺度由粗到精变换
器网络视频帧率提升方法和系统, 包括: 采用特
征提取网络从输入整数帧中提取特征; 第一阶段
网络采用粗中间帧估计网络对整数帧特征进行
隐式运动估计, 获得粗中间帧; 第二阶段网络采
用特征细化变换器网络将整数帧特征迁徙到粗
中间帧的位置, 获得精细中间帧; 建立粗中间帧
和精细中间帧损失函数, 对两个损失函数相加进
行训练; 连续多帧低帧率视频输入训练好的第一
阶段网络和第二阶段网络, 重建出精细中间帧。
本实施例采用两阶段逐级细化的方式进行视频
插帧, 使用纯时空卷积的方式提取运动信息, 以
避免预设运动模 型来估计光流。 同时采用变换器
网络, 估计整数帧与中间帧的多对一映射来提升
特征迁移的鲁棒 性。
权利要求书3页 说明书8页 附图5页
CN 115393232 A
2022.11.25
CN 115393232 A
1.一种基于多尺度由粗到精的变换器网络 视频帧率 提升方法, 其特 征在于, 包括:
采用特征提取网络从输入整数帧中提取整数帧特 征;
第一阶段网络采用粗中间帧估计网络对所述整数帧特征进行隐式运动估计, 获得粗中
间帧;
第二阶段网络采用特征细化变换器网络将所述整数帧特征迁徙到所述粗中间帧的位
置进行质量增强, 获得精细中间帧;
建立所述粗中间帧损失函数和所述精细中间帧损失函数, 并对两个损失函数相加进行
训练;
连续多个低帧率视频输入训练好的所述第 一阶段网络和所述第 二阶段网络, 重建出精
细中间帧。
2.根据权利要求1所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 所述特征提取网络包括三个2D卷积层, 每个卷积层从所述输入整数帧中提取
特征并且降采样, 得到三个尺度的整数帧特 征, 作为所述第一阶段网络的输入。
3.根据权利要求1所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 所述粗中间帧估计网络为一个纯3D卷积的U形网络, 其由三个尺度构成, 每一
个尺度均由若干个3D卷积层组成, 三个尺度按照分辨率降低的顺序分别为精细尺度、 中间
尺度和粗尺度; 所述特征细化变换器网络包括四个变换器块, 采用不同的块大小, 由大至小
变化, 用来从粗到精提取不同尺度的关联。
4.根据权利要求2所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 所述第一阶段网络采用粗中间帧估计网络对所述整 数帧特征进 行隐式运动估
计, 获得粗中间帧, 包括:
将所述三个尺度的整数帧特 征输入所述 粗中间帧估计网络;
对每个尺度整数帧特 征分别采用三层网络进行处 理; 其中,
第一层为3D卷积层, 用来将多个整数帧的特 征进行融合;
第二层为3D卷积层, 在精细尺度负责特征细化, 在中间尺度负责融合当前尺度和精细
尺度第一层输出的特征并且细化; 在粗尺度负责融合当前尺度和中间尺度第一层输出的特
征并且细化;
第三层为一个3D卷积残差块, 由两个3D卷积层通过残差连接组成, 在粗尺度负责特征
细化, 在精细尺度负责融合当前尺度和中间尺度第二层输出 的特征并且细化, 在中间尺度
负责融合当前尺度和粗尺度第二层输出的特 征并且细化;
将细化后的特 征的时间维度展开并且合并到通道维度, 去除时间维度, 使得 特征降维;
将在展开合并后的特征经过三层2D卷积分别进行降维, 得到粗中间帧特征并合成粗中
间帧, 共获得三个尺度的粗中间帧;
所述粗中间帧估计网络中, 除了最后一层2D卷积不使用激活层, 其他每一层卷积均采
用LeakyReLU激活函数, 即在线性整流层ReLU的基础上对负值施加一个非零 斜率。
5.根据权利要求4所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 所述第二层为3D卷积层, 其对精细尺度第一层输出特征进行降采样与中间尺
度特征融合; 对中间尺度第一层输出特征进行降采样与粗尺度特征融合; 所述特征 的降采
样由额外的3D卷积完成。权 利 要 求 书 1/3 页
2
CN 115393232 A
26.根据权利要求4所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 所述第三层为一个3D卷积残差块, 其对粗尺度第二层输出特征进行上采样与
中间尺度特征融合; 对中间尺度第二层输出特征进行上采样与精细尺度特征融合; 所述特
征的上采样由额外的3D反卷积完成。
7.根据权利要求2所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 所述第二阶段网络采用特征细化变换器网络将所述整数帧特征迁徙到所述粗
中间帧的位置进行质量增强, 获得精细中间帧, 包括:
所述三个尺度的粗中间帧和整数帧特 征作为所述第二阶段网络的输入;
对所述每个尺度的粗中间帧, 采用4个连续的变换器块将相应尺度的所述整数帧特征
迁移到粗中间帧位置以增强粗中间帧特 征的质量;
经过变换器块处理后的粗中间帧特征经过由三个残差密集连接块组成的帧合成模块,
进行特征聚合, 获得精细中间帧。
8.根据权利要求7所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 在每 个所述变换器块施行的过程, 包括:
将粗中间帧和整数帧特 征的图像分块, 获得若干个图像块;
利用自注意力机制, 估计所述图像块之间的关联并且匹配, 即 以粗中间帧特征的图像
块作为参考, 与所述整数帧特 征分成的图像块间进行 特征匹配, 生成权 重;
基于所述权重计算整数帧特征的加权和作为粗中间帧当前位置的细化特征, 即
Attention(Q, K, V)=Softmax(QKT)V, 其中, Q为要查询的向量, 指粗中间帧特征; K和V为被
查询的向量和查询到的值, 均为输入整数帧的特 征。
9.根据权利要求1所述的一种基于多尺度由粗到精的变换器网络视频帧率提升方法,
其特征在于, 建立由粗中间帧损失函数和精细中间帧的损失函数组成的综合损失函数, :
L=LOC+LO
其中包含粗中间帧的损失函数LOC以及精细中间帧的损失函数LO, 两个损失函数均采用
L1损失实现:
L(O, GT)=| |O‑GT||1
即计算重建中间帧与真实值之间的L1损失, 其中GT为真实的中间帧, O为网络输出的重
建中间帧, LOC中的O为粗中间帧, LO中的O为精细中间帧;
针对不同尺度的重建中间帧, 将真实值通过双线性插值的方式进行下采样, 依此来计
算损失值。
10.一种基于多尺度由粗到精的变换器网络 视频帧率 提升系统, 其特 征在于, 包括:
特征提取模块, 所述特 征提取模块从输入整数帧中提取整数帧特 征;
第一阶段模块, 所述第 一阶段模块络采用粗中间帧估计网络对所述整数帧特征进行隐
式运动估计, 获得粗中间帧;
第二阶段模块, 所述第 二阶段模块采用特征细化变换器网络将所述整数帧特征迁徙到
所述粗中间帧的位置进行质量增强, 获得精细中间帧;
约束训练模块, 所述约束训练模块建立所述粗中间帧损失函数和所述精细中间帧损失
函数, 并对两个损失函数相加进行训练;
应用模块, 所述应用模块将连续多帧低帧率视频输入训练好的所述第 一阶段网络和所权 利 要 求 书 2/3 页
3
CN 115393232 A
3
专利 基于多尺度由粗到精变换器网络视频帧率提升方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:20上传分享