专利 一种基于语义聚类的视频异常预测方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211121615.0 (22)申请日 2022.09.15 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人高新波　谭明圮　冷佳旭　莫梦竟成　甘吉　 (74)专利代理机构重庆辉腾律师事务所 5 0215 专利代理师卢胜斌 (51)Int.Cl. H04N 17/00(2006.01) H04N 7/18(2006.01) H04N 19/513(2014.01) G06V 10/74(2022.01) G06V 10/762(2022.01)G06V 10/774(2022.01) G06V 20/40(2022.01) (54)发明名称一种基于语义聚类的视频异常预测方法及装置 (57)摘要本发明属于视频异常检测，具体涉及一种基于语义聚类的视频异常预测方法及装置，所述方法包括将不存在异常的视频，即正常视频序列输入位移通道可选择编码器进行语义特征提取，将提取的语义放入语义池进行储存；在处理实时数据时，将实时视频序列输入位移通道可选择编码器得到其对应的未来视频帧的语义特征，判断提取的语义特征与语义池中所有正常语义特征的相似度，若最大相似度大于设定阈值则该输入视频序列的未来帧正常，否则异常；本发明可以实现对还未发生的异常进行预测，且本发明通过有选择性的通道位移，让编码器提取时间信息的同时，更加关注运动变化较大的区域，并且减少对背景信息的关注。权利要求书2页说明书5页附图2页 CN 115484456 A 2022.12.16 CN 115484456 A 1.一种基于语义聚类的视频异常预测方法，其特征在于，具体包括以下步骤：将不存在异常的视频，即正常视频序列输入位移通道可选择编码器进行语义特征提取，将提取的语义放入语义池进行储存；在处理实时数据时，将实时视频序列输入位移通道可选择编码器得到其对应的未来视频帧的语义特征，判断提取的语义特征与语义池中所有正常语义特征的相似度，若最大相似度大于设定阈值则该输入视频序列的未来帧正常，否则异常。 2.根据权利要求1所述的一种基于语义聚类的视频异常预测方法，其特征在于，对位移通道可选择编码器进行训练时，将输入视频序列的语义特征通过解码器进行解码得到其未来帧的预测帧，通过预测损失计算该预测帧与真实帧的预测误差；利用一个预训练语义编码器提取所述真实帧的语义特征，并通过语义相似度损失计算该语义特征与位移通道可选择编码器提取的语义特征的相似度，通过预测损失和语义相似度损失对位移通道可选择编码器的参数进行更新，引导位移通道可选择编码器获得未来帧的语义特征。 3.根据权利要求2所述的一种基于语义聚类的视频异常预测方法，其特征在于，位移通道可选择编码器包括多层级联的特征图处理结构，将最后一层的输出作为编码器的输出，在其中一层特征图处理结构中对输入该层的特征图的处理过程包括：判断当前输入的特征图第一个时间维度和最后一个时间维度中每个通道的余弦相似度，筛选出相似度小于设置阈值的通道；对选择的通道进行位移，即将选择的通道沿时间维度向前进行步长为1的移动，位移后空缺的位置填充0；位移后的特征图进行3 ×3卷积后与该层进行1 ×1卷积后的输入特征进行相加，作为下一层输入的特征图。 4.根据权利要求2所述的一种基于语义聚类的视频异常预测方法，其特征在于，语义相似度损失包括： Lss＝||fse1‑fse2+α ||；其中， Lss为语义相似度损失； fse1和fse2分别表示预测帧和真实帧语义特征， α 是一个平衡参数。 5.一种基于语义聚类的视频异常预测装置，用于实现权利要求1所述的一种基于语义聚类的视频异常预测方法，包括完成训练的位移通道可选择编码器、语义池以及异常判断模块，其中：完成训练的位移通道可选择编码器用于从待检测的视频帧中提取其未来帧的语义特征；语义池为从正常的视频序列的未来帧的语义特征；异常判断模块用于将完成训练的位移通道可选择编码器提取的待检测数据的未来帧的语义特征与语义池中的正常语义特征进行比较，若最大相似度大于设定阈值，则视频正常，否则视频异常。 6.根据权利要求5所述的一种基于语义聚类的视频异常预测装置，其特征在于，对位移通道可选择编码器进行训练时，将输入视频序列的语义特征通过解码器进行解码得到其未来帧的预测帧，通过预测损失计算该预测帧与真实帧的预测误差；利用一个预训练语义编码器提取所述真实帧的语义特征，并通过语义相似度损失计算该语义特征与位移通道可选权　利　要　求　书 1/2 页 2 CN 115484456 A 2择编码器提取的语义特征的相似度，通过预测损失和语义相似度损失对位移通道可选择编码器的参数进行更新，引导位移通道可选择编码器获得未来帧的语义特征。 7.根据权利要求6所述的一种基于语义聚类的视频异常预测装置，其特征在于，位移通道可选择编码器包括多层级联的特征图处理结构，将最后一层的输出作为编码器的输出，在其中一层特征图处理结构中对输入该层的特征图的处理过程包括：判断当前输入的特征图第一个时间维度和最后一个时间维度中每个通道的余弦相似度，筛选出相似度小于设置阈值的通道；对选择的通道进行位移，即将选择的通道沿时间维度向前进行步长为1的移动，位移后空缺的位置填充0；位移后的特征图进行3 ×3卷积后与该层进行1 ×1卷积后的输入特征进行相加，作为下一层输入的特征图。 8.根据权利要求6所述的一种基于语义聚类的视频异常预测装置，其特征在于，语义相似度损失包括： Lss＝||fse1‑fse2+α ||；其中， Lss为语义相似度损失； fse1和fse2分别表示预测帧和真实帧语义特征， α 是一个平衡参数。 9.一种计算机设备，其特征在于，包括存储器和处理器，存储器用于存储计算机程序，处理器运行存储器中的计算机程序实现权利要求 1所述的一种基于语义聚类的视频异常预测方法。 10.一种计算机程序，其特征在于，用于实现权利要求1所述的一种基于语义聚类的视频异常预测方法。权　利　要　求　书 2/2 页 3 CN 115484456 A 3

专利 一种基于语义聚类的视频异常预测方法及装置

专利一种基于语义聚类的视频异常预测方法及装置