(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210690851.8
(22)申请日 2022.06.17
(71)申请人 上海大学
地址 200436 上海市宝山区上海市上 大路
99号
申请人 上海市文化和旅游局(上海市广播
电视局、 上海市文物局)
上海市文物保护研究中心
(72)发明人 刘炜 何晴 彭艳 谢少荣
方世忠 褚晓波 李晶 翟杨
赵荦 杨天源
(74)专利代理 机构 北京新科华领知识产权代理
事务所(普通 合伙) 16115
专利代理师 吴变变(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/26(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06F 40/289(2020.01)
(54)发明名称
一种基于多模态事件本体的图像事件识别
方法
(57)摘要
本发明公开了一种基于多模态事件本体的
图像事件识别方法, 包含以下步骤: 图像关键词
获取: 使用多标签分类技术, 获取输入 图像信息
中的重要关键词; 筛选事件类集合: 利用获取到
的关键词, 通过与事件类六元 组表示结构中的要
素信息进行文本匹配, 在多模态事件本体模型中
寻找匹配度最高的事件类集合; 图像匹配: 对所
述筛选过的高匹配度的事件类集合中所有事件
类的图像, 将其与输入图像进行基于特征的匹
配, 选择得分最高的对应事件类, 即为最终图像
事件识别的结果。 本发明可以使图像事件识别过
程趋于结构化和标准化, 从而提高事件识别的准
确度。
权利要求书1页 说明书5页 附图1页
CN 114972884 A
2022.08.30
CN 114972884 A
1.一种基于多模态事 件本体的图像事 件识别方法, 其特 征在于, 包 含以下步骤:
图像关键词获取: 使用多标签分类技 术, 获取输入图像的重要关键词;
筛选事件类集合: 利用获取到的关键词, 通过与事件类六元组表示结构中的要素信息
进行文本匹配, 在事 件本体模型中寻找匹配度最高的事 件类集合;
图像匹配: 对所述筛选过的高匹配度的事件类集合中所有事件类的图像, 将其与输入
图像进行基于特 征的匹配, 选择 得分最高的对应事 件类, 即为 最终图像事 件识别的结果。
2.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法, 其特征在于, 图
像关键词获取步骤 还包括以下部分:
图像区域提取: 提取图像的重点区域, 获得包含图像重点部分的若干子图, 这些子图代
表图像的主 要信息;
多标签分类器: 基于多标签分类技术, 将所述区域提取技术中产生的子 图分别进行处
理, 得到各区域子图对应的关键词集 合;
关键词标注: 对所述区域子 图的关键词集合进行词性标注, 并根据词性对关键词集合
做新的划分。
3.如权利要求2所述的方法, 其特征在于, 在所述区域提取部分, 采用Selective
Search或者RPN技术获取图像的代表区域, 并且使每个代表区域子图尽量只 保留一项重点
目标。
4.如权利要求2所述的方法, 其特征在于, 在多标签分类部分, 让所述代表区域子 图经
过多标签分类CNN模型, 得到该子图对应的关键词, 每个子图产生的关键词放入不同集合
中, 生成图像关键词集 合序列; 另外需要根据分类汇总结果, 产生对象总数属性。
5.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法, 其特征在于, 筛
选对应事 件类集合步骤进一 步包括:
要素匹配: 根据已有的多模态事件本体模型, 将获取到的图像关键词与之进行相应的
事件要素匹配, 筛 选所需事 件类集合;
外部知识补充: 利用外 部知识对要素匹配的结果进一 步筛选。
6.如权利要求5所述的方法, 其特征在于, 在要素匹配部分中, 需要借助语义相似度等
文本匹配技 术完成事 件要素的匹配过程, 产生匹配程度较高的事 件类集合。
7.如权利要求5所述的方法, 其特征在于, 在外部知识补充部分中, 需要根据语料库、 语
义词典或网络 资源, 计算所述图像 关键词与事件类的 “多模态信息 ”要素中文本部 分的语义
相关度, 根据结果对 事件类集合进行二次筛 选。
8.如权利要求1所述的一种基于多模态事件本体的图像事件识别方法, 其特征在于, 图
像匹配步骤进一 步包括:
特征提取: 提取输入的待识别图像与经过二 次筛选的事件类集合中所有候选图像的特
征;
基于特征匹配: 分别计算输入图像与所有待筛选 图像特征间的相似度, 将相似度计算
作为进行最终选择 的得分函数, 按照匹配结果进行排序, 得分最高者即为该图像所属的事
件类。权 利 要 求 书 1/1 页
2
CN 114972884 A
2一种基于多模 态事件本体的图像事件识别方 法
技术领域
[0001]本发明涉及图像识别技术领域, 尤其涉及 一种基于多模态事件本体的图像事件识
别方法。
背景技术
[0002]图像是人类理解世界的一个重要辅助工具。 随着人工智能技术的快速发展, 机器
对图像的处理也不再仅局限于简单的分类任务, 而是逐步聚焦于对图像信息的深层理解与
应用。
[0003]事件是指在特定时间和环境下发生的、 由若干角色参与的、 表现出特定动作或状
态变化的过程。 将事件以 “对象”、“动作”、“时间”、“环境”、“状态”、“语言表现 ”的六元组形
式表示, 可以得到事 件的规范化描述。
[0004]图像事件识别主要是通过图像 处理技术识别图像中所发生的事件, 其目标是尽可
能细致地描述该事件中的参与者(人或物)、 环境信息以及事件类别等, 这包括基于视觉的
直观判断和基于 常识的辅助推理过程。 因此, 在识别过程中, 除了聚焦于图像的视觉特征之
外, 还应注重对其语义信息的理解。 可以说, 图像的目标分类和识别等技术 都为语义理解服
务。
[0005]事件类指由类型相同或相似的事件所构成的集合, 是对多个事件的抽象总结。 事
件本体是指针对通用或特定领域的应用场景, 将多种相关事件类进行筛选组合, 并结合事
件类关系以及一定的推理规则, 所得到的一种 可以覆盖所有场景 的知识库。 事件本体可以
将海量的非结构化文本事 件整合成一种趋 于结构化的形式, 使事 件的表示形式更加清晰。
[0006]目前研究界开始考虑将多模态信息应用于图像的深度理解过程中。 多模态技术是
将文本、 图像和语音等各种类型的信息结合起来的技术, 各个模态互为补 充, 以提高机器的
理解能力。
[0007]多模态事件本体即是将多模态思想融合到事件本体模型中, 具体地, 它使用由文
本和图像共同构成的 “多模态信息 ”作为事件(类)描述的其中一个要素。 因此, 在进行图片
识别时, 它不仅可以增强文本语义信息的补充, 还可以使用视觉特征作为事件判断的额外
辅助, 由此提高事件识别技术的准确度, 故需要一种基于多模态事件本体的图像事件识别
方法。
发明内容
[0008]基于以上问题, 本发明提出了一种基于多模态事件本体 的图像事件识别方法, 用
于解决现有技 术中识别图像事 件时语义信息理解 不足的问题。
[0009]为了实现上述目的, 本发明采用了如下技 术方案:
[0010]一种基于多模态事 件本体的图像事 件识别方法, 包 含以下步骤:
[0011]图像关键词获取: 使用多标签分类技 术, 获取输入图像的重要关键词;
[0012]筛选事件类集合: 利用获取到 的关键词, 通过与事件类六元组表示结构中的要素说 明 书 1/5 页
3
CN 114972884 A
3
专利 一种基于多模态事件本体的图像事件识别方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:58上传分享