(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111619841.7
(22)申请日 2021.12.28
(71)申请人 上海晏鼠计算机技 术股份有限公司
地址 200082 上海市杨 浦区国定路3 35号
3201-3室
(72)发明人 陈刚
(51)Int.Cl.
G06F 16/432(2019.01)
G06F 16/438(2019.01)
G06Q 10/10(2012.01)
(54)发明名称
一种基于多文件类型智能标签的智慧搜索
方法及系统
(57)摘要
本发明公开了一种基于多文件类型智能标
签的智慧搜索方法及系统, 包括将业务资料导入
系统、 对文本类文件添加标签、 对图片类文件添
加标签、 对视频类文件添加标签和在系统中搜索
文件, 本发明实施例中, 提供了一种基于多文件
类型智能标签的智慧搜索方法及系统及系统, 使
用了基于自然语言处理NLP、 文字识别、 图像识
别、 音频识别等AI能力, 构建了基于智能标签的
智慧搜索系统。 基于AI能力对业务数据进行处
理, 支持多种类型的结构化、 非结构化数据的智
能抽取, 标签标注, 提高了搜索速度、 匹配精度、
匹配准确度。
权利要求书2页 说明书4页 附图1页
CN 114722220 A
2022.07.08
CN 114722220 A
1.一种基于多 文件类型智能标签的智慧搜索方法及系统, 其特 征在于, 包括:
步骤1: 将业务资料导入企业数据; 数据格式包含但不限于docx、 xlsx、 pptx、 jpg、 mp4等
文件格式, 判断模块接收到导入的业务数据之后, 首先判断文件类型, 将图片类型文件发送
至图片标注模块, 将视频类文件发送至视频标注模块, 剩 下的文件由读取单元识别文件内
容, 在读取的过程中, 若读取到图片类文件, 发送至图片标注模块, 若读取到视频类文件, 则
发送至视频标注模块, 最后将剩下的文本内容发送至文本标注模块;
步骤2: 对文本类文件添加标签; 文本标注模块中的文本获取单元用于接收判断模块发
送的文本数据, 接 收的文本数据 交由分词处理单元进行处理, 文本数据 处理后获得分词集
合, 得到的分词集 合交由相似度计算单 元处理得到相似度;
相似度计算单元将计算出的相似度交 由标签构建单元进行处理, 标签构建单元依据分
词集合与分词集 合中的词语相似度构建文本标签;
步骤3: 对图片类文件添加标签; 图片标注模块的图片获取单元, 用于获取判断模块发
送的待标注图片, 接 收的待标注图片交由图片场景标注单元, 图片场景标注单元通过调用
场景识别模型对待标注图片进行处理, 获得用于描述待标注图片场景信息的标签, 图片场
景标注单元标注完成后, 将图片传递给图片对 象标记单元, 图片对 象标记单元调用对 象识
别模型对待标记图片进行处理, 获得用于描述待标注图片对 象信息的标签, 场景信息的标
签与对象信息的标签都生成之后, 标签生成单元, 根据两个标签的信息, 生 成待标注图片的
分类标签;
步骤4: 对视频类文件添加标签; 视频标注模块接收判断模块发送 的待标注视频之后,
预处理单元将接 收的视频分为图像、 音频、 字幕三部分, 分别传递给图像特征单元、 音频特
征单元、 字幕特 征单元, 获取三 者的特征;
视频标签生成单元, 将图像特征单元、 音频特征单元、 字幕特征单元生成的特征, 输入
标签预测模型, 输出 所述待标注视频的分类标签;
步骤5: 在系统中搜索文件; 在系统终端输入搜索词, 搜索模块的语义识别单元, 通过对
搜索词进行分词处理和命名实体识别, 获取搜索词的语义信息, 匹配单元将搜索词的语义
信息与数据库中标签信息进行语义相似度计算, 将相似度大于阈值的标签信息认定为目标
信息, 最后提取 单元根据目标信息从数据库中提取文件, 展示在终端上;
一种基于多文件类型智能标签的智慧搜索系统包含: 判断模块、 文本标注模块、 图片标
注模块、 视频 标注模块和存 储模块;
判断模块, 根据文件类型将文件发送到不同的标注模块, 包含判断单元、 读取单元, 判
断模块接 收导入的文件之后, 首先判断单元根据文件的类型, 将图片类文件发送给图片标
注模块, 视频类文件发送给视频标注模块, 读取单元读取剩下的文件内容, 读取过程中识别
到文件类图片, 则将图片发送至图片标注模块, 识别到视频则将视频发送至视频标注模块,
最后将文本内容发送至文本标注模块;
文本标注模块, 对文本类数据标注标签; 包含文本获取单元、 分词处理单元、 相似度计
算单元、 标签构建单元, 文本获取单元用于从判断模块接收文本数据, 分词处理单元用于对
接收的文件进行处理并得到分词集合, 相似度计算单元, 对分词集合进行计算获得分词集
合的相似度, 标签构建单元依据分词集合与相似度构建文本数据的标签, 最后将标注过 的
文本发送至存 储模块;权 利 要 求 书 1/2 页
2
CN 114722220 A
2图片标注模块, 对图片类文件标注标签; 包含图片获取单元、 图片场景标注单元、 图片
对象标注单元、 标签生成单元, 图片获取单元用于接收判断模块 发送的待标注图片, 并将图
片传递给图片场景标注单元, 图片场景标注单元调用场景识别模型对图片进行处理, 获取
用于描述待标注图片的场景信息标签, 图片对 象标注单元接 收场景标签标注完成的图片,
并调用对 象识别模型对待标注图片进行处理, 获取用于描述待标注图片对 象信息的标签,
标签生成单元, 根据场景标签信息与对象标签信息, 生成图片的分类标签, 并将标注过的图
片发送至存 储模块;
视频标注模块, 对视频类文件标注标签; 包含预处理单元、 图像特征单元、 音频特征单
元、 字幕特征单元, 预 处理单元接收判断模块 发送的待 标注视频后, 将视频分为图像、 音 频、
字幕三部分, 分别传递给图像特征单元、 音频特征单元、 字幕特征单元, 图像特征单元生成
图像特征, 音频特征单元生 成音频特征, 字幕特征单元生 成字幕特征, 标签预测模型根据三
种特征, 输出待标注视频的分类标签, 并将标注过的视频发送至存 储模块;
搜索模块, 用于搜索用户所需内容; 包含语义识别单元、 匹配单元、 提取单元, 语义识别
单元接受系统终端的搜索词, 并对搜索词进行分词处理和命名实体识别, 获取搜索词的语
义信息, 匹配单元将搜索词的语义信息与数据库中的标签信息进行语义相似度计算, 将相
似度大于阀值的认定为 目标数据, 提取单元将目标数据从数据库中提取, 展示在系统终端
上;
存储模块, 用于被标注的数据; 包含接收单元、 发送单元、 存储单元, 接收单元用于接受
其它模块发送的信息或数据, 发送单元用于发送其它模块需求的数据, 存储单元用于存储
其它模块发送的数据。权 利 要 求 书 2/2 页
3
CN 114722220 A
3
专利 一种基于多文件类型智能标签的智慧搜索方法及系统
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:07:03上传分享