(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211005409.3
(22)申请日 2022.08.22
(71)申请人 华为技术有限公司
地址 518129 广东省深圳市龙岗区坂田华
为总部办公楼
(72)发明人 刘志广 柏昊立 孟笑君 李文涛
谢念 王靓伟 侯璐 蒋欣
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
专利代理师 李杭
(51)Int.Cl.
G06T 11/60(2006.01)
G06N 3/04(2006.01)
G06T 9/00(2006.01)
G06V 10/44(2022.01)G06V 10/74(2022.01)
G06V 30/148(2022.01)
G06V 30/19(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种数据处 理方法及其装置
(57)摘要
一种数据处理方法, 应用于包含文字的图像
的处理, 涉及人工智能领域, 包括: 获取第一特征
表示以及第二特征表示, 第二特征表 示为第一文
本的文本 特征; 第一文本为图像中包括的文本内
容; 根据第一特征表示以及第二特征表示, 通过
目标编码器, 得到第三特征表示; 第三特征表示
用于执行下游任务; 执行结果和对应的标注之间
的相似度以及第一特征表示和第二特征表示之
间的相似度用于更新图像编码器。 本申请通过先
双塔方式可以提升图文之间的对齐能力, 再利用
一个单塔结构进一 步增强特 征的交互学习能力。
权利要求书3页 说明书30页 附图10页
CN 115512005 A
2022.12.23
CN 115512005 A
1.一种数据处 理方法, 其特 征在于, 包括:
获取第一特征表示以及第 二特征表示, 所述第 一特征表示为根据图像编码器对图像进
行处理得到的图像特征得到, 所述第二特征表示为第一文本的文本特征; 所述第一文本为
所述图像中包括的文本内容;
根据所述第一特征表示以及所述第 二特征表示, 通过目标编码器, 得到第 三特征表示;
所述目标编码器用于实现特 征表示之间的交 互;
根据所述第三特征表示, 执行下游任务, 得到执行结果; 所述执行结果和对应的标注之
间的相似度以及所述第一特征表示和所述第二特征表示之间的相似度用于更新所述图像
编码器。
2.根据权利要求1所述的方法, 其特征在于, 所述第 二特征表示为通过文本编码器对所
述第一文本进 行处理得到的文本特征; 所述第一特征表示和所述第二特征表示之 间的相似
度还用于更新所述文本编码器。
3.根据权利要求1或2所述的方法, 其特征在于, 所述第一特征表示和所述第二特征表
示之间的相似度与图像中所蕴含的文本语义信息和文本 自身的语义信息之间的相似度有
关。
4.根据权利要求1至 3任一所述的方法, 其特 征在于,
所述第一文本为所述图像中包 含的全部文本; 或者,
所述第一文本为所述图像中包 含的全部文本中的部分。
5.根据权利要求1至4任一所述的方法, 其特 征在于,
所述图像为从原始的输入图像中提取的部分图像区域, 所述图像包括的文本为所述输
入图像包 含的文本的部分; 或者,
所述图像为原 始的输入图像。
6.根据权利要求1至5任一所述的方法, 其特征在于, 所述第一文本包括第一子文本和
第二子文本, 所述第二特征表示包括所述第一子文本对应的第一子特征、 以及所述第二子
文本对应的第二子特征; 所述第一子特征不包含所述第一子文本在所述图像中的位置; 所
述第二子特 征包含所述第二子文本在所述图像中的位置;
所述根据所述第三特 征表示, 执 行下游任务, 包括:
根据所述第三特征表示, 预测所述第一子文本在所述图像中的第一位置; 所述第一位
置和对应的标注之间的相似度用于更新所述图像编码器以及所述目标编码器。
7.根据权利要求6所述的方法, 其特征在于, 所述图像包括多个图像块; 所述第一位置
为对所述第一子文本预测所在的图像块; 所述标注为所述第一子文本真实所在的图像块。
8.根据权利要求1至7任一所述的方法, 其特征在于, 所述第一特征表示包括第三子特
征和第四子特 征; 所述方法还 包括:
根据所述第四子特征、 所述第 四子特征在所述第一特征表示中的第二位置、 以及所述
第三子特征在所述第一特征表示中的第三位置, 得到所述第三位置处的特征预测值; 所述
特征预测值和所述第三子特 征之间的相似度用于更新所述图像编码器。
9.根据权利要求8所述的方法, 其特征在于, 所述根据所述第 四子特征、 所述第 四子特
征在所述第一特征表示中的第二位置、 以及所述第三子特征在所述第一特征表示中的第三
位置, 得到所述第三 位置处的特 征预测值, 包括:权 利 要 求 书 1/3 页
2
CN 115512005 A
2根据所述第四子特征、 所述第 四子特征在所述第一特征表示中的第二位置、 以及所述
第三子特 征在所述第一特 征表示中的第三 位置, 通过自注意力网络, 得到第四特 征表示;
根据所述第四特 征表示, 通过 预测网络, 得到所述第三 位置处的特 征预测值。
10.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取图像;
通过图像编码器, 对所述图像进行处 理, 得到第一特 征表示;
通过文本编码器, 对所述图像中包 含的文本进行处 理, 得到第二特 征表示;
根据所述第一特征表示以及所述第 二特征表示, 通过目标编码器, 得到第 三特征表示;
所述目标编码器用于实现特 征表示之间的交 互;
根据所述第三特 征表示, 执 行下游任务, 得到执 行结果。
11.一种数据处 理装置, 其特 征在于, 包括:
获取模块, 用于获取第一特征表示以及第二特征表示, 所述第一特征表示为根据图像
编码器对图像进行处理得到的图像特征得到, 所述第二特征表示为第一文本的文本特征;
所述第一文本为所述图像中包括的文本内容;
编码模块, 用于根据 所述第一特征表示以及所述第 二特征表示, 通过目标编码器, 得到
第三特征表示; 所述目标编码器用于实现特 征表示之间的交 互;
任务执行模块, 用于根据所述第三特征表示, 执行下游任务, 得到执行结果; 所述执行
结果和对应的标注之间的相似度以及所述第一特征表示和所述第二特征表示之间的相似
度用于更新所述图像编码器。
12.根据权利要求11所述的装置, 其特征在于, 所述第 二特征表示为通过文本编码器对
所述第一文本进 行处理得到的文本特征; 所述第一特征表示和所述第二特征表示之 间的相
似度还用于更新所述文本编码器。
13.根据权利要求11或12所述的装置, 其特征在于, 所述第 一特征表示和所述第 二特征
表示之间的相似度与图像中所蕴含的文本语义信息和文本 自身的语义信息之间的相似度
有关。
14.根据权利要求1 1至13任一所述的装置, 其特 征在于,
所述第一文本为所述图像中包 含的全部文本; 或者,
所述第一文本为所述图像中包 含的全部文本中的部分。
15.根据权利要求1 1至14任一所述的装置, 其特 征在于,
所述图像为从原始的输入图像中提取的部分图像区域, 所述图像包括的文本为所述输
入图像包 含的文本的部分; 或者,
所述图像为原 始的输入图像。
16.根据权利要求11至15任一所述的装置, 其特征在于, 所述第一文本包括第 一子文本
和第二子文本, 所述第二特征表示包括所述第一子文本对应的第一子特征、 以及所述第二
子文本对应的第二子特征; 所述第一子特征不包含所述第一子文本在所述图像中的位置;
所述第二子特 征包含所述第二子文本在所述图像中的位置;
所述任务执 行模块, 具体用于:
根据所述第三特征表示, 预测所述第一子文本在所述图像中的第一位置; 所述第一位
置和对应的标注之间的相似度用于更新所述图像编码器以及所述目标编码器。权 利 要 求 书 2/3 页
3
CN 115512005 A
3
专利 一种数据处理方法及其装置
文档预览
中文文档
44 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共44页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:54上传分享