专利 一种数据处理方法及其装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211005409.3 (22)申请日 2022.08.22 (71)申请人华为技术有限公司地址 518129 广东省深圳市龙岗区坂田华为总部办公楼 (72)发明人刘志广　柏昊立　孟笑君　李文涛　谢念　王靓伟　侯璐　蒋欣　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 专利代理师李杭 (51)Int.Cl. G06T 11/60(2006.01) G06N 3/04(2006.01) G06T 9/00(2006.01) G06V 10/44(2022.01)G06V 10/74(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06V 10/82(2022.01) (54)发明名称一种数据处理方法及其装置 (57)摘要一种数据处理方法，应用于包含文字的图像的处理，涉及人工智能领域，包括：获取第一特征表示以及第二特征表示，第二特征表示为第一文本的文本特征；第一文本为图像中包括的文本内容；根据第一特征表示以及第二特征表示，通过目标编码器，得到第三特征表示；第三特征表示用于执行下游任务；执行结果和对应的标注之间的相似度以及第一特征表示和第二特征表示之间的相似度用于更新图像编码器。本申请通过先双塔方式可以提升图文之间的对齐能力，再利用一个单塔结构进一步增强特征的交互学习能力。权利要求书3页说明书30页附图10页 CN 115512005 A 2022.12.23 CN 115512005 A 1.一种数据处理方法，其特征在于，包括：获取第一特征表示以及第二特征表示，所述第一特征表示为根据图像编码器对图像进行处理得到的图像特征得到，所述第二特征表示为第一文本的文本特征；所述第一文本为所述图像中包括的文本内容；根据所述第一特征表示以及所述第二特征表示，通过目标编码器，得到第三特征表示；所述目标编码器用于实现特征表示之间的交互；根据所述第三特征表示，执行下游任务，得到执行结果；所述执行结果和对应的标注之间的相似度以及所述第一特征表示和所述第二特征表示之间的相似度用于更新所述图像编码器。 2.根据权利要求1所述的方法，其特征在于，所述第二特征表示为通过文本编码器对所述第一文本进行处理得到的文本特征；所述第一特征表示和所述第二特征表示之间的相似度还用于更新所述文本编码器。 3.根据权利要求1或2所述的方法，其特征在于，所述第一特征表示和所述第二特征表示之间的相似度与图像中所蕴含的文本语义信息和文本自身的语义信息之间的相似度有关。 4.根据权利要求1至 3任一所述的方法，其特征在于，所述第一文本为所述图像中包含的全部文本；或者，所述第一文本为所述图像中包含的全部文本中的部分。 5.根据权利要求1至4任一所述的方法，其特征在于，所述图像为从原始的输入图像中提取的部分图像区域，所述图像包括的文本为所述输入图像包含的文本的部分；或者，所述图像为原始的输入图像。 6.根据权利要求1至5任一所述的方法，其特征在于，所述第一文本包括第一子文本和第二子文本，所述第二特征表示包括所述第一子文本对应的第一子特征、以及所述第二子文本对应的第二子特征；所述第一子特征不包含所述第一子文本在所述图像中的位置；所述第二子特征包含所述第二子文本在所述图像中的位置；所述根据所述第三特征表示，执行下游任务，包括：根据所述第三特征表示，预测所述第一子文本在所述图像中的第一位置；所述第一位置和对应的标注之间的相似度用于更新所述图像编码器以及所述目标编码器。 7.根据权利要求6所述的方法，其特征在于，所述图像包括多个图像块；所述第一位置为对所述第一子文本预测所在的图像块；所述标注为所述第一子文本真实所在的图像块。 8.根据权利要求1至7任一所述的方法，其特征在于，所述第一特征表示包括第三子特征和第四子特征；所述方法还包括：根据所述第四子特征、所述第四子特征在所述第一特征表示中的第二位置、以及所述第三子特征在所述第一特征表示中的第三位置，得到所述第三位置处的特征预测值；所述特征预测值和所述第三子特征之间的相似度用于更新所述图像编码器。 9.根据权利要求8所述的方法，其特征在于，所述根据所述第四子特征、所述第四子特征在所述第一特征表示中的第二位置、以及所述第三子特征在所述第一特征表示中的第三位置，得到所述第三位置处的特征预测值，包括：权　利　要　求　书 1/3 页 2 CN 115512005 A 2根据所述第四子特征、所述第四子特征在所述第一特征表示中的第二位置、以及所述第三子特征在所述第一特征表示中的第三位置，通过自注意力网络，得到第四特征表示；根据所述第四特征表示，通过预测网络，得到所述第三位置处的特征预测值。 10.一种数据处理方法，其特征在于，所述方法包括：获取图像；通过图像编码器，对所述图像进行处理，得到第一特征表示；通过文本编码器，对所述图像中包含的文本进行处理，得到第二特征表示；根据所述第一特征表示以及所述第二特征表示，通过目标编码器，得到第三特征表示；所述目标编码器用于实现特征表示之间的交互；根据所述第三特征表示，执行下游任务，得到执行结果。 11.一种数据处理装置，其特征在于，包括：获取模块，用于获取第一特征表示以及第二特征表示，所述第一特征表示为根据图像编码器对图像进行处理得到的图像特征得到，所述第二特征表示为第一文本的文本特征；所述第一文本为所述图像中包括的文本内容；编码模块，用于根据所述第一特征表示以及所述第二特征表示，通过目标编码器，得到第三特征表示；所述目标编码器用于实现特征表示之间的交互；任务执行模块，用于根据所述第三特征表示，执行下游任务，得到执行结果；所述执行结果和对应的标注之间的相似度以及所述第一特征表示和所述第二特征表示之间的相似度用于更新所述图像编码器。 12.根据权利要求11所述的装置，其特征在于，所述第二特征表示为通过文本编码器对所述第一文本进行处理得到的文本特征；所述第一特征表示和所述第二特征表示之间的相似度还用于更新所述文本编码器。 13.根据权利要求11或12所述的装置，其特征在于，所述第一特征表示和所述第二特征表示之间的相似度与图像中所蕴含的文本语义信息和文本自身的语义信息之间的相似度有关。 14.根据权利要求1 1至13任一所述的装置，其特征在于，所述第一文本为所述图像中包含的全部文本；或者，所述第一文本为所述图像中包含的全部文本中的部分。 15.根据权利要求1 1至14任一所述的装置，其特征在于，所述图像为从原始的输入图像中提取的部分图像区域，所述图像包括的文本为所述输入图像包含的文本的部分；或者，所述图像为原始的输入图像。 16.根据权利要求11至15任一所述的装置，其特征在于，所述第一文本包括第一子文本和第二子文本，所述第二特征表示包括所述第一子文本对应的第一子特征、以及所述第二子文本对应的第二子特征；所述第一子特征不包含所述第一子文本在所述图像中的位置；所述第二子特征包含所述第二子文本在所述图像中的位置；所述任务执行模块，具体用于：根据所述第三特征表示，预测所述第一子文本在所述图像中的第一位置；所述第一位置和对应的标注之间的相似度用于更新所述图像编码器以及所述目标编码器。权　利　要　求　书 2/3 页 3 CN 115512005 A 3

专利 一种数据处理方法及其装置

专利一种数据处理方法及其装置