专利 模型训练方法、预测方法、设备、存储介质及程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210602521.9 (22)申请日 2022.05.30 (71)申请人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人田俊峰　蒋勇　孙增辉　 (74)专利代理机构北京同钧律师事务所 16 037 专利代理师吴梅锡　许怀远 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/22(2022.01) G06V 10/82(2022.01)G06V 30/14(2022.01) G06V 30/148(2022.01) G06V 30/19(2022.01) G06N 3/04(2006.01) (54)发明名称模型训练方法、预测方法、设备、存储介质及程序产品 (57)摘要本申请提供一种模型训练方法、预测方法、设备、存储介质及程序产品，其中方法包括：根据待处理的图像和文本，通过视觉编码模块确定图像对应的视觉表示特征，并通过语言编码模块确定文本对应的语言表示特征，根据视觉表示特征和语言表示特征，确定图像中各个图像块和/或文本中各个字符对应的注意力值，并根据注意力值确定注意力损失，其中，图像块的注意力值用于表示该图像块对文本预测的贡献，字符的注意力值用于表示该字符对图像预测的贡献，根据视觉表示特征和语言表示特征，通过融合模块，确定图像和/或文本对应的预测结果，并根据预测结果确定预测损失，根据注意力损失和预测损失，调整模型的参数，可以提升模型的准确性。权利要求书2页说明书20页附图7页 CN 114898192 A 2022.08.12 CN 114898192 A 1.一种模型训练方法，其特征在于，所述模型包括视觉编码模块、语言编码模块以及融合模块；所述方法包括：根据待处理的图像和文本，通过视觉编码模块确定所述图像对应的视觉表示特征，并通过语言编码模块确定所述文本对应的语言表示特征；根据所述视觉表示特征和所述语言表示特征，确定所述图像中各个图像块和/或所述文本中各个字符对应的注意力值，并根据注意力值确定注意力损失；其中，图像块的注意力值用于表示该图像块对文本预测的贡献，字符的注意力值用于表示该字符对图像预测的贡献；根据所述视觉表示特征和所述语言表示特征，通过融合模块，确定所述图像和/或所述文本对应的预测结果，并根据预测结果确定预测损失；根据所述注意力损失和预测损失，调整所述模型的参数。 2.根据权利要求1所述的方法，其特征在于，根据所述视觉表示特征和所述语言表示特征，确定所述图像中各个图像块和/或所述文本中各个字符对应的注意力值，包括：根据所述图像中多个图像块的视觉表示特征与所述文本中多个字符的语言表示特征进行计算，得到交叉注意力矩阵，所述交叉注意力矩阵中的元素用于表示图像块对字符的贡献和/或字符对图像块的贡献；针对任一图像块，将该图像块对各字符的贡献相加，得到该图像块对应的注意力值；和/或，针对任一字符，将该字符对各图像块的贡献相加，得到该字符对应的注意力值。 3.根据权利要求1所述的方法，其特征在于，根据注意力值确定注意力损失，包括：根据各个图像块的注意力值及对应的标签，和/或，各个字符的注意力值及对应的标签，确定注意力损失；其中，确定注意力损失时使用的标签与确定预测损失时使用的标签相匹配。 4.根据权利要求3所述的方法，其特征在于，根据各个图像块的注意力值及对应的标签，和/或，各个字符的注意力值及对应的标签，确定注意力损失，包括：根据各个图像块的注意力值及对应的标签，计算第一交叉熵损失；根据各个字符的注意力值及对应的标签，计算第二交叉熵损失；根据所述第一交叉熵损失和第二交叉熵损失，确定对应的注意力损失。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，所述模型还包括视觉预测模块和/或语言预测模块；根据所述视觉表示特征和所述语言表示特征，通过融合模块，确定所述图像和/或所述文本对应的预测结果，包括：将所述视觉表示特征和所述语言表示特征输入到融合模块，得到多模态表示特征；根据所述多模态表示特征，通过视觉预测模块得到各图像块的预测结果，和/或，通过语言预测模块得到各字符的预测结果。 6.根据权利要求1 ‑4任一项所述的方法，其特征在于，根据所述注意力损失和预测损失，调整所述模型的参数，包括：根据所述注意力损失，调整所述视觉编码模块和语言编码模块的参数；根据所述预测损失，调整所述模型中各个模块的参数。 7.一种模型训练方法，其特征在于，所述模型包括视觉编码模块、语言编码模块以及融合模块；所述方法包括：权　利　要　求　书 1/2 页 2 CN 114898192 A 2根据商品对应的商品图像和商品标题，通过视觉编码模块确定所述商品图像对应的视觉表示特征，并通过语言编码模块确定所述商品标题对应的语言表示特征；根据所述视觉表示特征和所述语言表示特征，确定所述商品图像中各个图像块和/或所述商品标题中各个字符对应的注意力值，并根据注意力值确定注意力损失；其中，图像块的注意力值用于表示该图像块对文本预测的贡献，字符的注意力值用于表示该字符对图像预测的贡献；根据所述视觉表示特征和所述语言表示特征，通过融合模块，确定所述商品图像和/或所述商品标题对应的预测结果，并根据预测结果确定预测损失；其中，所述商品图像对应的预测结果用于定位所述商品图像中的商品主体，所述商品标题对应的预测结果用于定位所述商品标题的中心词；根据所述注意力损失和预测损失，调整所述模型的参数。 8.一种模型训练方法，其特征在于，所述模型包括第一模态编码模块、第二模态编码模块以及融合模块；所述方法包括：通过第一模态编码模块确定第一模态信息对应的第一模态表示特征，并通过第二模态编码模块确定第二模态信息对应的第二模态表示特征；根据所述第一模态表示特征和所述第二模态表示特征，确定第一模态信息中各个第一子模态信息和/或第二模态信息中各个第二子模态信息对应的注意力值，并根据注意力值确定注意力损失；其中，第一子模态信息的注意力值用于表示该第一子模态信息对第二模态信息预测的贡献，第二子模态信息的注意力值用于表示该第二子模态信息对第一模态信息预测的贡献；根据所述第一模态表示特征和所述第二模态表示特征，通过融合模块，确定所述第一模态信息和/或第二模态信息的预测结果及对应的预测损失；根据所述注意力损失和预测损失，调整所述模型的参数。 9.一种预测方法，其特征在于，包括：获取待处理的第一模态信息和第二模态信息；其中，所述第一模态信息和所述第二模态信息包括下述任意两项信息：图像、文本、音频、视频、传感信息；根据所述待处理的第一模态信息和第二模态信息，通过多模态交互模型，得到所述第一模态信息和/或所述第二模态信息对应的预测结果；其中，所述多模态交互模型是基于权利要求1 ‑8任一项所述的方法训练得到的。 10.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行权利要求1 ‑9任一项所述的方法。 11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1 ‑9任一项所述的方法。 12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑9任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114898192 A 3

专利 模型训练方法、预测方法、设备、存储介质及程序产品

专利模型训练方法、预测方法、设备、存储介质及程序产品