(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211365130.6
(22)申请日 2022.11.03
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 乔美娜 吕鹏原 刘珊珊 章成全
姚锟
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 杨静
(51)Int.Cl.
G06V 30/10(2022.01)
G06V 30/196(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)G06N 3/04(2006.01)
(54)发明名称
生成、 模型的训练、 识别方法、 装置、 电子设
备及介质
(57)摘要
本发明提供了一种生成、 模型的训练、 识别
方法、 装置、 电子设备及介质, 涉及人工智能技术
领域, 尤其涉及深度学习、 图像处理、 计算机视觉
技术领域, 可应用于光学字符识别等场景。 具体
实现方案为: 对第一文本图像中的字符串进行字
符处理操作, 得到第一中间字符串, 其中, 第一中
间字符串的宽度与预定有效字符宽度之间的关
系满足第一预定条件, 预定有效字符宽度是根据
第一文本图像的尺寸与预定系数确定的; 在确定
第一中间字符串的宽度与第一文本图像的尺寸
之间不满足第二预定条件的情况下, 对第一中间
字符串进行占位符处理操作, 得到用于作为样本
数据的目标字符串, 其中, 目标字符串的宽度与
第一文本图像的尺寸之间的关系满足第二预定
条件。
权利要求书5页 说明书25页 附图11页
CN 115471840 A
2022.12.13
CN 115471840 A
1.一种样本数据生成方法, 包括:
对第一文本图像中的字符串进行字符处理操作, 得到第 一中间字符串, 其中, 所述第一
中间字符串的宽度与预定有效字符宽度之 间的关系满足第一预定条件, 所述预定有效字符
宽度是根据所述第一文本图像的尺寸与预定系 数确定的, 所述预定系 数是大于0且小于或
等于1的数值; 以及
在确定所述第一中间字符串的宽度与所述第一文本 图像的尺寸之间不满足第二预定
条件的情况下, 对所述第一中间字符串进行占位符处理操作, 得到用于作为样本数据的目
标字符串, 其中, 所述 目标字符串的宽度与所述第一文本图像的尺寸之间的关系满足所述
第二预定条件。
2.根据权利要求1所述的方法, 其中, 所述对第 一文本图像中的字符串进行字符处理操
作, 得到第一中间字符串, 包括:
对所述第一文本图像中的字符串 进行占位符插 入操作, 得到第二中间字符串; 以及
对所述第二中间字符串 进行重复操作, 得到所述第一中间字符串。
3.根据权利要求2所述的方法, 其中, 所述对所述第 一文本图像中的字符串进行占位符
插入操作, 得到第二中间字符串, 包括:
在确定所述第 一文本图像中的字符串中存在相邻 两个字符是相同字符的情况下, 在目
标位置插入第一预定补充占位符以及在所述字符串的其他任意位置插入所述第一预定补
充占位符, 得到所述第二中间字符串;
其中, 所述目标位置是所述相邻两个字符之间的位置, 所述其他任意位置是所述字符
串中除所述目标位置以外的任意 位置。
4.根据权利要求3所述的方法, 还 包括:
在确定所述字符串中不存在相邻 两个字符是相同字符的情况下, 随机在所述第 一文本
图像中的字符串中插 入所述第一预定补充占位符, 得到所述第二中间字符串。
5.根据权利要求2~4中任一项所述的方法, 其中, 所述对所述第二中间字符串进行重复
操作, 得到所述第一中间字符串, 包括:
随机对所述第二中间字符串 进行重复操作, 得到所述第一中间字符串。
6.根据权利要求1~4中任一项所述的方法, 其中, 所述对所述第一中间字符串进行占位
符处理操作, 得到用于作为样本数据的目标字符串, 包括:
在所述第一中间字符串之后进行占位符补充操作, 得到用于作为所述样本数据的目标
字符串。
7.根据权利要求6所述的方法, 其中, 所述在所述第 一中间字符串之后进行占位符补充
操作, 得到所述目标字符串, 包括:
在所述第一中间字符串之后添加第 二预定补充占位符, 得到用于作为所述样本数据的
目标字符串。
8.根据权利要求1~4中任一项所述的方法, 其中, 所述对第 一文本图像 中的字符串进行
字符处理操作, 得到第一中间字符串包括:
调用样本数据生成策略, 其中, 所述样本数据生成策略是根据第二文本 图像的文本识
别信息构建的; 以及
利用所述样本数据生成策略, 对所述第一文本 图像中的字符串进行字符处理操作, 得权 利 要 求 书 1/5 页
2
CN 115471840 A
2到所述第一中间字符串。
9.根据权利要求8所述的方法, 还 包括:
根据所述第 二文本图像进行文本识别得到的文本识别信 息, 确定有 效文本识别信 息与
补充文本识别信息之 间的位置关系, 其中, 所述有效文本识别信息包括有效字符, 所述补充
文本识别 信息包括第二预定补充占位符且不包括所述有效字符; 以及
根据所述有 效文本识别信 息与所述补充文本识别信 息之间的位置关系, 构建所述样本
数据生成策略。
10.根据权利要求9所述的方法, 其中, 所述根据所述第二文本图像进行文本识别得到
的文本识别 信息, 确定有效文本识别 信息与补充 文本识别 信息之间的位置关系, 包括:
对所述第二文本图像进行文本识别, 得到所述第二文本图像的文本识别 信息;
对所述文本识别 信息进行有效字符去重操作, 得到中间文本识别 信息;
对所述中间文本识别信 息进行分析, 得到所述有效文本识别信 息的位置信 息和所述补
充文本识别 信息的位置信息; 以及
根据所述有 效文本识别信 息的位置信 息和所述补充文本识别信 息的位置信 息, 确定所
述有效文本识别 信息与所述补充 文本识别 信息之间的位置关系。
11.根据权利要求9或10所述的方法, 还 包括:
根据所述有效文本识别 信息的位置信息, 确定所述有效文本识别 信息的宽度; 以及
根据所述有效文本识别 信息的宽度和所述第二文本图像的尺寸, 确定所述预定系数。
12.根据权利要求1~4中任一项所述的方法, 还 包括:
对所述第 一文本图像中的原始字符串进行数据增强操作, 得到所述字符串, 其中, 所述
数据增强操作包括以下至少之一: 掩码 操作和替换操作。
13.一种文本语义表征模型的训练方法, 包括:
利用根据权利要求1~12中任一项所述的方法, 生成目标字符串; 以及
利用所述目标字符串训练第一深度学习模型, 得到所述文本语义表征模型。
14.一种文本语义表征信息生成方法, 包括:
获取第一目标文本图像的第一文本识别 信息; 以及
将所述第一文本识别 信息输入文本语义表征模型, 得到文本语义表征信息;
其中, 所述文本语义表征模型 是利用根据权利要求13所述的方法训练得到的。
15.一种文本识别模型的训练方法, 包括:
将样本文本图像输入第二深度学习模型, 得到样本文本识别 信息;
将所述样本文本识别 信息输入文本语义表征模型, 得到样本文本语义表征信息;
对所述样本文本语义表征信息进行解码, 得到样本文本语义信息; 以及
利用所述样本文本语义信 息训练所述第 二深度学习 模型和所述文本语义表征模型, 得
到所述文本识别模型;
其中, 所述文本语义表征模型 是利用根据权利要求13所述的方法训练得到的。
16.一种文本识别方法, 包括:
获取第二目标文本图像; 以及
将所述第二目标文本图像输入文本识别模型, 得到第二文本识别 信息;
其中, 所述文本识别模型 是利用根据权利要求15所述的方法训练得到的。权 利 要 求 书 2/5 页
3
CN 115471840 A
3
专利 生成、模型的训练、识别方法、装置、电子设备及介质
文档预览
中文文档
42 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共42页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:58上传分享