(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211367911.9
(22)申请日 2022.11.03
(71)申请人 武昌理工学院
地址 430299 湖北省武汉市江夏区庙山经
济开发区江夏大道1 6号
(72)发明人 刘逢刚
(74)专利代理 机构 武汉世跃专利代理事务所
(普通合伙) 42273
专利代理师 万仲达
(51)Int.Cl.
G06V 30/146(2022.01)
G06V 30/16(2022.01)
G06V 30/164(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于复杂背景图像的倾斜字符识别方
法
(57)摘要
本发明公开了一种基于复杂背景图像的倾
斜字符识别方法, 涉及深度学习及图像识别技术
领域, 本方法包括如下步骤: (1) 获取待识别的 图
像。 (2) 采用预处理模块过滤掉图片背景冗余信
息。 (3) 通过字符检测模块精确的定位到字符区
域。 (4) 通过字符矫正模块对字符区域进行矫正,
得到矫正后的字符图像。 (5) 通过字符识别模块
对矫正后的字符图像进行字 符预测。 解决了现有
技术中对于复杂背景图像的倾斜字符往往识别
效果较差或者无法识别的问题, 提升了基于复杂
背景图像的倾 斜字符识别的准确率。
权利要求书3页 说明书6页 附图2页
CN 115439857 A
2022.12.06
CN 115439857 A
1.一种基于复杂背景图像的倾 斜字符识别方法, 其特 征在于, 包括如下步骤:
(1) 获取待识别的图像;
(2) 采用预处 理模块过 滤掉图片背景冗余信息;
(3) 通过字符检测模块精确的定位到 字符区域;
(4) 通过字符矫 正模块对字符区域进行矫 正, 得到矫 正后的字符图像;
(5) 通过字符识别模块对矫 正后的字符图像进行字符预测。
2.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于, 所
述步骤 (2) 包括:
首先对图像进行预处理, 预处理分为两步, 首先通过脉冲检测器实现噪声检测, 然后根
据检测结果通过标准中值滤波器和中心加权中值滤波器进 行滤波操作以去除噪声; 然后将
预处理的图像进行小波分解得到4个与原图尺寸大小一样 并且频率为f1、 f2、 f3、 f4的子带
图, 而后将这四个子带图分别保存下来送入到卷积神经网络中完成各自的训练, 以此得到4
个卷积神经网络模型, 实现在频率为f1、 f2、 f3、 f4的子带图上对各自含有的噪声成分进行
剔除; 最后再通过小 波逆变换重构将四部分子带图重新 合成得到最终的去噪结果。
3.根据权利要求2所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于: 所
述卷积神经网络引入了空洞卷积, 在不增加 参数量的前提下扩展卷积核的感受野, 引入残
差模块缓解网络退化和梯度消失问题; 首先通过多尺度特征提取模块对图像进行浅层特征
提取, 多尺度特征提取模块分为四个分支, 第一个分支由1 ×1卷积和Prelu层构成, 第二个
分支由3×3卷积和Prelu层构成, 第三个分支由3 ×3且扩张率为2的空洞卷积和Prelu层构
成, 第四个 分支由3×3且扩张率为3的空洞卷积和Prelu层构成, 最后将4条支路进 行拼接输
出; 然后通过5个卷积残差模块进行深度残差学习, 卷积残差模块分为残差部分和跳跃连
接, 残差部分包括两个3 ×3的卷积层, 卷积层后使用批归一化层和 PReLU 层, 跳跃连接采
用恒等映射, 输入跳过两层卷积层将信息传递到输出处, 卷积残差模块采用恒等映射的方
式进行局部跳跃连接; 最后使用一个卷积层用于特征图重 建, 得到图像的噪声, 然后从噪声
图像中移除噪声得到 干净图像。
4.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于: 步
骤 (3) 中的字 符检测模块是为了更加精确的定位到字符区域, 输入为待矫正图像, 字符检测
模块分为三个阶段, 在第一个阶段中, 输入为待矫正的图片, 首先对图像进行1次卷积和最
大池化操作, 再经过五个多深度融合残差块操作, 其中多深度融合残差块分为三条支路, 左
边路径由1 ×1卷积和BN层构成, 中间路径由1 ×1卷积、 LN层、 3 ×3卷积、 GELU层、 1 ×1卷积所
构成, 右边路径由两个3 ×3卷积、 LN层、 3 ×3卷积、 GELU层和一个1 ×1卷积构成, 最后将三条
支路进行联合输出, 并将输出 的特征图转换为特征序列; 在第二阶段中, 输入为特征序列,
首先通过双层双向LSTM用来捕获特征序列之间的长期依赖关系从而得到序列来预测控制
点, 最后利用全连接层得到参数, 输出为所有字符的控制点的预测, 并将参数转换为文字区
域矫正过程所需的变换矩阵Aβ。
5.根据权利要求4所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于: 字
符检测模块所使用的损失函数如下:权 利 要 求 书 1/3 页
2
CN 115439857 A
2其中, a表示预测点与真实点之间的差值, S为控制点个数,
为预测控制点的坐标, qi
为真实的坐标。
6.根据权利要求4所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于: 步
骤 (4) 中的字符矫正模块包含网格生成器和差分图像采样, 网格生成器是利用输出变换矩
阵Aβ将输入图和输出 图坐标相对应, 可视为将图像进行空间矩阵变换处理的坐标系; 差分
图像采样是将空间矩阵变换后的输出图进行整流采样处理, 结合图像输入图进行插值计
算,通过特征映射判断输入图中的文字/非文字区域, 非文字区域直接采 取置0处理, 得到特
征图像, 然后计算得 出倾斜文字的矫 正结果。
7.根据权利要求6所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于: 网
格生成器首先通过变换矩阵Aβ生成一个网格, 网格上任意一个位置都有两个值, 表示其对
应输入图的坐标, 利用该网格在输入图上进行采样获得输出图, 要获取输出图某一个位置
上的值, 首先通过网格找到原图对应的坐标, 再通过差 分图像采样得到原图对应坐标的值,
最后填充到 输出图上, 对输出图的每 个位置进行如上操作则可 得到完整的输出图。
8.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法, 其特征在于: 步
骤 (5) 中的字符识别模块由基于稠 密卷积和混合注意力的编 码器和由基于多重注意力机制
的解码器所构成, 用于 输出预测的字符序列, 最后使用损失函数对参数进行优化;
其中编码器首先通过7 ×7的卷积层, 然后采用三个稠密卷积模块, 稠密卷积模块由1 ×
1和3×3的卷积堆叠而成, 稠 密卷积模块每一层的输出都会作为接下来任何一层的输入, 每
一层的输入也会是前面所有层的输出 的总和; 稠密卷积模块通过过渡层连接, 过渡层的意
义在于保证每个稠密块之间通道数达到一致, 过渡层由批量标准化层、 1 ×1卷积层和2 ×2
平均池化层组成; 然后采用通道注意力模块, 使字符识别模块能更加 准确地关注到图片 中
关键特征 的类型,完成特征 的自适应学习, 该通道注意力模块首先进行平均池化和 最大池
化, 再利用共享的全连接层对两个结果分别进行处理, 将处理的结果进行相加, 最后通过
sigmoid函数计算相应的权重系数并与原特征图相乘得到第一目标特征图; 最后采用空间
注意力模块, 使字符识别模块更多的关注到主要特征在图片 中的位置,该空间注意力模块
首先在通道上进行平均池化和最大池化, 并把结果叠加 起来, 再利用一个卷积层调整通道
数, 最后通过sigmoid函数得到相应的权重系数并与第一目标特征图相乘得到第二目标特
征图, 并在第二目标 特征图进行位置编码输入到解码器;
其中解码器为自循环结构, 首先是将输入的字符转化为字符向量矩阵, 并使用位置编
码让输入数据携带位置信息; 然后通过三个子模块, 包括用于输出字符的掩码多头注意力
模块、 用于链接输入图片与输出字符的多头注意力模块和用于加深模型 的前馈网络, 三个
子模块后均连接一个Add&Norm层, Add表示残差连接用于 防止网络退化, Norm表示 Layer
Normalization, 用于对每一层的激活值进行归一化, 最后通过一个线性层和Softmax 层进权 利 要 求 书 2/3 页
3
CN 115439857 A
3
专利 一种基于复杂背景图像的倾斜字符识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:57上传分享