专利 一种基于复杂背景图像的倾斜字符识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211367911.9 (22)申请日 2022.11.03 (71)申请人武昌理工学院地址 430299 湖北省武汉市江夏区庙山经济开发区江夏大道１ 6号 (72)发明人刘逢刚　 (74)专利代理机构武汉世跃专利代理事务所 (普通合伙) 42273 专利代理师万仲达 (51)Int.Cl. G06V 30/146(2022.01) G06V 30/16(2022.01) G06V 30/164(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于复杂背景图像的倾斜字符识别方法 (57)摘要本发明公开了一种基于复杂背景图像的倾斜字符识别方法，涉及深度学习及图像识别技术领域，本方法包括如下步骤：（1）获取待识别的图像。（2）采用预处理模块过滤掉图片背景冗余信息。（3）通过字符检测模块精确的定位到字符区域。（4）通过字符矫正模块对字符区域进行矫正，得到矫正后的字符图像。（5）通过字符识别模块对矫正后的字符图像进行字符预测。解决了现有技术中对于复杂背景图像的倾斜字符往往识别效果较差或者无法识别的问题，提升了基于复杂背景图像的倾斜字符识别的准确率。权利要求书3页说明书6页附图2页 CN 115439857 A 2022.12.06 CN 115439857 A 1.一种基于复杂背景图像的倾斜字符识别方法，其特征在于，包括如下步骤：（1）获取待识别的图像；（2）采用预处理模块过滤掉图片背景冗余信息；（3）通过字符检测模块精确的定位到字符区域；（4）通过字符矫正模块对字符区域进行矫正，得到矫正后的字符图像；（5）通过字符识别模块对矫正后的字符图像进行字符预测。 2.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于，所述步骤（2）包括：首先对图像进行预处理，预处理分为两步，首先通过脉冲检测器实现噪声检测，然后根据检测结果通过标准中值滤波器和中心加权中值滤波器进行滤波操作以去除噪声；然后将预处理的图像进行小波分解得到4个与原图尺寸大小一样并且频率为f1、 f2、 f3、 f4的子带图，而后将这四个子带图分别保存下来送入到卷积神经网络中完成各自的训练，以此得到4 个卷积神经网络模型，实现在频率为f1、 f2、 f3、 f4的子带图上对各自含有的噪声成分进行剔除；最后再通过小波逆变换重构将四部分子带图重新合成得到最终的去噪结果。 3.根据权利要求2所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：所述卷积神经网络引入了空洞卷积，在不增加参数量的前提下扩展卷积核的感受野，引入残差模块缓解网络退化和梯度消失问题；首先通过多尺度特征提取模块对图像进行浅层特征提取，多尺度特征提取模块分为四个分支，第一个分支由1 ×1卷积和Prelu层构成，第二个分支由3×3卷积和Prelu层构成，第三个分支由3 ×3且扩张率为2的空洞卷积和Prelu层构成，第四个分支由3×3且扩张率为3的空洞卷积和Prelu层构成，最后将4条支路进行拼接输出；然后通过5个卷积残差模块进行深度残差学习，卷积残差模块分为残差部分和跳跃连接，残差部分包括两个3 ×3的卷积层，卷积层后使用批归一化层和 PReLU 层，跳跃连接采用恒等映射，输入跳过两层卷积层将信息传递到输出处，卷积残差模块采用恒等映射的方式进行局部跳跃连接；最后使用一个卷积层用于特征图重建，得到图像的噪声，然后从噪声图像中移除噪声得到干净图像。 4.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：步骤（3）中的字符检测模块是为了更加精确的定位到字符区域，输入为待矫正图像，字符检测模块分为三个阶段，在第一个阶段中，输入为待矫正的图片，首先对图像进行1次卷积和最大池化操作，再经过五个多深度融合残差块操作，其中多深度融合残差块分为三条支路，左边路径由1 ×1卷积和BN层构成，中间路径由1 ×1卷积、 LN层、 3 ×3卷积、 GELU层、 1 ×1卷积所构成，右边路径由两个3 ×3卷积、 LN层、 3 ×3卷积、 GELU层和一个1 ×1卷积构成，最后将三条支路进行联合输出，并将输出的特征图转换为特征序列；在第二阶段中，输入为特征序列，首先通过双层双向LSTM用来捕获特征序列之间的长期依赖关系从而得到序列来预测控制点，最后利用全连接层得到参数，输出为所有字符的控制点的预测，并将参数转换为文字区域矫正过程所需的变换矩阵Aβ。 5.根据权利要求4所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：字符检测模块所使用的损失函数如下：权　利　要　求　书 1/3 页 2 CN 115439857 A 2其中， a表示预测点与真实点之间的差值， S为控制点个数，为预测控制点的坐标， qi 为真实的坐标。 6.根据权利要求4所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：步骤（4）中的字符矫正模块包含网格生成器和差分图像采样，网格生成器是利用输出变换矩阵Aβ将输入图和输出图坐标相对应，可视为将图像进行空间矩阵变换处理的坐标系；差分图像采样是将空间矩阵变换后的输出图进行整流采样处理，结合图像输入图进行插值计算,通过特征映射判断输入图中的文字/非文字区域，非文字区域直接采取置0处理，得到特征图像，然后计算得出倾斜文字的矫正结果。 7.根据权利要求6所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：网格生成器首先通过变换矩阵Aβ生成一个网格，网格上任意一个位置都有两个值，表示其对应输入图的坐标，利用该网格在输入图上进行采样获得输出图，要获取输出图某一个位置上的值，首先通过网格找到原图对应的坐标，再通过差分图像采样得到原图对应坐标的值，最后填充到输出图上，对输出图的每个位置进行如上操作则可得到完整的输出图。 8.根据权利要求1所述的一种基于复杂背景图像的倾斜字符识别方法，其特征在于：步骤（5）中的字符识别模块由基于稠密卷积和混合注意力的编码器和由基于多重注意力机制的解码器所构成，用于输出预测的字符序列，最后使用损失函数对参数进行优化；其中编码器首先通过7 ×7的卷积层，然后采用三个稠密卷积模块，稠密卷积模块由1 × 1和3×3的卷积堆叠而成，稠密卷积模块每一层的输出都会作为接下来任何一层的输入，每一层的输入也会是前面所有层的输出的总和；稠密卷积模块通过过渡层连接，过渡层的意义在于保证每个稠密块之间通道数达到一致，过渡层由批量标准化层、 1 ×1卷积层和2 ×2 平均池化层组成；然后采用通道注意力模块，使字符识别模块能更加准确地关注到图片中关键特征的类型,完成特征的自适应学习，该通道注意力模块首先进行平均池化和最大池化，再利用共享的全连接层对两个结果分别进行处理，将处理的结果进行相加，最后通过 sigmoid函数计算相应的权重系数并与原特征图相乘得到第一目标特征图；最后采用空间注意力模块，使字符识别模块更多的关注到主要特征在图片中的位置,该空间注意力模块首先在通道上进行平均池化和最大池化，并把结果叠加起来，再利用一个卷积层调整通道数，最后通过sigmoid函数得到相应的权重系数并与第一目标特征图相乘得到第二目标特征图，并在第二目标特征图进行位置编码输入到解码器；其中解码器为自循环结构，首先是将输入的字符转化为字符向量矩阵，并使用位置编码让输入数据携带位置信息；然后通过三个子模块，包括用于输出字符的掩码多头注意力模块、用于链接输入图片与输出字符的多头注意力模块和用于加深模型的前馈网络，三个子模块后均连接一个Add&Norm层， Add表示残差连接用于防止网络退化， Norm表示 Layer Normalization，用于对每一层的激活值进行归一化，最后通过一个线性层和Softmax 层进权　利　要　求　书 2/3 页 3 CN 115439857 A 3

专利 一种基于复杂背景图像的倾斜字符识别方法

专利一种基于复杂背景图像的倾斜字符识别方法