(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210130332.6
(22)申请日 2022.02.11
(71)申请人 北京有竹居网络技 术有限公司
地址 101299 北京市平谷区林荫北街13号
信息大厦802室
(72)发明人 张文强 黄灿 王长虎
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 魏云鹿
(51)Int.Cl.
G06V 30/413(2022.01)
G06V 30/18(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/177(2020.01)
G06F 40/30(2020.01)
(54)发明名称
表格识别方法、 装置、 可读介质和电子设备
(57)摘要
本公开涉及一种表格识别方法、 装置、 可读
介质和电子设备, 该方法包括: 获取表 格图像, 根
据表格图像, 通过表格识别模型, 确定表格结构
信息, 其中, 表格识别模型用于获取表格图像对
应的文本语义图, 并根据表格图像和文本语义
图, 确定多模态特征图, 并根据多模态特征图, 对
表格图像中每个单元格进行检测, 得到每个单元
格的检测位置, 并根据检测位置和多模态特征
图, 确定每个单元格对应的节点特征, 并根据节
点特征, 确定表格结构信息。 本公开通过表格识
别模型利用多模态的节点特征进行表格结构识
别, 能够得到准确的表格结构信息, 并确保对不
同类型的表格的识别效果, 同时提高了对表格结
构识别的通用性以及生成的目标表格的准确性。
权利要求书3页 说明书13页 附图5页
CN 114463768 A
2022.05.10
CN 114463768 A
1.一种表格识别方法, 其特 征在于, 所述方法包括:
获取表格图像;
根据所述表格图像, 通过预先训练好的表格识别模型, 确定所述表格图像对应的表格
结构信息;
其中, 所述表格识别模型用于获取所述表格图像对应的文本语义图, 并根据所述表格
图像和所述文本语义图, 确定多模态特征图, 并根据所述多模态特征图, 对所述表格图像中
每个单元格进行检测, 得到每个所述单元格的检测位置, 并根据所述检测位置和所述多模
态特征图, 确定每个所述单元格对应的节点特征, 并根据所述节点特征, 确定所述表格结构
信息; 所述文本语义图包括每个所述单元格对应的文本语义特征, 所述节点特征包括所述
单元格对应的位置特 征、 图像特 征和文本语义特 征;
根据所述表格结构信息, 生成所述表格图像对应的目标表格。
2.根据权利要求1所述的方法, 其特征在于, 所述表格识别模型包括文本嵌入模块、 融
合模块、 位置检测模块、 特征确定模块和信息确定模块; 所述根据所述表格图像, 通过预先
训练好的表格识别模型, 确定所述表格图像对应的表格结构信息, 包括:
通过所述文本嵌入 模块根据所述表格图像, 确定所述文本语义图;
通过所述融合模块获取所述表格图像对应的图像特征以及所述文本语义图对应的文
本语义特征, 并根据所述表格图像对应的图像特征和所述文本语义图对应的文本语义特
征, 确定所述多模态特 征图;
通过所述位置检测模块 根据所述多模态特 征图, 确定每 个所述单 元格的检测位置;
通过所述特征确定模块根据 所述检测位置和所述多模态特征图, 确定每个所述单元格
对应的位置特征和每个所述单元格对应的多模态特征; 所述多模态特征包括所述单元格对
应的图像特 征和文本语义特 征;
通过所述信 息确定模块根据 所述节点特征, 确定每个所述单元格的单元格位置信 息以
及每两个相邻的所述单元格之 间的行列关系, 并将所述单元格位置信息以及所述行列关系
作为所述表格结构信息 。
3.根据权利要求2所述的方法, 其特征在于, 所述通过所述文本嵌入模块根据 所述表格
图像, 确定所述文本语义图, 包括:
通过所述文本嵌入模块利用预设识别算法, 识别所述表格图像中每个所述单元格的表
格内容文本, 以及每 个所述表格内容文本的文本位置;
获取每个所述表格内容文本的语义嵌入向量, 并根据所述语义嵌入向量和所述文本位
置, 生成所述文本语义图。
4.根据权利要求2所述的方法, 其特征在于, 所述融合模块包括第一特征提取网络、 第
二特征提取网络和归一化层; 所述通过所述融合模块 获取所述表格图像对应的图像特征以
及所述文本语义图对应的文本语义特征, 并根据所述表格图像对应的图像特征和所述文本
语义图对应的文本语义特 征, 确定所述多模态特 征图, 包括:
通过所述第 一特征提取网络对所述表格图像进行特征提取, 得到所述表格图像对应的
图像特征;
通过所述第 二特征提取网络对所述文本语义图进行特征提取, 得到所述文本语义图对
应的文本语义特 征;权 利 要 求 书 1/3 页
2
CN 114463768 A
2通过所述归一化层对所述表格图像对应的图像特征和所述文本语义图对应的文本语
义特征进 行逐元素相加, 得到融合特征, 并对所述融合特征进 行归一化处理, 得到所述多模
态特征图。
5.根据权利要求2所述的方法, 其特征在于, 所述特征确定模块包括嵌入层、 特征提取
子模块和融合子模块; 所述通过所述特征确定模块根据所述检测位置和所述多模态特征
图, 确定每 个所述单 元格对应的位置特 征和每个所述单 元格对应的多模态特 征, 包括:
通过所述嵌入层对每个所述单元格的检测位置进行位置编码, 得到每个所述单元格对
应的位置特 征;
根据所述特征提取子模块根据 所述多模态特征图和每个所述单元格的检测位置, 确定
每个所述单 元格对应的多模态特 征;
通过所述融合子模块对每个所述单元格对应的位置特征和该单元格对应的多模态特
征进行逐元素相加, 得到每 个所述单 元格对应的节点特 征。
6.根据权利要求2所述的方法, 其特征在于, 所述信息确定模块包括图神经网络、 第一
多层感知机和第二多层感知机; 所述通过所述信息确定模块根据所述节点特征, 确定每个
所述单元格的单元格位置信息以及每两个相 邻的所述单元格之 间的行列关系, 并将所述单
元格位置信息以及所述行列关系作为所述表格结构信息, 包括:
通过所述图神经网络对每个所述单元格对应的节点特征进行更新, 得到每个所述单元
格对应的更新后的节点特 征;
通过所述第 一多层感知机根据 所述更新后的节点特征, 确定每个所述单元格的单元格
位置信息;
通过所述第二多层感知机根据每两个相邻的所述单元格对应的所述更新后的节点特
征, 确定该两个相 邻的所述单元格对应的边界特征, 并根据所述边界特征, 确定每两个相 邻
的所述单 元格之间的行列关系。
7.根据权利要求1 ‑6中任一项所述的方法, 其特征在于, 所述根据所述表格结构信息,
生成所述表格图像对应的目标表格, 包括:
利用预设识别算法, 对所述表格图像进行识别, 得到每 个所述单 元格的表格内容文本;
根据所述表格结构信息和所述表格内容文本, 生成所述目标表格。
8.一种表格识别装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取表格图像;
处理模块, 用于根据 所述表格图像, 通过预先训练好的表格识别模型, 确定所述表格图
像对应的表格结构信息;
其中, 所述表格识别模型用于获取所述表格图像对应的文本语义图, 并根据所述表格
图像和所述文本语义图, 确定多模态特征图, 并根据所述多模态特征图, 对所述表格图像中
每个单元格进行检测, 得到每个所述单元格的检测位置, 并根据所述检测位置和所述多模
态特征图, 确定每个所述单元格对应的节点特征, 并根据所述节点特征, 确定所述表格结构
信息; 所述文本语义图包括每个所述单元格对应的文本语义特征, 所述节点特征包括所述
单元格对应的位置特 征、 图像特 征和文本语义特 征;
生成模块, 用于根据所述表格结构信息, 生成所述表格图像对应的目标表格。
9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行权 利 要 求 书 2/3 页
3
CN 114463768 A
3
专利 表格识别方法、装置、可读介质和电子设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:06上传分享