全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210009904.5 (22)申请日 2022.01.06 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 桑健顺 吴蓓 蒋益巧 郭豪  黄东晓 刘文强  (74)专利代理 机构 北京派特恩知识产权代理有 限公司 1 1270 代理人 侯艳华 胡春光 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 16/36(2019.01) (54)发明名称 虚拟场景的实体识别方法、 装置、 设备、 介质 及程序产品 (57)摘要 本申请提供了一种虚拟场景的实体识别方 法、 装置、 设备、 存储介质及计算机程序产品; 方 法包括: 针对虚拟场景对应的多个待识别实体, 获取各所述待识别实体的实体名称、 以及所述实 体名称的字符长度; 基于各所述待识别实体对应 的所述字符长度, 从所述多个待识别实体中筛选 出所述虚拟场景对应的至少一个内容实体; 基于 各所述待识别实体的实体名称, 分别以各所述内 容实体为聚类中心, 对所述多个待识别实体进行 聚类处理, 得到至少一个实体簇; 将各所述实体 簇中除所述内容实体以外的待识别实体, 作为用 于对相应实体簇中所述内容实体进行内容扩展 的可下载内容实体; 通过本申请, 能够提高虚拟 场景的实体的识别效率。 权利要求书4页 说明书19页 附图9页 CN 114330353 A 2022.04.12 CN 114330353 A 1.一种虚拟场景的实体识别方法, 其特 征在于, 所述方法包括: 针对虚拟场景对应的多个待识别实体, 获取各所述待识别实体的实体名称、 以及所述 实体名称的字符长度; 基于各所述待识别实体对应的所述字符长度, 从所述多个待识别实体中筛选出所述虚 拟场景对应的至少一个内容实体; 基于各所述待识别实体的实体名称, 分别以各所述内容实体为聚类中心, 对所述多个 待识别实体进行聚类处 理, 得到至少一个实体簇; 将各所述实体簇 中除所述内容实体以外的待识别实体, 作为用于对相应实体簇 中所述 内容实体进行内容扩展的可 下载内容实体。 2.如权利要求1所述的方法, 其特征在于, 所述基于各所述待识别实体对应的所述字符 长度, 从所述多个待识别实体中筛 选出所述虚拟场景对应的至少一个内容实体, 包括: 基于各所述待识别实体对应的所述字符长度, 从所述多个待识别实体中筛选出所述字 符长度最小的待识别实体, 并 将所述字符长度最小的待识别实体, 确定为所述虚拟场景对应的内容实体。 3.如权利要求1所述的方法, 其特征在于, 所述分别以各所述内容实体为聚类中心, 对 所述多个待识别实体进行聚类处 理, 得到至少一个实体簇之后, 所述方法还 包括: 当存在不属于所述实体簇的至少两个目标待识别实体时, 基于各所述目标待识别实体 对应的所述字符长度, 从所述至少两个目标待识别实体中筛 选出目标内容实体; 以各所述目标内容实体为聚类中心, 对所述至少两个目标待识别实体进行聚类处理, 得到至少一个目标实体簇; 循环执行上述操作, 直至各 所述待识别实体加入 对应的实体簇 。 4.如权利要求1所述的方法, 其特征在于, 所述内容实体的实体名称的字符长度为目标 长度; 所述基于各所述待识别实体的实体名称, 分别以各所述内容 实体为聚类中心, 对所述 多个待识别实体进行聚类处 理, 得到至少一个实体簇, 包括: 针对各所述内容实体分别执 行如下处 理, 以得到 至少一个实体簇: 针对各所述待识别实体的实体名称, 从所述实体名称的第一个字符开始, 截取字符长 度为所述目标长度的字符串; 将所述内容实体的实体名称分别与 各所述待识别实体对应的所述字符串进行比对, 得 到比对结果; 当所述比对结果表征存在与 所述内容实体的实体名称相同的目标字符串时, 将所述目 标字符串对应的目标待识别实体, 加入以所述内容实体为聚类中心的实体簇 。 5.如权利要求1所述的方法, 其特征在于, 所述内容实体的实体名称的字符长度为目标 长度; 所述方法还 包括: 针对各所述待识别实体的实体名称, 从所述实体名称的第一个字符开始, 截取字符长 度为所述目标长度的字符串; 构建包括各所述待识别实体所对应键值对的实体表; 其中, 所述键值对中的键为所述 待识别实体对应的所述字符串, 所述键值对中的值 为所述待识别实体的实体名称; 所述基于各所述待识别实体的实体名称, 分别以各所述内容实体为聚类中心, 对所述 多个待识别实体进行聚类处 理, 得到至少一个实体簇, 包括:权 利 要 求 书 1/4 页 2 CN 114330353 A 2针对各所述内容实体分别执 行如下处 理, 以得到 至少一个实体簇: 基于所述实体表, 将所述内容实体的实体名称分别与 各所述键值对中的所述键进行匹 配, 得到匹配结果; 当所述匹配结果表征所述实体表中, 存在与所述内容实体的实体名称相同的目标键 时, 将所述 目标键对应的值所指示的待识别实体, 加入以所述内容实体为聚类中心的实体 簇。 6.如权利要求1所述的方法, 其特征在于, 所述基于各所述待识别实体的实体名称, 分 别以各所述内容实体为聚类中心, 对所述多个待识别实体进行聚类处理, 得到至少一个实 体簇, 包括: 针对各所述内容实体分别执 行如下处 理, 以得到 至少一个实体簇: 分别确定各 所述待识别实体的实体名称与所述内容实体的实体名称间的名称相似度; 将所述名称相似度高于相似度阈值的待识别实体, 加入以所述内容实体为聚类中心的 实体簇。 7.如权利要求1所述的方法, 其特征在于, 所述基于各所述待识别实体的实体名称, 分 别以各所述内容实体为聚类中心, 对所述多个待识别实体进行聚类处理, 得到至少一个实 体簇, 包括: 针对各所述内容实体分别执 行如下处 理, 以得到 至少一个实体簇: 获取各所述待识别实体的实体名称的第 一名称向量、 以及所述内容实体的实体名称的 第二名称向量; 分别确定各 所述第一名称向量与所述第二名称向量间的向量距离; 将所述向量距离低于距离 阈值的第 一名称向量所对应的待识别实体, 加入以所述内容 实体为聚类中心的实体簇 。 8.如权利要求1所述的方法, 其特征在于, 所述将各所述实体簇中除所述内容实体以外 的待识别实体, 作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体, 包括: 针对各所述实体簇, 分别执 行如下处 理: 将所述实体簇中除所述内容实体以外的待识别实体, 作为候选可下载内容实体, 并获 取所述候选可下载内容实体的描述文本; 通过神经网络模型, 基于所述描述文本对所述候选可下载内容实体的实体类别进行预 测, 得到预测结果; 当所述预测结果表征所述候选可下载内容实体的实体类别为可下载内容实体类别时, 将所述候选可下载内容实体确定为用于对相 应实体簇中所述内容实体进行内容扩展的可 下载内容实体。 9.如权利要求8所述的方法, 其特 征在于, 所述方法还 包括: 当所述预测结果表征所述候选可下载内容实体的实体类别为内容实体类别时, 将所述 候选可下载内容实体作为所述实体簇中的候选内容实体; 确定所述内容实体的实体名称与 所述待识别实体的实体名称间的第 一字符匹配度, 并 确定所述 候选内容实体的实体名称与所述待识别实体的实体名称间的第二字符匹配度; 当所述第一字符匹配度小于所述第 二字符匹配度时, 更新所述实体簇中的内容实体为权 利 要 求 书 2/4 页 3 CN 114330353 A 3

.PDF文档 专利 虚拟场景的实体识别方法、装置、设备、介质及程序产品

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 虚拟场景的实体识别方法、装置、设备、介质及程序产品 第 1 页 专利 虚拟场景的实体识别方法、装置、设备、介质及程序产品 第 2 页 专利 虚拟场景的实体识别方法、装置、设备、介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。