专利虚拟场景的实体识别方法、装置、设备、介质及程序产品

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210009904.5 (22)申请日 2022.01.06 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人桑健顺　吴蓓　蒋益巧　郭豪　黄东晓　刘文强　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 代理人侯艳华　胡春光 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 16/36(2019.01) (54)发明名称虚拟场景的实体识别方法、装置、设备、介质及程序产品 (57)摘要本申请提供了一种虚拟场景的实体识别方法、装置、设备、存储介质及计算机程序产品；方法包括：针对虚拟场景对应的多个待识别实体，获取各所述待识别实体的实体名称、以及所述实体名称的字符长度；基于各所述待识别实体对应的所述字符长度，从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体；基于各所述待识别实体的实体名称，分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇；将各所述实体簇中除所述内容实体以外的待识别实体，作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体；通过本申请，能够提高虚拟场景的实体的识别效率。权利要求书4页说明书19页附图9页 CN 114330353 A 2022.04.12 CN 114330353 A 1.一种虚拟场景的实体识别方法，其特征在于，所述方法包括：针对虚拟场景对应的多个待识别实体，获取各所述待识别实体的实体名称、以及所述实体名称的字符长度；基于各所述待识别实体对应的所述字符长度，从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体；基于各所述待识别实体的实体名称，分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇；将各所述实体簇中除所述内容实体以外的待识别实体，作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体。 2.如权利要求1所述的方法，其特征在于，所述基于各所述待识别实体对应的所述字符长度，从所述多个待识别实体中筛选出所述虚拟场景对应的至少一个内容实体，包括：基于各所述待识别实体对应的所述字符长度，从所述多个待识别实体中筛选出所述字符长度最小的待识别实体，并将所述字符长度最小的待识别实体，确定为所述虚拟场景对应的内容实体。 3.如权利要求1所述的方法，其特征在于，所述分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇之后，所述方法还包括：当存在不属于所述实体簇的至少两个目标待识别实体时，基于各所述目标待识别实体对应的所述字符长度，从所述至少两个目标待识别实体中筛选出目标内容实体；以各所述目标内容实体为聚类中心，对所述至少两个目标待识别实体进行聚类处理，得到至少一个目标实体簇；循环执行上述操作，直至各所述待识别实体加入对应的实体簇。 4.如权利要求1所述的方法，其特征在于，所述内容实体的实体名称的字符长度为目标长度；所述基于各所述待识别实体的实体名称，分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇，包括：针对各所述内容实体分别执行如下处理，以得到至少一个实体簇：针对各所述待识别实体的实体名称，从所述实体名称的第一个字符开始，截取字符长度为所述目标长度的字符串；将所述内容实体的实体名称分别与各所述待识别实体对应的所述字符串进行比对，得到比对结果；当所述比对结果表征存在与所述内容实体的实体名称相同的目标字符串时，将所述目标字符串对应的目标待识别实体，加入以所述内容实体为聚类中心的实体簇。 5.如权利要求1所述的方法，其特征在于，所述内容实体的实体名称的字符长度为目标长度；所述方法还包括：针对各所述待识别实体的实体名称，从所述实体名称的第一个字符开始，截取字符长度为所述目标长度的字符串；构建包括各所述待识别实体所对应键值对的实体表；其中，所述键值对中的键为所述待识别实体对应的所述字符串，所述键值对中的值为所述待识别实体的实体名称；所述基于各所述待识别实体的实体名称，分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇，包括：权　利　要　求　书 1/4 页 2 CN 114330353 A 2针对各所述内容实体分别执行如下处理，以得到至少一个实体簇：基于所述实体表，将所述内容实体的实体名称分别与各所述键值对中的所述键进行匹配，得到匹配结果；当所述匹配结果表征所述实体表中，存在与所述内容实体的实体名称相同的目标键时，将所述目标键对应的值所指示的待识别实体，加入以所述内容实体为聚类中心的实体簇。 6.如权利要求1所述的方法，其特征在于，所述基于各所述待识别实体的实体名称，分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇，包括：针对各所述内容实体分别执行如下处理，以得到至少一个实体簇：分别确定各所述待识别实体的实体名称与所述内容实体的实体名称间的名称相似度；将所述名称相似度高于相似度阈值的待识别实体，加入以所述内容实体为聚类中心的实体簇。 7.如权利要求1所述的方法，其特征在于，所述基于各所述待识别实体的实体名称，分别以各所述内容实体为聚类中心，对所述多个待识别实体进行聚类处理，得到至少一个实体簇，包括：针对各所述内容实体分别执行如下处理，以得到至少一个实体簇：获取各所述待识别实体的实体名称的第一名称向量、以及所述内容实体的实体名称的第二名称向量；分别确定各所述第一名称向量与所述第二名称向量间的向量距离；将所述向量距离低于距离阈值的第一名称向量所对应的待识别实体，加入以所述内容实体为聚类中心的实体簇。 8.如权利要求1所述的方法，其特征在于，所述将各所述实体簇中除所述内容实体以外的待识别实体，作为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体，包括：针对各所述实体簇，分别执行如下处理：将所述实体簇中除所述内容实体以外的待识别实体，作为候选可下载内容实体，并获取所述候选可下载内容实体的描述文本；通过神经网络模型，基于所述描述文本对所述候选可下载内容实体的实体类别进行预测，得到预测结果；当所述预测结果表征所述候选可下载内容实体的实体类别为可下载内容实体类别时，将所述候选可下载内容实体确定为用于对相应实体簇中所述内容实体进行内容扩展的可下载内容实体。 9.如权利要求8所述的方法，其特征在于，所述方法还包括：当所述预测结果表征所述候选可下载内容实体的实体类别为内容实体类别时，将所述候选可下载内容实体作为所述实体簇中的候选内容实体；确定所述内容实体的实体名称与所述待识别实体的实体名称间的第一字符匹配度，并确定所述候选内容实体的实体名称与所述待识别实体的实体名称间的第二字符匹配度；当所述第一字符匹配度小于所述第二字符匹配度时，更新所述实体簇中的内容实体为权　利　要　求　书 2/4 页 3 CN 114330353 A 3

专利 虚拟场景的实体识别方法、装置、设备、介质及程序产品

专利虚拟场景的实体识别方法、装置、设备、介质及程序产品