专利一种嵌入因果结构的信息推荐方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111441087.2 (22)申请日 2021.11.30 (71)申请人清华大学地址 100084 北京市海淀区清华园 (72)发明人崔鹏　何玥　王子牧　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 代理人单冠飞 (51)Int.Cl. G06Q 30/06(2012.01) G06N 20/00(2006.01) (54)发明名称一种嵌入因果结构的信息推荐方法及装置 (57)摘要本发明公开了一种嵌入因果结构的信息推荐方法及装置，其中，方法包括：基于分布偏移的诱因，从观测数据中进行随机负采样作为负倾向初始化，以得到训练数据；通过用户特征与用户 ‑ 商品之间的因果结构重构用户喜好/不喜欢的商品特征，发掘用户特征与用户倾向性以及负倾向之间稳定的因果关系，以学习数据的产生机制；优化对用户购买行为的拟合；根据稳定负倾向优化负采样概率；循环地联合优化，直到目标函数值收敛，以得到稳定的用户特征与用户倾向性以及负倾向之间稳定的因果关系。本发明通过从观测数据中发掘用户特征与其购买行为之间稳定的、不受分布偏移影响的因果结构，并将其应用于学习稳定表征，使其应对未知测试环境中不可知的分布偏移。权利要求书2页说明书5页附图2页 CN 114372840 A 2022.04.19 CN 114372840 A 1.一种嵌入因果结构的信息推荐方法，其特征在于，包括以下步骤： S1，基于分布偏移的诱因，从观测数据中进行随机负采样作为负倾向初始化，以得到训练数据； S2，基于所述训练数据，通过用户特征与用户 ‑商品之间的因果结构重构用户喜好/不喜欢的商品特征，发掘用户特征与用户倾向性以及负倾向之间稳定的因果关系，以学习数据的产生机制； S3，基于所述数据的产生机制，优化对用户购买行为的拟合； S4，基于所述用户购买行为的拟合并基于所述S2学习得到用户的稳定负倾向，以根据所述稳定负倾向优化负采样概率； S5，循环地联合优化S2至S4，直到目标函数值收敛，以得到稳定的所述用户特征与用户倾向性以及负倾向之间稳定的因果关系。 2.根据权利要求1所述的嵌入因果结构的信息推荐方法，其特征在于，所述S3，包括：利用所述数据的产生机制中稳定的因果关系得到用户稳定的表征，将所述稳定的用户表征与所述商品特征嵌入到潜在空间，优化用户与商品潜在表征的距离，以建模用户与商品之间的购买行为。 3.根据权利要求1所述的嵌入因果结构的信息推荐方法，其特征在于，所述方法，还包括：迭代交替优化基于因果结构的不变偏好学习模块与处理隐式反馈的反偏好负采样模块以学习得到用户特征与用户购买行为之间稳定的因果结构以及用户自身不变负倾向。 4.根据权利要求1所述的嵌入因果结构的信息推荐方法，其特征在于，所述分布偏移的诱因，包括：基于人类行为的时间层面与空间层面的异质性，形成所述人类行为的分布偏移；以及，推荐系统对用户行为产生的人为干预。 5.根据权利要求1所述的嵌入因果结构的信息推荐方法，其特征在于，所述S4，包括：基于所述稳定负倾向提高负采样时抽取用户真正不感兴趣商品的概率。 6.一种嵌入因果结构的信息推荐装置，其特征在于，包括：训练模块，用于基于分布偏移的诱因，从观测数据中进行随机负采样作为负倾向初始化，以得到训练数据；第一学习模块，用于基于所述训练数据，通过用户特征与用户 ‑商品之间的因果结构重构用户喜好/不喜欢的商品特征，发掘用户特征与用户倾向性以及负倾向之间稳定的因果关系，以学习数据的产生机制；第一优化模块，用于基于所述数据的产生机制，优化对用户购买行为的拟合；第二优化模块，用于基于所述用户购买行为的拟合并基于所述第一学习模块学习得到用户的稳定负倾向，以根据所述稳定负倾向优化负采样概率；循环模块，用于循环地联合优化第一学习模块至第二优化模块，直到目标函数值收敛，以得到稳定的所述用户特征与用户倾向性以及负倾向之间稳定的因果关系。 7.根据权利要求6所述的嵌入因果结构的信息推荐装置，其特征在于，所述第一优化模块，还用于：利用所述数据的产生机制中稳定的因果关系得到用户稳定的表征，将所述稳定的用户权　利　要　求　书 1/2 页 2 CN 114372840 A 2表征与所述商品特征嵌入到潜在空间，优化用户与商品潜在表征的距离，以建模用户与商品之间的购买行为。 8.根据权利要求6所述的嵌入因果结构的信息推荐装置，其特征在于，所述装置，还包括：第二学习模块，用于迭代交替优化基于因果结构的不变偏好学习模块与处理隐式反馈的反偏好负采样模块以学习得到用户特征与用户购买行为之间稳定的因果结构以及用户自身不变负倾向。 9.根据权利要求6所述的嵌入因果结构的信息推荐装置，其特征在于，所述训基于分布偏移的诱因，包括：基于人类行为的时间层面与空间层面的异质性，形成所述人类行为的分布偏移；以及，推荐系统对用户行为产生的人为干预。 10.根据权利要求6所述的嵌入因果结构的信息推荐装置，其特征在于，所述第二优化模块，还用于：基于所述稳定负倾向提高负采样时抽取用户真正不感兴趣商品的概率。权　利　要　求　书 2/2 页 3 CN 114372840 A 3

专利 一种嵌入因果结构的信息推荐方法及装置

专利一种嵌入因果结构的信息推荐方法及装置