说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211250887.0 (22)申请日 2022.10.13 (71)申请人 中国兵器 工业计算机 应用技术研究 所 地址 100089 北京市海淀区车道沟10号 (72)发明人 孟英谦 杨亮 杜宏博 王强  葛天恒 印泰桦 葛晋鹏 刘晓兰  薛行 崔琳 许童  (74)专利代理 机构 北京天达知识产权代理事务 所有限公司 1 1386 专利代理师 庞许倩 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/215(2019.01) G06F 16/22(2019.01)G06N 20/00(2019.01) (54)发明名称 一种基于特征形态和数据关系的数据特征 构建系统和方法 (57)摘要 本发明属于计算机科学的机器学习领域, 尤 其涉及一种基于特征形态和数据关系的数据特 征构建系统和方法。 本发明充分考虑了数据之间 的关联性, 根据数据之间的关联性构建DAG执行 聚合图, 并根据数据特征的统计值构建衍生的数 据特征, 然后根据DAG执行聚合图对数据特征进 行聚合操作, 对聚合后特征集进行过滤处理和降 维处理。 本发明通过DAG执行聚合图充分考虑了 数据特征之间的关联性, 通过构建衍生的数据特 征满足了对业务多样性的适应, 本发 明的数据特 征构建方法提高了特征的信息浓度, 提升了数据 特征构建的效率。 权利要求书2页 说明书7页 附图2页 CN 115438101 A 2022.12.06 CN 115438101 A 1.一种基于特 征形态和数据关系的数据特 征构建系统,其特 征在于, 包括: 数据特征深度分析模块, 用于分析待处理数据集中所有数据库表得到DAG执行聚合图、 数据特征统计值和数据特 征形态; 数据特征预处理模块, 用于基于数据特征统计值和数据特征形态, 对待处理数据集中 的数据进行清洗和预处 理, 得到处 理后数据集; 数据特征转换构建模块, 用于基于数据特征形态, 对处理后数据集中每个数据库表的 原始特征进行特征转换构建得到相对应的的衍生特征, 并整合每个数据库表的原始特征和 衍生特征, 得到转换后特 征集; 数据特征深度聚合模块, 用于基于所述DAG执行聚合图对转换后特征集进行聚合操作, 得到聚合后特 征集; 数据特征过滤模块, 用于过 滤聚合后特 征集得到优选特 征组合; 数据特征降维模块, 用于对所述优选特征组合进行降维处理, 得到降维后的最优特征 组合。 2.根据权利要求1所述的数据 特征构建系统, 其特征在于, 所述分析待处理数据集中所 有数据库表得到DAG执行聚合图包括, 基于所述数据库表的主键和外键得到用树结构表示 的各数据库表间的关联关系, 使用递归树算法从树的叶子结点开始进行递归遍历, 得到所 述DAG执行聚合图, 所述DAG执行聚合图用于表 示特征聚合的执行顺序、 执行方向、 能否并行 执行以及特 征的层级关系。 3.根据权利要求2所述数据特征构建系统, 其特征在于, 所述基于所述DAG执行聚合图 对转换后特征集进 行聚合操作包括, 基于所述DAG执行聚合图, 从图的开始节 点按照图所示 的执行顺序、 执行方向、 能否并行执行以及特征的层级关系进 行数据特征聚合, 基于每个节 点的下层节点的数据特征构建新特征聚合到该节 点对应的特征集, 对所有层级的节点对应 的特征依次迭代聚合, 得到聚合后特 征集。 4.根据权利要求1 ‑3任一项所述的数据 特征构建系统, 其特征在于, 所述数据特征形态 包括文本特 征、 数值特 征、 时间特 征。 5.根据权利要求4所述的数据特征构建系统, 其特征在于, 所述预处理包括对文本特 征、 数值特 征、 时间特 征分别进行 预处理, 其中, 对文本特征预处理包括: 对文本特征中的原始短文本进行编码操作得到第一文本编 码; 对长文本进行分词处理得到 分词短文本, 对长文本进行文本 分析得到文本分析结果; 基 于文本分析结果选择需要保留的分词短文本, 对其进行编码操作得到第二文本编码; 将第 一文本编码和第二文本编码汇总得到文本编码; 对数值特 征预处理包括: 对数值特 征进行标准化处理, 并进行编码得到数值特 征编码; 对时间特征预处理包括: 对时间特征进行统一时间格式处理, 得到统一格式的时间特 征。 6.根据权利要求5所述的数据特征构建系统, 其特征在于, 所述基于数据特征形态, 对 处理后数据集中每 个数据库表的原 始特征进行特征转换构建得到相对应的衍 生特征包括: 对数据集中每个数据库表中的文本特征,统计文本 中字符数量和单词数量分别作为新 特征; 对数据集中每个数据库表中的数值特征进行数学计算, 包括两两相加、 两两相减、 两两权 利 要 求 书 1/2 页 2 CN 115438101 A 2相乘、 两两求模以及对数值特征取负数、 对数值特征取绝对值, 将计算结果分别作为新特 征; 对数据集中每个数据库表中的时间特征按照时间单位拆分, 得到对应的年、 月、 周、 日、 小时、 分钟、 秒分别作为 新的特征, 计算时间特 征和上一时间特 征的时间差作为 新的特征。 7.根据权利要求6所述的数据特征构建系统, 其特征在于, 所述数据特征过滤模块, 用 于执行下述流程过滤聚合后特 征集得到优选特 征组合: 使用排序法基于特征相关系数对特征排序, 根据阈值过滤特征得到第一优选特征组; 所述特征相关系数包括使用皮尔斯相关算法和方差分析算法计算特征间相关性得到的相 关系数; 使用包装法基于预设的训练模型算法对第 一优选特征组中不同的特征子集进行训练, 选取训练准确率 最优的特 征子集作为第二优选特 征组; 使用嵌入法对第 二优选特征组进行过滤得到优选特征组, 包括: 使用决策树和/或随机 森林模型, 对第二优选特征组进 行训练, 得到训练好的模型和所有 特征的权值系数, 基于权 值系数对特 征进行排序, 根据预设阈值选取排序靠前的特 征的集合作为优选特 征组。 8.根据权利要求7所述的数据 特征构建系统, 其特征在于, 所述降维算法包括主成分分 析法和/或线性判别式分析法。 9.根据权利要求3所述的数据 特征构建系统, 其特征在于, 所述数据清洗包括基于所述 数据特征统计值对所述待处 理数据集中的数据的缺失值和异常值进行 数据清洗 。 10.一种基于特 征形态和数据关系的数据特 征构建方法,其特 征在于, 包括如下步骤: 数据特征深度分析, 包括分析待处理数据集中所有数据库表得到DAG执行聚合图、 数据 特征统计值和数据特 征形态; 数据特征预处理, 包括基于数据特征统计值和数据特征形态, 对待处理数据集中的数 据进行清洗和预处 理, 得到处 理后数据集; 数据特征转换构建, 包括基于数据特征形态, 对处理后数据集中每个数据库表的原始 特征进行特征转换构建得到相对应的的衍生特征, 并整合每个数据库表的原始特征和衍生 特征, 得到转换后特 征集; 数据特征深度聚合, 包括基于所述DAG执行聚合图对转换后特征集进行聚合操作, 得到 聚合后特 征集; 数据特征过滤, 包括过 滤聚合后特 征集得到优选特 征组合; 数据特征降维, 包括对所述优选特 征组合进行降维处 理, 得到降维后的最优特 征组合。权 利 要 求 书 2/2 页 3 CN 115438101 A 3

PDF文档 专利 一种基于特征形态和数据关系的数据特征构建系统和方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征形态和数据关系的数据特征构建系统和方法 第 1 页 专利 一种基于特征形态和数据关系的数据特征构建系统和方法 第 2 页 专利 一种基于特征形态和数据关系的数据特征构建系统和方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:30:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。