(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211021739.1
(22)申请日 2022.08.25
(71)申请人 新疆畅森数据科技有限公司
地址 830011 新疆维吾尔自治区乌鲁 木齐
市高新技术产业开 发区(新市区)河南
东路781号劳动和社会保障服务中心
六楼6009
(72)发明人 姚回 刘文 李珊珊
(51)Int.Cl.
G06V 10/74(2022.01)
G06V 10/40(2022.01)
G06V 10/774(2022.01)
(54)发明名称
一种乳腺超声影像组学的超高维特征数据
相关性分析方法
(57)摘要
本发明涉及乳腺超声影像组学数据分析领
域, 公开一种乳腺超声影像组学的超高维特征数
据相关性 分析方法, 内容如下: S1、 标注影像感兴
趣区域并生成掩膜图; S2、 利用影像组学算法提
取超声影像高通量特征, 生成高维数据; S3、 将超
高维特征数据存储在分布式文件系统; S4、 计算
集群节点内各特征数据的和及平方和; S5、 利用
步骤S4中的数据估算特征之间的相关性并输 出。
如果无法估算, 则计算其均值及标准差, 执行步
骤S6; S6、 各节点根据均值及标准差计算S5中无
法估算的特征之间的相关系数; S7、 汇总S6的结
果, 并计算均值, 得出总体特征之间的相关性。 采
用分布式估算皮尔逊相关系数, 能够减少单个节
点计算资源的消耗, 快速分析海量超高维特征之
间的相关性。
权利要求书3页 说明书6页 附图2页
CN 115410006 A
2022.11.29
CN 115410006 A
1.一种乳腺超声影 像组学的超高维特 征数据相关性分析 方法, 其特 征在于:
a. 将海量超高维乳腺超声影 像特征数据存储在分布式文件系统中;
b. 计算集群节点内各 特征数据的和及平方和;
c. 利用b中的数据估算各个特征之间的相关性并输出; 如果无法估算, 则计算其均值
和标准差, 继续执 行分布式计算;
d. 各节点根据均值及标准差计算c中无法估算的特 征之间的相关系数;
e. 汇总d的结果并计算均值, 得 出总体特 征之间的相关性。
2.根据权利要求1所述的一种乳腺超声影像组学的超高维特征数据相关性分析方法,
其特征在于:
传统乳腺超声影像组学特征数据的存储在单机上, 本发明将海量超高维乳腺超声影像
特征数据按照节点存储块的大小做水平分割, 并存储在分布式文件系统中; 假设有三个计
算节点 , 给定乳腺超声影像的 海量超高维度特征数据D , 每条数据对象包含
个特征(s≥2); 数据被均匀划分为
并存储在每个节点 (数据也可以不
被等分存储在各个计算结点, |D|为数据集中的总条数) , 每个节点的部分数据包含s个特
征。
3.根据权利要求1所述的一种乳腺超声影像组学的超高维特征数据相关性分析方法,
其特征在于:
一种基于多节点协同计算摘要数据的方法: 传统计算乳腺超声影像组学特征数据 是在
单机环境, 针对每个数据单独计算, 而本发明是基于 分布式环境计算摘要 数据; 各个计算节
点按行读取其对应数据块 中的每条数据, 分别计算每个数据块 中各个特征的和(
)
及其特征的平方和(
), 其中t=
,
为数据集中第k条数据的第i个特征, 1≤i
≤s, 1≤k≤t。
4.根据权利要求1所述的一种乳腺超声影像组学的超高维特征数据相关性分析方法,
其特征在于:
一种同时支持精确计算及迭代估算的计算方法: 传统 的方法主要在单机环境直接精确
计算皮尔逊相关系数, 而本发明针对乳腺超声组学特征数据超高维的特点在分布式文件系
统上直接计算皮尔逊相关系数; 对所有数据求和计算
, 其中m=|D|,
为数据集中第k条数据的第i个特征, 1≤i≤s, 1≤k≤m; 假设数据集中的两个特征列X和
Y(
、
), n表示数据集中的总条数,
表示数据集中
第i条数据的X特征, 根据皮尔逊相关系数公式(公式1)可做如下变形:
(1)权 利 要 求 书 1/3 页
2
CN 115410006 A
2替换上式中的
和
, 其中
:
整理上式并替换
和
, 其中
, 整理最终皮
尔逊相关公式如公式2所示:
(2)
分布式下估算皮尔逊相关系数主要利用基本不等式原理, 对于每个特征 (例如X, Y两个
特征列) 只需要在各个节点之间传输
这四
个数据(n>0为数据条数); 如果是m(m
2)维特征数据, 每个节 点只需要输出2m个数据, 减少
了任意两个维度数据乘积所产生的
个数据; 估算公式如下: 给定阈值 ℇ,
为无误差未
知的皮尔逊相关系数值,
为估算皮尔逊相关系数,
始终大于等于
(当两个特征数据
一致重合时取等 号), 其计算会产生以下两种结果:
结果1: 当
, 则
, 两个特征之间不属于高相关;
结果2: 当
, 且
, 无法判断
与
之间的关系, 如图2中结果2, 此时根据
计算这两个特 征的均值(
)和标准差(
), 执行权利要求5 。权 利 要 求 书 2/3 页
3
CN 115410006 A
3
专利 一种乳腺超声影像组学的超高维特征数据相关性分析方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:29上传分享