(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221015125 6.7
(22)申请日 2022.02.16
(71)申请人 南京邮电大 学
地址 210003 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 卢官明 陈晨 卢峻禾
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
专利代理师 朱桢荣
(51)Int.Cl.
G06V 40/16(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06V 10/56(2022.01)
(54)发明名称
一种基于强化学习的情绪化图像描述方法
及系统
(57)摘要
本发明公开了一种基于强化学习的情绪化
图像描述方法, 涉及图像处理与模式识别技术领
域, 在大规模语料库基础上构建情绪词嵌入库;
构建图像情绪识别模型; 使用图像情绪分析数据
集训练图像情绪识别模型; 构建图像事实性描述
模型; 使用图像描述数据集训练图像事实性描述
模型; 构建情绪化图像描述初始化模块, 利用 情
绪词嵌入库、 图像情绪识别模型输出的图像情绪
类别以及图像事实性描述模型输出的图像事实
性描述, 生成初始的情绪化图像描述; 构建基于
强化学习的微调模块, 对初始的情绪化图像描述
进行微调, 生成最终的情绪化图像描述。 本发明
还公开了一种基于强化学习的情绪化图像描述
系统, 本发 明可使得各类复杂场景的图像描述更
加生动, 富有情感。
权利要求书4页 说明书19页 附图4页
CN 114639139 A
2022.06.17
CN 114639139 A
1.一种基于强化学习的情绪 化图像描述方法, 其特 征在于, 包括以下步骤:
步骤一、 在大规模语料库基础上构建情绪词嵌入库;
步骤二、 构建图像情绪识别模型;
步骤三、 使用图像情绪分析 数据集训练图像情绪识别模型;
步骤四、 构建一种用于生成图像事实性描述的基于注意力机制 的图像事实性描述模
型, 图像事实性描述模型包括依 次顺序连接的图像事实性描述预处理模块、 图像特征编码
器和特征‑文本解码器;
步骤五、 使用图像描述数据集训练图像事实性描述模型;
步骤六、 构建情绪化图像描述初始化模块, 情绪化图像描述初始化模块根据训练好的
图像情绪识别模型输出的图像情绪类别, 从情绪词嵌入库中选取与图像情绪类别对应的情
绪词, 并将之嵌入到由训练好的图像事实性描述模型输出 的图像事实性描述中, 生成初始
的情绪化图像描述;
步骤七、 构建基于强化学习的微调模块, 微调模块用于对初始 的情绪化图像描述进行
微调, 生成最终的情绪 化图像描述。
2.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法, 其特征在于, 步骤
七中, 基于强化学习的微调模块包括语句 重建生成器、 语句存储单元、 语句抽样单元、 语句
评估单元和选词评估 单元; 其中, 语句重 建生成器作为 强化学习系统中的智能体, 语句存储
单元、 语句抽样单元、 语句评估单元和选词评估单元构成强化学习系统中的外部环境; 语句
重建生成器与外部环境进行不断地交互, 获取外部环境的奖励信息, 学习从环境状态到行
为动作的映射, 来优化调整行为动作, 对初始的情绪化图像描述进 行微调, 生成最 终的情绪
化图像描述。
3.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法, 其特征在于, 步骤
七中, 基于强化学习的微调模块包括语句 重建生成器、 语句存储单元、 语句抽样单元、 语句
评估单元和选词评估单元, 微调模块用于对初始的情绪化图像描述进 行微调的具体方法如
下:
步骤701、 语句重建生成器根据第t ‑1时刻的环境状态以及第t ‑1时刻的奖励, 通过选词
器从情绪词嵌入库中选择语义相近的单词, 执行选词的动作, 并将筛选出的单词加入第t ‑1
时刻生成的语句St‑1中, 生成第t时刻的语句St; 其中, 第0时刻生成的语句S0为语句生成起始
符, 第t‑1时刻的环境状态即为第t ‑1时刻生成的语句St‑1, 第t‑1时刻的奖励Rt‑1即为第t‑1
时刻所选单词得分, t为时刻;
步骤702、 语句存储单元存储更新后的第t时刻的语句St; 语句抽样单元基于采样搜索算
法对更新后的第t时刻的语句St进行回滚, 生成N个语句, N的取值为3、 4或5; 语句评估单元
首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、 语法搭配鉴别器、 语义鉴别器进
行评估打分, 得到N个情绪奖励得分、 语法搭配奖励得分、 语义奖励得分, 然后采 取加权平均
的方法得到综合奖励得分, 最后将综合奖励得分输入到选词评估单元; 选词评估单元输出
所选单词得分, 作为外 部环境向语句重建生成器反馈的奖励Rt;
步骤703、 迭代步骤701至步骤702, 语句重建生成器与外部环境不断地进行交互, 直至
取得语句重建的最大 奖励, 生成最终的情绪 化图像描述。
4.根据权利要求3所述的一种基于强化学习的情绪化图像描述方法, 其特征在于, 所述权 利 要 求 书 1/4 页
2
CN 114639139 A
2语句抽样单元的采样搜索算法采用多 项式采样或蒙特卡洛抽样方法。
5.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法, 其特征在于, 步骤
一中, 构建情绪词嵌入库的具体方法如下:
步骤101、 利用NLTK工具获取目标检测和图像描述数据集中的名词、 动词, 生成语义词
库, 并计算 其中每个语义词的词向量;
步骤102、 从大规模语料库LSCC中筛选出情绪词, 生成情绪词库, 并计算每个情绪词的
情绪词向量; 将语义词库中的每个语义词对应的情绪词分为IAPS定义的8个类别: 愉悦、 狂
怒、 惊奇、 接受、 憎恨、 狂喜、 恐惧、 悲痛;
步骤103、 从情绪词库中筛选出与语义词相对应的不同情绪类别的情绪词组, 构建情绪
词嵌入库。
6.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法, 其特征在于, 图像
情绪识别模型包括图像情绪识别预处理模块、 人脸情绪特征提取模块、 图像主题色彩特征
提取模块、 图像情绪特征提取模块、 特征融合层、 全连接层以及分类层; 所述图像情绪识别
预处理模块包括人脸检测单元、 人脸图像归一化处理单元和图像尺寸归一化处理单元; 其
中,
所述人脸检测单元, 利用预先训练的人脸检测网络, 检测出输入的图像 中人脸区域, 并
对不同的人脸区域进行 标号;
所述人脸图像归一化处理单元, 用于对检测出的每个人脸区域进行裁剪、 对齐和尺寸
归一化;
所述图像尺寸归一 化处理单元, 用于对输入的图像进行尺寸归一 化;
所述人脸情绪特征提取模块, 用于提取裁剪、 对齐和尺寸归一化后的人脸图像中每一
个人的面部情绪特 征;
所述图像主题色彩特 征提取模块, 用于提取输入的图像的主题色彩特 征;
所述图像情绪特征提取模块, 用于提取图像尺寸归一化处理单元输出的尺寸归一化后
的图像的情绪特 征;
所述特征融合层, 用于分别对人脸情绪特征提取模块输出的面部情绪特征、 图像主题
色彩特征提取模块输出的主题色彩特征以及图像情绪特征提取模块输出的情绪特征进行
融合, 得到融合后的情绪特 征向量;
所述全连接层, 用于全连接特 征融合层与分类层;
所述分类层, 用于 输出图像所属的情绪类别。
7.根据权利要求6所述的一种基于强化学习的情绪化图像描述方法, 其特征在于, 步骤
二中, 使用图像主题色彩特 征提取模块 提取输入的图像的主题色彩特 征的具体方法如下:
步骤1、 使用微元法切割RGB空间, 形成一个 个独立的立体方块;
步骤2、 将图像的RGB格式像素散点放入切割后的RGB空间中, 将散点值作 为立体方块的
值, 如果该立体方块中没有散点, 则将该立体方块区域中心值作为该立体方块的值;
步骤3、 通过滑动窗口加权的方式对整个滑动 窗口区域内的立体方块的值进行加权求
和得到滑动窗口大小立体方块的值, 滑动窗口的大小 取决于最终所要选择的图像主题色的
种类数;
步骤4、 通过步骤1至 3, 最终得到 输入图像的图像主题色彩特 征。权 利 要 求 书 2/4 页
3
CN 114639139 A
3
专利 一种基于强化学习的情绪化图像描述方法及系统
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:05上传分享