专利 一种基于强化学习的情绪化图像描述方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221015125 6.7 (22)申请日 2022.02.16 (71)申请人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人卢官明　陈晨　卢峻禾　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师朱桢荣 (51)Int.Cl. G06V 40/16(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/289(2020.01)G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/56(2022.01) (54)发明名称一种基于强化学习的情绪化图像描述方法及系统 (57)摘要本发明公开了一种基于强化学习的情绪化图像描述方法，涉及图像处理与模式识别技术领域，在大规模语料库基础上构建情绪词嵌入库；构建图像情绪识别模型；使用图像情绪分析数据集训练图像情绪识别模型；构建图像事实性描述模型；使用图像描述数据集训练图像事实性描述模型；构建情绪化图像描述初始化模块，利用情绪词嵌入库、图像情绪识别模型输出的图像情绪类别以及图像事实性描述模型输出的图像事实性描述，生成初始的情绪化图像描述；构建基于强化学习的微调模块，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。本发明还公开了一种基于强化学习的情绪化图像描述系统，本发明可使得各类复杂场景的图像描述更加生动，富有情感。权利要求书4页说明书19页附图4页 CN 114639139 A 2022.06.17 CN 114639139 A 1.一种基于强化学习的情绪化图像描述方法，其特征在于，包括以下步骤：步骤一、在大规模语料库基础上构建情绪词嵌入库；步骤二、构建图像情绪识别模型；步骤三、使用图像情绪分析数据集训练图像情绪识别模型；步骤四、构建一种用于生成图像事实性描述的基于注意力机制的图像事实性描述模型，图像事实性描述模型包括依次顺序连接的图像事实性描述预处理模块、图像特征编码器和特征‑文本解码器；步骤五、使用图像描述数据集训练图像事实性描述模型；步骤六、构建情绪化图像描述初始化模块，情绪化图像描述初始化模块根据训练好的图像情绪识别模型输出的图像情绪类别，从情绪词嵌入库中选取与图像情绪类别对应的情绪词，并将之嵌入到由训练好的图像事实性描述模型输出的图像事实性描述中，生成初始的情绪化图像描述；步骤七、构建基于强化学习的微调模块，微调模块用于对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。 2.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元；其中，语句重建生成器作为强化学习系统中的智能体，语句存储单元、语句抽样单元、语句评估单元和选词评估单元构成强化学习系统中的外部环境；语句重建生成器与外部环境进行不断地交互，获取外部环境的奖励信息，学习从环境状态到行为动作的映射，来优化调整行为动作，对初始的情绪化图像描述进行微调，生成最终的情绪化图像描述。 3.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤七中，基于强化学习的微调模块包括语句重建生成器、语句存储单元、语句抽样单元、语句评估单元和选词评估单元，微调模块用于对初始的情绪化图像描述进行微调的具体方法如下：步骤701、语句重建生成器根据第t ‑1时刻的环境状态以及第t ‑1时刻的奖励，通过选词器从情绪词嵌入库中选择语义相近的单词，执行选词的动作，并将筛选出的单词加入第t ‑1 时刻生成的语句St‑1中，生成第t时刻的语句St；其中，第0时刻生成的语句S0为语句生成起始符，第t‑1时刻的环境状态即为第t ‑1时刻生成的语句St‑1，第t‑1时刻的奖励Rt‑1即为第t‑1 时刻所选单词得分， t为时刻；步骤702、语句存储单元存储更新后的第t时刻的语句St；语句抽样单元基于采样搜索算法对更新后的第t时刻的语句St进行回滚，生成N个语句， N的取值为3、 4或5；语句评估单元首先对语句抽样单元生成的N个语句分别使用情绪鉴别器、语法搭配鉴别器、语义鉴别器进行评估打分，得到N个情绪奖励得分、语法搭配奖励得分、语义奖励得分，然后采取加权平均的方法得到综合奖励得分，最后将综合奖励得分输入到选词评估单元；选词评估单元输出所选单词得分，作为外部环境向语句重建生成器反馈的奖励Rt；步骤703、迭代步骤701至步骤702，语句重建生成器与外部环境不断地进行交互，直至取得语句重建的最大奖励，生成最终的情绪化图像描述。 4.根据权利要求3所述的一种基于强化学习的情绪化图像描述方法，其特征在于，所述权　利　要　求　书 1/4 页 2 CN 114639139 A 2语句抽样单元的采样搜索算法采用多项式采样或蒙特卡洛抽样方法。 5.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤一中，构建情绪词嵌入库的具体方法如下：步骤101、利用NLTK工具获取目标检测和图像描述数据集中的名词、动词，生成语义词库，并计算其中每个语义词的词向量；步骤102、从大规模语料库LSCC中筛选出情绪词，生成情绪词库，并计算每个情绪词的情绪词向量；将语义词库中的每个语义词对应的情绪词分为IAPS定义的8个类别：愉悦、狂怒、惊奇、接受、憎恨、狂喜、恐惧、悲痛；步骤103、从情绪词库中筛选出与语义词相对应的不同情绪类别的情绪词组，构建情绪词嵌入库。 6.根据权利要求1所述的一种基于强化学习的情绪化图像描述方法，其特征在于，图像情绪识别模型包括图像情绪识别预处理模块、人脸情绪特征提取模块、图像主题色彩特征提取模块、图像情绪特征提取模块、特征融合层、全连接层以及分类层；所述图像情绪识别预处理模块包括人脸检测单元、人脸图像归一化处理单元和图像尺寸归一化处理单元；其中，所述人脸检测单元，利用预先训练的人脸检测网络，检测出输入的图像中人脸区域，并对不同的人脸区域进行标号；所述人脸图像归一化处理单元，用于对检测出的每个人脸区域进行裁剪、对齐和尺寸归一化；所述图像尺寸归一化处理单元，用于对输入的图像进行尺寸归一化；所述人脸情绪特征提取模块，用于提取裁剪、对齐和尺寸归一化后的人脸图像中每一个人的面部情绪特征；所述图像主题色彩特征提取模块，用于提取输入的图像的主题色彩特征；所述图像情绪特征提取模块，用于提取图像尺寸归一化处理单元输出的尺寸归一化后的图像的情绪特征；所述特征融合层，用于分别对人脸情绪特征提取模块输出的面部情绪特征、图像主题色彩特征提取模块输出的主题色彩特征以及图像情绪特征提取模块输出的情绪特征进行融合，得到融合后的情绪特征向量；所述全连接层，用于全连接特征融合层与分类层；所述分类层，用于输出图像所属的情绪类别。 7.根据权利要求6所述的一种基于强化学习的情绪化图像描述方法，其特征在于，步骤二中，使用图像主题色彩特征提取模块提取输入的图像的主题色彩特征的具体方法如下：步骤1、使用微元法切割RGB空间，形成一个个独立的立体方块；步骤2、将图像的RGB格式像素散点放入切割后的RGB空间中，将散点值作为立体方块的值，如果该立体方块中没有散点，则将该立体方块区域中心值作为该立体方块的值；步骤3、通过滑动窗口加权的方式对整个滑动窗口区域内的立体方块的值进行加权求和得到滑动窗口大小立体方块的值，滑动窗口的大小取决于最终所要选择的图像主题色的种类数；步骤4、通过步骤1至 3，最终得到输入图像的图像主题色彩特征。权　利　要　求　书 2/4 页 3 CN 114639139 A 3

专利 一种基于强化学习的情绪化图像描述方法及系统

专利一种基于强化学习的情绪化图像描述方法及系统