引言
图像描述[1-2]是一种使用自然语言描述图像内容的任务,是一项涉及计算机视觉领域和自然语言处理领域的跨领域研究内容。目前大多数方法使用卷积神经网络(Convolutional Neural Network, CNN)编码图像以提取图像特征,然后使用Transformer网络结构来解析图像特征并生成描述语句。Pan等人[3]提出了XLinear注意力块来捕获单或多模态之间的二阶相互作用,并将其集成到Transformer编码器和解码器中。Cornia等人[4]在Transformer编码器和解码器中设计了类似网格的连接,以利用编码器的低级和高级特征。多数研究者针对Transformer网络结构进行改进,没有关注CNN提取到的图像特征其对应的感受野是均匀的网格,难以明显地关注图像中对象内容信息的问题。此外Transformer模型中的注意力机制仅仅是隐式地计算单个区域和其他区域的相似性,无法捕捉长距离的关系。
作者信息:
及昕浩,彭玉青
(河北工业大学人工智能与数据科学学院,天津300401)
文章下载地址:https://www.chinaaet.com/resource/share/2000005902

凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。