摘要:现实世界的物体图像往往存在较大的类内变化, 使用单一原型描述整个类别会导致语义模糊问题, 为此提出一种基于超像素的多原型生成模块, 利用多个原型分别表示物体的不同语义区域, 通过图神经网络在生成的多个原型间利用上下文信息执行原型校正以保证子原型的正交性. 为了获取到更准确的原型表示, 设计了一种基于Transformer的语义对齐模块, 以挖掘查询图像特征和支持图像的背景特征中蕴含的语义信息, 此外还提出了一种多尺度特征融合结构, 引导模型关注同时出现在支持图像和查询图像中的特征, 提高对物体尺度变化的鲁棒性. 所提出的模型在PASCAL-5i数据集上进行了实验, 与基线模型相比平均交并比提高了6%.