摘要:目前, 基于局部注意力机制的卷积神经网络(CNNs)用于亲属关系识别特征提取获得了不错的效果, 但基于卷积神经网络的主干模型提升不明显, 同时鲜有研究者使用具有全局信息捕获能力的自注意机制. 因此, 提出使用基于一种无卷积主干特征提取网络的S-ViT模型, 即用具有自全局注意力机制的Vision Transformer作为基础主干特征提取网络, 通过构建孪生网络与具有局部注意力机制的CNN相结合, 扩大传统分类网络, 用于亲属关系识别相关问题的研究. 最终实验结果表明, 相比RFIW2020挑战赛领先的方法, 所提出的方法在亲属关系识别3个任务上获得了良好的效果, 第1个任务中获得了76.8%验证精度排名第二, 第2个和第3个任务中排名第三, 证明了该方法的可行性和有效性, 为亲属关系识别提出了一种新的解决方法.