基于图像对比增强的大型视觉语言模型物体幻觉缓解
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

2023年度沈阳市科学技术计划 (23407329)


Mitigating Object Hallucinations in Large Visual Language Model Through Image Contrast Enhancement
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    大型视觉语言模型(LVLM)在理解视觉信息和运用语言表达方面展现出了非凡的能力. 然而, 在LVLM进行问答的过程中, 它通常受到物体幻觉问题的困扰, 具体表现为生成的文本内容看似合理, 但实际上却与图片中的信息不相符, 造成了文本与图片之间的不匹配现象. 为解决这一问题, 本文通过实验发现, 物体注意力的缺失是导致物体幻觉的关键因素. 为缓解此问题, 本文引入了图像对比增强方法(ICE). ICE是一种无需训练、操作简便的方法, 通过对比原始视觉输入与增强视觉输入所产生的输出分布, 有效提升模型对图片的感知能力, 确保生成的内容与视觉输入紧密契合, 从而生成上下文一致且准确的输出. 实验结果显示, ICE方法在无需额外训练或外部工具的情况下, 便能显著减轻不同LVLM的物体幻觉问题, 并在大型视觉语言模型基准MME测试中同样表现出色, 验证了其广泛的适用性和有效性. 本文代码链接: ChangGuiyong/ICE.

    Abstract:

    Large visual language model (LVLM) demonstrate remarkable capabilities in understanding visual information and generating verbal expressions. However, LVLM are often affected by the phenomenon of object hallucinations, where the outputs appear plausible but do not align with the visual information in the images. This discrepancy between the generated text and the images presents a significant challenge in achieving accurate image-to-text alignment. To address this issue, this study identifies the lack of object attention as a key factor contributing to object hallucinations. To mitigate this, the proposed image contrast enhancement (ICE) method is introduced. ICE is a simple, user-friendly approach that compares the output distributions from both the original and the augmented visual inputs. This method enhances the model’s ability to perceive images more accurately, ensuring that the generated content aligns closely with the visual input and produces contextually consistent outputs. Experimental results demonstrate that the ICE method effectively mitigates object hallucinations across various LVLM without requiring additional training or external tools. Furthermore, the method performs well on the MME benchmark test for large-scale visual language models, indicating its broad applicability and effectiveness. The code will be released at ChangGuiyong/ICE.

    参考文献
    相似文献
    引证文献
引用本文

卜立平,常贵勇,于碧辉,刘大伟,魏靖烜,孙林壮,刘龙翼.基于图像对比增强的大型视觉语言模型物体幻觉缓解.计算机系统应用,,():1-9

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-10-16
  • 最后修改日期:2024-11-29
  • 录用日期:
  • 在线发布日期: 2025-03-31
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号