2023, 32(8):1-18.DOI: 10.15888/j.cnki.csa.009208
摘要:问答系统是人工智能和自然语言处理领域中具有广泛发展前景的研究方向之一. 早期的问答系统限定以自然语言形式进行提问和回答, 近年来, 随着多模态知识图谱、多模态预训练模型的发展, 支持文字、图片、音频、视频等多种模态间信息查询的广义问答系统逐渐成为新的研究热点, 其以多媒体方式展示结果, 更加直观、全面. 本文根据问答系统任务对象的变化, 将问答系统划分为3种类型: 专用问答系统、通用问答系统和多模态问答系统. 分析了这3种类型的问答系统发展过程中所面临的问题, 着重总结每个阶段所采用的关键技术与方法, 同时对问答系统在工业上的应用进行了举例说明, 并对未来研究方向进行了展望.
2022, 31(4):1-13.DOI: 10.15888/j.cnki.csa.008418
摘要:近年来, 随着知识图谱的发展, 利用给定的知识图谱数据自动得出人类自然语言问题的答案成为了时下的研究热点, 诸如Siri和小爱同学的QA系统已经广泛投入使用. 得益于深度学习的引入, 该领域的各子课题虽然有所突破, 但依然存在需要攻克的难点, 例如多跳推理和策略组合等. 本文从主流的构建方法为切入点, 归纳总结该领域研究现状以及所面临的挑战, 不仅有助于研究者高效展开对该领域的研究工作, 更有利于不同行业的研究者研发行业相关的问答系统, 提高行业生产力.
2021, 30(2):97-102.DOI: 10.15888/j.cnki.csa.007796
摘要:当前, 电网中含有海量的多源信息数据, 但是由于数据体量大、种类多、维度高, 难以实现高效有效的数据检索. 因此本文根据实际电力运行系统的数据结构及多源数据库样本分析, 提出了一种基于互信息的改进决策树算法作为数据挖掘内核, 并提出适用于电力系统的并行处理架构, 可实现多源数据的快速、有效信息检索, 并有效处理实时数据. 在搜索时根据代表性特征子集直接从多源信息原始数据提取信息, 判断索引信息量并排序形成决策树模型, 通过Spark MapReduce Python数据分解并行检索实现多源数据同时提取, 缩短检索时间. 本文以某区域电网数据库为算例进行模拟验证, 结果表明: 该方法可以实现配电网的多源异构信息提取, 有效避免重复数据, 满足在线工程决策要求.
2021, 30(12):202-210.DOI: 10.15888/j.cnki.csa.008216
摘要:API相关的知识通常分散隐含在多个信息源, 如API参考文档、问答网站等非结构化的文本中, 不利于API的查询与检索. 为此, 提出一种多源信息融合的API知识图谱构建方法, 以提高API检索的效率. API参考文档从设计者角度描述了API的功能和结构, Stack Overflow问答网站从用户角度提供了API的使用目的及应用场景, 二者互为补充, 可共同为API查询与检索提供支持. 通过分析API参考文档, 抽取API和领域概念作为实体, 构建API和领域概念之间的关联关系; 利用Stack Overflow问答网站, 抽取问答QA和API概念作为实体, 构建问答QA和API概念之间的关联关系. 在此基础上, 将二者进行知识融合, 构建多源API知识图谱, 以实现基于知识图谱的API推荐. 为验证本文方法, 分别从知识抽取的准确性和推荐应用两方面对本文构建API知识图谱的有效性进行评估. 实验结果表明, 基于知识图谱的API推荐, 在推荐效果及效率上均有提升.
2021, 30(7):204-209.DOI: 10.15888/j.cnki.csa.008114
摘要:在信息检索领域的排序任务中, 神经网络排序模型已经得到广泛使用. 神经网络排序模型对于数据的质量要求极高, 但是, 信息检索数据集通常含有较多噪音, 不能精确得到与查询不相关的文档. 为了训练一个高性能的神经网络排序模型, 获得高质量的负样本, 则至关重要. 借鉴现有方法doc2query的思想, 本文提出了深度、端到端的模型AQGM, 通过学习不匹配查询文档对, 生成与文档不相关、原始查询相似的对抗查询, 增加了查询的多样性, 增强了负样本的质量. 本文利用真实样本和AQGM模型生成的样本, 训练基于BERT的深度排序模型, 实验表明, 与基线模型BERT-base对比, 本文的方法在MSMARCO和TrecQA数据集上, MRR指标分别提升了0.3%和3.2%.
2020, 29(5):29-35.DOI: 10.15888/j.cnki.csa.007420
摘要:针对现存的函数秘密分享方案在重构的过程中需要所有的参与者全部参与,不能灵活地适用于现实场景的问题,本文运用多项式技术构造了含有门限的函数秘密分享方案.按照函数秘密分享的安全模型证明了新构造的方案具有信息论意义下的安全性.此外本文分析了Yuan等学者提出的函数秘密分享方案,阐述了其方案不满足函数秘密分享方案安全性的原因.最后将本文构造的方案与现有的函数秘密分享方案进行了比较,发现其具有更高级别的安全性和更高的效率.
2016, 25(12):155-161.DOI: 10.15888/j.cnki.csa.5455
摘要:开源社区github提供了pull request的机制让开发者可以把自己的代码集成到github的开源项目中从而为项目做出贡献.Pull request的代码评审是github这类分布式软件开发社区维护开源项目代码质量的非常重要的方式.为一个新到来的pull request指派合适的代码评审人可以有效减少pull request从提交到开始审核的延迟.目前github是由项目核心成员人工来完成评审人的指派,为了减少这种人力损耗,我们提出代码评审人的推荐系统,该系统基于信息检索的方法,并考虑了评审人的影响力因子以及评审的时间衰减的因素,对新到来的pull request,自动推荐最相关的评审人.我们的方法对top 1的准确度达到了68%,对top 10的召回率达到了78%.
2014, 23(10):33-39.
摘要:目前自动化需求跟踪的研究广泛使用文本信息检索技术. 然而信息检索会遗漏一些文本不相似但是实际相关的软件制品,导致自动化跟踪的精度不高. 针对上述问题,提出利用开发者协作关系来进行优化,研发了基于开发者协作关系和信息检索的需求跟踪系统. 该系统在进行需求跟踪时,首先用信息检索推荐与需求文本上相似的代码,然后从代码提交日志中挖掘开发者协作关系,根据开发者协作关系再推荐相关代码,用户根据两次推荐的结果确定正确的需求代码跟踪关系. 试验结果表明该系统能够找到信息检索遗漏的需求跟踪关系,能够提高自动化跟踪的准确性,节省跟踪时间.
2014, 23(11):99-104.
摘要:缺陷定位是软件缺陷修复的关键步骤. 随着计算机软件的日趋复杂和网络的迅速发展, 如何快速高效的定位缺陷相关代码成为了一个急待解决的问题. 在研究现有基于信息检索技术的缺陷定位方法的基础上, 综合考虑缺陷修复历史信息, 提出了基于缺陷修复历史的两阶段缺陷定位方法. 该方法不再单一依赖文本相似度, 从缺陷修复的局部性现象入手, 更多的考虑了缺陷修复的历史记录、变更信息及代码特征等因素, 结合信息检索和缺陷预测方法来提高缺陷定位的精度. 最后本文以两个开源项目为例, 验证了方法的可行性和有效性.
2013, 22(3):37-41.
摘要:随着蛋白质质谱技术以及智能算法的发展, 使用智能算法分析临床质谱数据已在肿瘤早期诊断方面显示了良好的应用前景. 通过研究MATLAB Builder JA Toolbox和分析蛋白质质谱数据的智能算法, 结合临床蛋白质质谱数据分析的需求,使用JavaEE技术, 设计和实现了基于质谱数据的肿瘤诊断web平台. 平台功能主要包括质谱数据可视化显示、智能检索和智能决策诊断三大功能. 同时还提供病人基本信息及肿瘤数据管理, 质谱生物特征位点设置及分析结果数据存储等附加功能.