2022, 31(7):1-11. DOI: 10.15888/j.cnki.csa.008545
摘要:行人检测技术是智能交通和智能车辆发展的一个重要方向, 同时也是道路安全的重要保障, 直接影响着车辆控制系统对路况的判断. 在实际应用场景中, 小尺度行人实例占比非常高, 但小尺度行人检测一直是行人检测任务中一个困难且具有挑战性的问题. 而当智能汽车处于复杂的交通环境中时, 小尺度行人的精准检测可以使控制系统有时间提前预警并及时避让, 对于保障汽车安全平稳行驶起重要作用. 随着深度学习的快速发展, 小尺度行人检测技术取得了突破性的进展, 目前该技术的发展处于快速发展时期. 为了进一步促进小尺度行人检测技术的发展, 本文对小尺度行人检测技术的最新方法进行了全面研究. 本文首先分析了小尺度行人检测面临的几大挑战, 并对目前最新的小尺度行人检测网络进行了归类和总结. 本文从多尺度表示、上下文信息、新的训练和分类策略、尺度感知和超分辨率5个方面对现有的深度学习方法进行了分析和讨论, 其中多尺度学习方法为当前处理小尺度行人检测的主流方法. 同时简要介绍了行人检测常用的评价指标和数据集, 并在Caltech等通用数据集上对一些主流方法进行了性能评价. 此外, 本文还对5类方法进行了总结和对比. 最后, 本文从多个方面提出了行人检测技术中亟待解决的问题和未来发展的方向和任务.
2022, 31(7):12-22. DOI: 10.15888/j.cnki.csa.008641
摘要:近年来随着移动智能设备的兴起, 人们越来越频繁的接触和使用语音信息, 语音伪造和鉴伪成为语音处理领域中愈加重要的技术. 本文首先梳理了语音合成系统的一般流程, 并对语音伪造领域中主要的文本到语音(text-to-speech, TTS)和语音转换(voice conversion, VC)两项技术进行系统归纳; 接着, 对语音鉴伪技术中常见的算法进行介绍和分类; 最后, 针对语音伪造和鉴伪目前存在的问题, 本文从数据、模型、训练方法以及应用场景等多个角度出发提出未来可能的发展方向.
2022, 31(7):23-34. DOI: 10.15888/j.cnki.csa.008566
摘要:图像超分辨率重建是用于提高图像质量的一项重要技术, 得益于深度学习在计算机视觉领域的成功应用和快速发展, 单图像超分辨率重建的效果得到了显著提升. 因此, 本文针对基于深度学习的单图像超分辨率重建方法展开深入研究, 首先综合介绍了用于该领域的基准数据集、性能评价指标、损失函数等相关知识, 然后对有监督学习和无监督学习下单图像超分辨率重建技术的最新算法进行分类讨论, 并且比较分析了不同模型之间的异同点与优缺点, 最后对该领域面临的问题和未来的发展方向进行了总结与展望.
2022, 31(7):35-45. DOI: 10.15888/j.cnki.csa.008595
摘要:随着深度卷积神经网络优异的特征提取能力被发掘, 目标检测的进程开始以一种势不可挡的姿态向前推进, 同时, 和深度学习结合的目标检测技术取得了显著的成果, 在自动驾驶、智能化交通系统、无人机场景、军事目标检测和医学导航等现实场景中得到了广泛的应用. 本文回顾了传统目标检测算法的缺点, 介绍了常用的检测数据集以及性能评估指标, 综述了基于深度学习的目标检测经典算法, 阐述了当前目标检测的以及存在的困难与挑战, 对目标检测的未来可行的研究方向进行了展望.
2022, 31(7):46-54. DOI: 10.15888/j.cnki.csa.008590
摘要:互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向.
2022, 31(7):55-65. DOI: 10.15888/j.cnki.csa.008581
摘要:时间序列预测目前在众多领域有着广泛应用. 如果可以准确估计事件或指标的未来发展, 它可以帮助人们做出重要的决定. 然而对不同时间序列建立模型并准确预测已成为最具挑战的应用之一. 因此, 本文提出了一种新颖的混合多步预测模型, 称为SSA-ConvBiAE. 首先, 通过奇异谱分析(SSA)将原始数据分解为不同的趋势分量. 其次, 设计了新的基于卷积长短期记忆(ConvLSTM)和双向门控循环单元(BiGRU)的自动编码器网络结构. 最后, 将不同的分量分别输入到对应的自动编码器中进行训练和预测并求和预测结果. 为了评价模型的预测性能, 在真实的供水数据集和公开的时间序列数据集上进行了实验, 实验结果表明, 模型的预测结果优于基线方法. 本文已在网站https://github.com/VIMLab-hfut/SSA-ConvBiAE上发布了源代码.
2022, 31(7):66-76. DOI: 10.15888/j.cnki.csa.008592
摘要:发动机生产故障和售后维修报告中有大量动力总成和零部件故障信息. 本文将知识图谱引入柴油发动机故障领域, 设计发动机故障领域知识图谱构建的系统流程, 针对多源故障数据进行本体建模. 使用BERT和BiLSTM-CRF结合的实体识别框架, 挖掘故障数据中的专家知识. 提出实体相关性评价指标FF-IEF, 并基于知识图谱和贝叶斯网络进行故障诊断. 设计并开发EFKG原型系统, 共包含
2022, 31(7):77-84. DOI: 10.15888/j.cnki.csa.008565
摘要:应用系统的复杂化与微服务化促进了容器的广泛使用, 企业往往会根据业务需要使用Kubernetes搭建多个集群进行容器的编排管理与资源分配. 为实时监控多个集群的工作状态与资源使用情况, 提出了面向Kubernetes的多集群资源监控方案, 对Kubernetes提供的CPU、内存、网络以及存储指标进行采集, 根据采集数据的类型对部分数据进行计算以获取更直观的监控指标, 实现了多层级多类型的存储, 并提供监控数据的REST接口. 通过实验, 验证了本设计对集群资源的消耗低, 具有较好的性能.
2022, 31(7):85-92. DOI: 10.15888/j.cnki.csa.008555
摘要:针对云平台中对应用程序的性能监控方法存在全流程收集分析异常能力不足的问题, 提出一种基于云平台服务组件的应用程序异常检测和瓶颈识别系统(AAD-PSC), 可对多层架构云平台上的应用程序提供可自定义指标值的监控分析能力. 系统首先在前端应用服务层收集云平台服务调用数据并与异常事件相关联; 然后为应用程序适配定制化的异常检测方法, 达到最优检测效果; 最后查明由非工作负载变化引起的性能异常, 并对其进行瓶颈识别. 实验结果表明, 监控系统可快速准确检测不同类别的异常事件并识别性能瓶颈, 能够满足云平台下对应用程序的性能监控需求.
2022, 31(7):93-98. DOI: 10.15888/j.cnki.csa.008591
摘要:无人机控制器的设计开发是一项复杂的系统工程, 传统的基于代码编程的开发方式存在开发难度大、周期长及错误率高等缺点. 同时, 强化学习智能飞控算法虽在仿真中取得很好的性能, 但在实际中仍缺乏一套完备的开发系统. 本文提出一套基于模型的智能飞控开发系统, 使用模块化编程及自动代码生成技术, 将强化学习算法应用于飞控的嵌入式开发与部署. 该系统可以实现强化学习算法的训练仿真、测试及硬件部署, 旨在提升以强化学习为代表的智能控制算法的部署速度, 同时降低智能飞行控制系统的开发难度.
2022, 31(7):99-105. DOI: 10.15888/j.cnki.csa.008579
摘要:目前随着特高压电网建设的提速, 电网一体化运行特征越来越明显, 检修计划管理作为连接多种业务的核心环节, 业务增长量极大地增加, 电网运行对检修计划管理的交互能力与信息披露能力也提出了新的要求. 论文确定了基于调控云的检修计划管理信息多级共享机制, 设计整合了数据交换服务, 数据披露服务, 消息提醒服务以及数据安全及管理服务, 形成了信息多级共享应用. 实际应用表明该应用提升了检修计划数据交互效率, 保证了数据安全性提升了信息披露能力.
2022, 31(7):106-112. DOI: 10.15888/j.cnki.csa.008593
摘要:近年来在图像描述领域对于应用场景图生成描述的研究越来越广泛. 然而, 当前基于场景图的图像描述模型并未考虑到长短期记忆神经网络(LSTM)对于先前输入的细节信息的保留, 这可能会导致细节信息的丢失. 针对这个问题, 本文提出基于原始信息注入的图像描述网络, 该网络对基线模型中语言LSTM的输入变量做了改进, 目的是尽可能多地保留原始输入信息, 减少输入信息在计算过程中的损失. 另外, 本文还认为当前的场景图更新机制中存在结点更新程度过大的问题, 因此本文设计了一个访问控制模块更新已访问过的结点权重, 避免引起结点信息丢失的问题. 同时, 本文设计一个图更新系数(GUF)来指导图更新, 以确定更新程度的大小. 本文在官方数据集MSCOCO上进行了实验, 各种评估机制的实验结果表明, 基于访问控制模块与原始信息注入的图像描述模型与基线模型对比, 取得了更有竞争力的结果, 表现出明显的优越性.
2022, 31(7):113-119. DOI: 10.15888/j.cnki.csa.008567
摘要:由于国产申威基础数学库其功能、接口需要与单机编译器glibc libm库保持一致, 将基础数学库集成到glibc 中进行功能测试时, 检测出有部分函数的INE异常需要消除. 针对这种情况, 首先研究了glibc 数学库的异常检测机制; 然后针对基础数学库中数值函数的INE异常进行分析和优化, 提出一种测试数据集分段处理的方法, 最后消除了这种INE异常. 测试表明, 测试数据集分段处理的方法能够有效解决数值函数的INE异常, 相对于之前的异常处理方法, 使用本方法后平均性能加速比达到148%.
2022, 31(7):120-127. DOI: 10.15888/j.cnki.csa.008597
摘要:针对龙芯处理器调节自身电压会影响CPU负载的正常运行, 导致处理器无法运行在高压下进而影响高频的稳定运行问题, 提出一种基于系统管理核(system management controller, SMC)的睿频方法, 充分利用系统管理核实时监测并动态调节处理器核的电压和频率. 同时, 为保证系统管理核程序运行的实时性以及其与处理器核之间的快速通信, 在其系统程序中搭载RT-Thread实时操作系统并设计“Service Request”核间通信协议; 结合动态调频调压模块和自动化温度控制模块, 实现系统管理核对处理器核频率、电压与温度的统一管理. 龙芯3A4000处理器的实验数据表明, 该方法有效且可靠, 处理器在整体功耗增加了25.5%的情况下, 综合性能提升最高可达34.2%.
2022, 31(7):128-134. DOI: 10.15888/j.cnki.csa.008554
摘要:目前人脸表情识别研究多数采用卷积神经网络(CNN)提取人脸特征并分类, CNN的缺点是网络结构复杂, 消耗计算资源. 针对以上缺点, 本文采用基于多层感知机(MLP)的Mixer Layer网络结构用于人脸表情识别. 采用数据增强和迁移学习方法解决数据集样本不足的问题, 搭建了不同层数的Mixer Layer网络. 经过实验比较, 4层Mixer Layer网络在CK+和JAFFE 数据集上的识别准确率分别达到了98.71%和95.93%, 8层Mixer Layer网络在Fer2013数据集上的识别准确率达到了63.06%. 实验结果表明, 无卷积结构的Mixer Layer网络在人脸表情识别任务上表现出良好的学习能力和泛化能力.
2022, 31(7):135-142. DOI: 10.15888/j.cnki.csa.008586
摘要:为解决现有课堂过程管理手段比较落后, 系统功能比较单一的问题, 本文设计了一种集课堂考勤、课堂行为识别和管理、自主学习管理于一体的智能课堂管理系统. 该系统以深度视觉传感器Kinect V2为数据采集设备, 以LabVIEW为软件开发平台, 实现了基于人脸识别和移动设备定位相结合的课堂考勤功能, 基于骨架特征提取和SVM分类器的课堂行为识别和分析功能, 基于MyEclipse和MySQL数据库的学生自主学习管理功能. 实验表明, 该系统人脸识别签到的识别准确率达到97%; 课堂行为识别精度达到95%以上; 数据库设计合理完善, 自主学习功能灵活可靠.
2022, 31(7):143-148. DOI: 10.15888/j.cnki.csa.008583
摘要:随着互联网技术的不断发展, 通过网络Web进行文件的上传拥有越来越多的应用需求. 其中, 在大容量文件的上传中, 常常因资源过大导致带宽资源紧张、浏览器崩溃或加载超时等问题, 大大降低了用户体验. 针对大文件上传的众多限制问题, 本文设计并实现了基于Node.js的大文件上传系统, 采用自适应分片结合并发上传的方法, 有效地缩短了大文件上传时间. 同时结合element-ui 框架, 利用进度条实时展示上传进度, 具备良好的交互性能.
2022, 31(7):149-157. DOI: 10.15888/j.cnki.csa.008598
摘要:电力企业为实现数字资产管理, 提高行业运行效率, 促进电力信息化的融合, 需要实施有效的数据组织管理方法. 针对电力行业中的数据, 提出了基于字级别特征的高效文本类型识别模型. 在该模型中, 将字符通过BERT预训练模型生成电力客服文本动态的高效字向量, 字向量序列输入利用融合注意力机制的双向长短期记忆网络(BiLSTM), 通过注意力机制有效捕捉文本中帮助实现类型识别的潜在特征, 最终利用Softmax层实现对电力文本的类型识别任务. 本文提出的模型在电力客服文本数据集上达到了98.81%的准确率, 优于CNN, BiLSTM等传统神经网络识别方法, 增强了BERT模型的应用, 并有效解决了电力文本类型识别任务中语义的长距离依赖问题.
2022, 31(7):158-164. DOI: 10.15888/j.cnki.csa.008544
摘要:文本匹配是自然语言处理的一个核心研究领域, 深度文本匹配模型大致可以分为表示型和交互型两种类型, 表示型模型容易失去语义焦点难以衡量词上下文重要性, 交互型模型缺少句型、句间等全局性信息. 针对以上问题提出一种融合多角度特征的文本匹配模型, 该模型以孪生网络为基本架构, 利用BERT模型生成词向量进行词相似度融合加强语义特征, 利用Bi-LSTM对文本的句型结构特征进行编码, 即融合文本词性序列的句型结构信息, 使用Transformer编码器对文本句型结构特征和文本特征进行多层次交互, 最后拼接向量推理计算出两个文本之间的相似度. 在Quora部分数据集上的实验表明, 本模型相比于经典深度匹配模型有更好的表现.
2022, 31(7):165-171. DOI: 10.15888/j.cnki.csa.008575
摘要:为了提高数字水印算法的鲁棒性, 提出了一种基于矢量长度比的三维网格零水印算法. 首先, 将三维网格模型由直角坐标系转化为球坐标系. 其次, 对网格模型的顶点进行分块并计算每个块质心. 然后, 计算每个顶点到块质心的距离以及邻域顶点到块质心的平均距离的比值, 并将比值序列与比值的平均值进行比较, 根据比较的大小记为0和1; 统计每个分块0、1数量的多数, 以此构成模型的特征序列. 最后, 将版权信息的二值序列与特征序列进行异或, 得到最终的零水印序列. 实验结果表明, 本文算法能够抵抗平移、旋转、均匀缩放、噪声、平滑、简化和剪切等常见的攻击, 也能够对三维网格模型进行版权保护.
2022, 31(7):172-178. DOI: 10.15888/j.cnki.csa.008582
摘要:为进一步提高花卉分类的准确率, 在对现有的VGG16网络模型进行研究的基础上, 提出一种基于视觉注意力机制的网络模型. 将SE视觉注意力模块嵌入到VGG16网络模型中, 实现了对花卉显著性区域特征的提取; 为有效防止梯度爆炸及梯度消失, 加快网络的训练和收敛的速度, 在各卷积层后加入BN层; 采用多损失函数融合的方式对新模型进行训练. 新模型能有效提取花卉的花蕊、花瓣等显著性区域, 放大了花卉的类间距离, 缩小了类内距离, 加快了网络的收敛, 进一步提高了花卉分类的准确率. 实验结果表明, 新模型在Oxford-102数据集上的分类准确率比未引入注意力前有较大提高, 与参考文献相比, 分类准确率也有较大的提高.
2022, 31(7):179-185. DOI: 10.15888/j.cnki.csa.008587
摘要:传统生成对抗网络的语音增强算法(SEGAN)将时域语音波形作为映射目标, 在低信噪比条件下, 语音时域波形会淹没在噪声中, 导致SEGAN的增强性能会急剧下降, 语音失真现象较为严重. 针对该问题, 提出了一种多阶段的时频域生成对抗网络的语音增强算法(multi-stage-time-frequency SEGAN, MS-TFSEGAN). MS-TFSEGAN采用了多阶段生成器与时频域双鉴别器的模型结构, 不断对映射结果进行完善, 同时捕获时域与频域信息. 另外, 为了进一步提升模型对频域细节信息的学习能力, MS-TFSEGAN在生成器损失函数中引入了频域L1损失. 实验证明, 在低信噪比条件下, MS-TFSEGAN的语音质量和可懂度与SEGAN相比分别提升了约13.32%和8.97%, 作为语音识别前端时在CER上实现了7.3%的相对提升.
2022, 31(7):186-193. DOI: 10.15888/j.cnki.csa.008562
摘要:信息爆炸是信息化时代面临的普遍性问题, 为了从海量文本数据中快速提取出有价值的信息, 自动摘要技术成为自然语言处理(natural language processing, NLP)领域中的研究重点. 多文档摘要的目的是从一组具有相同主题的文档中精炼出重要内容, 帮助用户快速获取关键信息. 针对目前多文档摘要中存在的信息不全面、冗余度高的问题, 提出一种基于多粒度语义交互的抽取式摘要方法, 将多粒度语义交互网络与最大边界相关法(maximal marginal relevance, MMR)相结合, 通过不同粒度的语义交互训练句子的表示, 捕获不同粒度的关键信息, 从而保证摘要信息的全面性; 同时结合改进的MMR以保证摘要信息的低冗余度, 通过排序学习为输入的多篇文档中的各个句子打分并完成摘要句的抽取. 在Multi-News数据集上的实验结果表明基于多粒度语义交互的抽取式多文档摘要模型优于LexRank、TextRank等基准模型.
许鸿奎,卢江坤,张子枫,周俊杰,胡文烨,姜彤彤,郭文涛,李振业
2022, 31(7):194-202. DOI: 10.15888/j.cnki.csa.008638
摘要:Transformer模型对输入序列中重要的信息进行学习, 相比传统的ASR (automatic speech recognition)模型提升了准确性. Conformer模型在Transformer的编码器中加入卷积模块, 增加了获取细微局部信息的能力, 进一步提高了模型性能. 本文结合使用Conformer模型和N-gram语言模型(language model , LM)用于中文语音识别, 获得了良好的识别效果. 在数据集AISHELL-1和aidatatang_200zh上的实验表明, 使用Conformer模型字错率分别可降低到5.79%和5.60%, 较Transformer模型降低了5.82%和2.71%. 结合N-gram语言模型后字错率分别可降低到4.86%和5.10%达到最佳性能, 实时率(real time factor , RTF)达到
2022, 31(7):203-209. DOI: 10.15888/j.cnki.csa.008621
摘要:为了降低服装目标检测模型的参数量和浮点型计算量, 提出一种改进的轻量级服装目标检测模型——G-YOLOv5s. 首先使用Ghost卷积重构YOLOv5s的主干网络; 然后使用DeepFashion2数据集中的部分数据进行模型训练和验证; 最后将训练好的模型用于服装图像的目标检测. 实验结果表明, G-YOLOv5s的mAP达到71.7%, 模型体积为9.09 MB, 浮点型计算量为9.8 G FLOPs, 与改进前的YOLOv5s网络相比, 模型体积压缩了34.8%, 计算量减少了41.3%, 精度仅下降1.3%, 方便部署在资源有限的设备中使用.
2022, 31(7):210-216. DOI: 10.15888/j.cnki.csa.008605
摘要:集成学习被广泛用于提高分类精度, 近年来的研究表明, 通过多模态扰乱策略来构建集成分类器可以进一步提高分类性能. 本文提出了一种基于近似约简与最优采样的集成剪枝算法(EPA_AO). 在EPA_AO中, 我们设计了一种多模态扰乱策略来构建不同的个体分类器. 该扰乱策略可以同时扰乱属性空间和训练集, 从而增加了个体分类器的多样性. 我们利用证据KNN (K-近邻)算法来训练个体分类器, 并在多个UCI数据集上比较了EPA_AO与现有同类型算法的性能. 实验结果表明, EPA_AO是一种有效的集成学习方法.
2022, 31(7):217-223. DOI: 10.15888/j.cnki.csa.008606
摘要:针对FSRCNN模型中存在的特征提取不充分和反卷积带来的人工冗余信息的问题, 本文提出了一种基于多尺度融合卷积神经网络的图像超分辨率重建算法. 首先设计了一种多尺度融合的特征提取通道, 解决对图像不同尺寸信息利用不充分问题; 其次在图像重建部分, 采用子像素卷积进行上采样, 抑制反卷积层带来的人工冗余信息. 与FSRCNN模型相比, 在Set5和Set14数据集中, 2倍放大因子下的PSNR值和SSIM值平均提高了0.14 dB、
2022, 31(7):224-230. DOI: 10.15888/j.cnki.csa.008624
摘要:针对X光安检违禁品检出率低下的问题, 提出了一种基于改进Cascade RCNN网络的X光安检违禁品检测算法. 该算法在网络结构上引入批特征擦除(batch feature erasing, BFE)模块. BFE模块通过随机擦除相同区域来增强局部特征学习, 进而强化网络对剩余特征的学习表达. 此外, 针对检出率低下问题, 在该算法中提出加权SD loss损失函数, 该损失函数使用权重融合的方式将Smooth L1 loss与DIoU loss进行加权融合, 通过改变权重比例系数, 能够使目标检测结果更加准确, 一定程度上提高了检出率. 实验结果表明: 在公开的X光安检违禁品数据集上, 测试性能与原算法相比, 改进Cascade RCNN网络对X光安检违禁品检出率增长了3.11%, 改进算法的识别精度有一定的提高.
2022, 31(7):231-238. DOI: 10.15888/j.cnki.csa.008608
摘要:视频放大技术给予了人们观察并研究事物微小变化的机会. 利用复可控金字塔分解视频, 通过分析不同尺度不同方向的相位差来操纵视频中的运动. 复可控金字塔中某些尺度的信号放大后超出了其相移极限, 产生伪影及模糊. 调整各尺度的放大因子能够解决这一问题. 本文提出一种基于多尺度滤波的视频放大算法, 通过建立视频帧图像空间波长与振动位移的联系, 确定各尺度的放大因子的上限, 无须人工设定截止波长, 自行调整复可控金字塔各尺度的放大因子, 使得放大后的信号能够适应其相移极限. 通过对附加在大运动上的振动进行放大, 验证了本算法的性能, 相比现有的视频放大算法具有明显优势.
2022, 31(7):239-246. DOI: 10.15888/j.cnki.csa.008585
摘要:传统的故障分类方法大多假设不同类别的数据样本量是相似或相等的. 然而在实际的工业过程中采集到的数据多数是正常数据, 少部分是故障数据, 这就造成了数据的不平衡. 针对不平衡数据问题, 本文提出了一种K-means Bayes与AdaBoost-SVM相结合的故障分类方法, 通过设计两种独立的分类器, 并利用D-S证据理论对分类结果融合, 以弥补各自对某些类别分类能力较弱的缺陷. 实验证明, 本文提出的故障分类方法与单一Bayes或SVM比较, 具有更高的分类准确率.
2022, 31(7):247-252. DOI: 10.15888/j.cnki.csa.008573
摘要:交通信息采集设备捕获的车牌数据是研究车辆出行轨迹的天然载体, 可用于追踪、还原车辆在路网的完整出行轨迹. 但是, 受技术与设备覆盖等限制, 采集的时序车牌数据总是呈现出稀疏不完整的性质. 为充分利用车牌数据, 研究并提出一种基于稀疏车牌数据的OD轨迹还原算法. 该算法首先以间隔时间阈值分离车辆的OD出行链. 然后基于K则最短路径算法(KSP)生成多个近似的候选轨迹. 最后, 采用变分自编码器(VAE)选择决策最优估计轨迹, 以获取车辆完整出行轨迹. 该方法已在杭州市萧山区实际交通小区进行实施验证. 结果显示, 所提出的还原算法在测试小区可达95%的综合准确率. 此外, 在节点缺失率高、摄像点位覆盖率低的情况下, 重构算法依然具备良好的性能(高于50%).
2022, 31(7):253-258. DOI: 10.15888/j.cnki.csa.008564
摘要:本文针对电力一线员工绩效考核普遍存在的考核人员评测难、“过于量化”的问题, 提出了一套基于工单的绩效评价模型. 通过对同类工作项基于多维评价属性简单定性进行纵向计数量化, 对不同工作项基于班组长的主观评估权重进行横向聚类, 充分挖掘考核人员主观评估中隐含的价值信息. 同时, 本文提出基于平均度数的动态随机拓扑PSO算法对模型进行求解, 对算法中粒子编码方式、约束条件处理、策略具体实现等展开了深入的探究. 最后, 本文选取5个同类型班组采用该模型进行绩效测算, 验证了本文模型和算法的有效性, 为电力一线员工绩效考核提供了一个新的方法.
2022, 31(7):259-264. DOI: 10.15888/j.cnki.csa.008604
摘要:人眼瞳距在视光学研究中和配置眼镜时都是需要精确测量的基础性参数, 实现瞳距自动检测具有重要的应用价值, 结合高斯肤色模型, 提出一种基于灰度积分投影与霍夫圆变换算法的人眼瞳孔定位和瞳距计算方法. 首先, 通过二维伽马函数的自适应亮度校正方法对图像进行光照补偿预处理, 在此基础上, 利用肤色概率模型检测人脸并提取出面部区域. 再运用灰度积分投影法, 选取合适的阈值对眼部区域进行提取, 经过一系列形态学图像处理, 采用Canny边缘检测算子实现瞳孔边缘检测, 最后通过Hough圆变换算法进行瞳孔定位, 并对其中心距离进行计算. 研究结果表明, 该算法具有较快的瞳孔定位速度, 能够较精确地实现瞳距自动测量, 为瞳孔测距的智能化技术研究奠定了基础.
2022, 31(7):265-271. DOI: 10.15888/j.cnki.csa.008578
摘要:针对红外图像信噪比低, 易受背景环境影响的问题, 提出一种基于不可分离小波的多尺度方向分析(NSWMDA)和连接突触计算网络(LSCN)的图像增强算法. 该算法首先将原始图像进行冗余提升的不可分离小波变换(NSWT), 得到高频细节子带和低频近似子带, 然后对高频细节子带进行多方向滤波后LSCN算法进行增强, 对低频近似子带直接采用LSCN算法增强, 最后对处理后的子图进行融合重构得到增强后的红外图像. 在电力变压器红外图像中, 该算法相比其他算法在边缘强度、信息熵、峰值信噪比、结构相似度、平局梯度5种指标中分别至少提升了10.86%、14.39%、19.95%、7.06%、6.70%. 实验结果表明, 该算法不仅提升了红外图像整体清晰度, 同时也使得图像的细节纹理和对比度得到加强, 具有很好的红外图像增强效果.
2022, 31(7):272-277. DOI: 10.15888/j.cnki.csa.008561
摘要:在施工现场中, 安全帽能够减轻对头部的伤害, 且不同颜色的安全帽代表不同的身份, 基于当前施工现场通过视频监控来对工人安全帽的佩戴以及工种身份识别存在一定的耗时性, 不完全性, 监督效率低等问题, 本文提出了一种基于YOLOv4改进的安全帽佩戴检测以及身份识别的方法, 在原始的YOLOv4的基础之上, 使用K-means算法对先验框的大小重新进行聚类分析处理, 增加多尺度预测输出, 实现DIoU NMS进行非极大值抑制, 从而使工人安全帽佩戴及身份识别达到高效性, 全面性. 结果表明, 佩戴红、蓝、黄、白安全帽和未佩戴安全帽工人平均检测准确率达到92.1%, 从而保证能够实现对施工现场工人安全帽的佩戴达到一种实时监控.
2022, 31(7):278-284. DOI: 10.15888/j.cnki.csa.008559
摘要:在烧结矿生产过程中, 烧结矿形成的气孔是烧结矿的质量评估的重要参数. 由于烧结矿的气孔形状不一、气孔边缘模糊等问题, 导致分割出的气孔误差率较大. 为了能更准确地分割出气孔, 先对烧结矿图像进行OpenCV图像预处理. 对比传统的图像分割算法, 本文提出一种基于改进UNet网络对预处理后的烧结矿气孔图像进行分割的算法. 在UNet网络编码中引入残差和拼接连接结合思想的改进模块, 以获得更多的气孔特征信息. 实验结果表明, 改进的算法在MIoU和Dice指标均优于传统UNet网络和传统图像分割.
2022, 31(7):285-289. DOI: 10.15888/j.cnki.csa.008596
摘要:在图像处理领域, 图像去噪是一项极具挑战性的任务. 图信号理论的发展为我们解决这一问题提供了新的视角. 本文研究了基于图信号方法的权重矩阵与拉普拉斯矩阵, 将它们用于图像去噪的目标函数, 这两个矩阵可以很好地定义观测图像与期望图像之间的内在联系. 在提出去噪目标函数的基础上, 我们给出了最优解和一种迭代的快速求解算法. 实验表明, 该方法优于BM3D和WNNM等前沿的去噪方法.
2022, 31(7):290-297. DOI: 10.15888/j.cnki.csa.008563
摘要:直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题, 本文采取了相关改进方法. 首先在分词阶段采用基于词频统计的重复词串提取算法, 保留地质专业名词以准确提取文本主题, 同时减少冗余词串数量节约内存花销, 提升保留词的提取效率. 另外, 使用基于TF-IDF和词向量的文本数据增强算法, 对原始分词语料进行处理以强化文本主题特征. 之后该算法与主题模型相结合在处理后的语料上提取语料主题. 由于模型的先验信息得到增强, 故性能得以提高. 实验结果表明本文算法与LDA模型相结合的方法表现较好, 在相关指标及输出结果上均优于其他方法.
2022, 31(7):298-306. DOI: 10.15888/j.cnki.csa.008577
摘要:手持相机拍照瞬间, 通常手部抖动可产生画面的微小运动. 一方面微小运动蕴含了视差信息, 将有助于进行场景深度感知并可潜在应用于虚拟/增强现实和照片重定焦等领域. 另一方面, 由于极窄的基线, 图像对应点匹配过程中对噪声较为敏感, 因而从无标定的微运动视频重建场景极具挑战性. 当前处理微运动视频三维重建的主流方法由于没有考虑重建过程的不确定性, 导致算法精度较差. 本文提出一种高精度的从无标定微运动视频复原场景深度的算法, 主要包含2个关键步骤: 首先, 在自标定阶段, 提出一种视点加权的光束平差方法, 充分考虑邻域视点间由于基线不同所产生的匹配不确定性, 减少较窄基线视点的可信度, 保持自标定过程的鲁棒性; 进一步地, 提出一种基于广义全变分平滑的深度图估计方法, 抑制窄基线产生的深度图噪声的同时保持倾斜结构和精细几何特征. 本文提出的方法与当前处理微运动三维重建的主流方法在真实和合成数据集上进行了定量和定性实验, 充分验证了提出方法的有效性.
2022, 31(7):307-315. DOI: 10.15888/j.cnki.csa.008623
摘要:为了优化项目管理系统界面, 提升界面的可用性, 提出一种融合认知负荷的界面布局优化设计方法. 该方法将客观认知规律与用户主观认知相结合, 形成布局设计原则, 并转化为可计算的界面布局多目标优化函数. 在此基础上, 利用麻雀搜索算法对目标函数编码, 寻求空间最优解, 得到布局优化方案. 为验证本文方法的有效性, 以某铁路项目管理平台首页为例, 使用该方法对其进行优化, 并将眼动生理测量方法引入评价过程中, 以测量眼动负荷大小为目标进行可用性测试. 实验结果表明优化后的界面布局相较于初始界面可用性指标有了明显提升, 证明了该方法的有效性且具有一定的实用性.
2022, 31(7):316-324. DOI: 10.15888/j.cnki.csa.008589
摘要:室内平面设计是在房地产开发商交付的毛坯房进行装修过程中首当其冲的步骤, 符合用户个性化需求的平面图设计是典型的隐性优化问题. 室内设计工程师与用户之间的沟通很难准确获取用户需求, 且成本极高. 基于最优法则理论, 通过交互式遗传算法中的人机交互模式, 用主观评价替代繁琐的适应值函数设计来解决上述挑战. 实验表明, 该算法能有效满足平面图设计过程中客户的个性化需求, 改进的交互式遗传算法将用户的主观评价引入到传统的设计流程, 让用户真正参与到设计工作中.
2022, 31(7):325-332. DOI: 10.15888/j.cnki.csa.008572
摘要:针对现有单一算法模型在成绩预测时存在泛化能力不强的问题, 提出一种基于多算法融合的Stacking集成学习模型, 用于混合式教学中学生成绩的预测. 模型以多项式朴素贝叶斯、AdaBoost和Gradient boosting为初级学习器, 逻辑斯蒂回归为次级学习器组成两层融合框架. 通过混合式教学过程中所产生的学习行为数据对模型进行验证. 实验表明, Stacking集成学习模型在测试集上分类预测准确率达到76%, 分别高于多项式朴素贝叶斯、AdaBoost、Gradient boosting和逻辑斯蒂回归4个单一算法模型5%、6%、9%和6%. 与单一算法模型相比, Stacking集成学习模型有着较强的泛化能力, 能更好地预测学生成绩, 为混合式教学的学习预警提供参考.
2022, 31(7):333-340. DOI: 10.15888/j.cnki.csa.008576
摘要:近年来, 人工智能在各个领域有着广泛的应用. 针对超市及菜市场人工称重操作耗时、计价流程繁杂的问题, 本文提出一种基于注意力YOLOv5模型的水果自动识别算法. 首先, 为了提升仅有局部特征不同, 全局特征相似水果的识别准确率, 本文在YOLOv5的SPP (spatial pyramid pooling)层后增加SENet (squeeze-and-excitation networks), 采用注意力机制自动学习每个特征通道的重要程度, 进而按照重要程度强化对水果识别任务有用的特征并抑制没有用的特征; 其次, 针对水果识别预测框与目标框重叠时, GIOU不能准确表达边框重合关系问题, 本文将原有的边框回归损失函数GIOU替换为CIOU, 同时考虑目标框与预测框的高宽比和中心点之间的关系, 从而使水果预测框更加接近真实框, 提升预测精度. 实验结果表明, 改进后的模型在常见场景下水果识别能力有明显提升, 平均精度mAP达99.10%, 识别速度FPS达到82, 能够满足实际应用需要.
2022, 31(7):341-348. DOI: 10.15888/j.cnki.csa.008594
摘要:针对目前沥青路面裂缝检测存在的识别率低和细微裂缝在复杂背景下难以检测的问题, 提出了基于改进Faster-RCNN的裂缝检测方法. 首先, 通过多功能路面检测车采集路面图像, 将
2022, 31(7):349-355. DOI: 10.15888/j.cnki.csa.008549
摘要:农作物叶片病害的自动识别是计算机视觉技术在农业领域的一个重要应用. 近年来, 深度学习在农作物叶片病害识别上取得了一些进展, 但这些方法都是采用基于单一深度卷积神经网络模型的深度特征表示. 而不同的深度卷积神经网络模型对图像的表征能力的互补性这一有用的特性, 还没有得到关注和研究. 本文提出一种用于融合不同深度特征的网络模型MDFF-Net. MDFF-Net将两个预训练的深度卷积神经网络模型进行并联, 再为各个模型分别设置一个具有相同神经元个数的全连接层, 以将不同模型输出的深度特征变换成相同维度的特征, 再通过2个全连接层的非线性变换, 进一步提升特征融合的效果. 我们选取VGG-16和ResNet-50作为MDFF-Net网络的并联骨干网络, 在一个包含5种苹果叶片病害的公开数据集上进行实验. 实验结果显示, MDFF-Net网络的识别精度为96.59%, 取得了比VGG-16和ResNet-50单一网络更好的识别效果, 证明了该深度特征融合方法的有效性.
2022, 31(7):356-364. DOI: 10.15888/j.cnki.csa.008558
摘要:相量测量单元(phasor measurement unit, PMU)时序数据在支撑电网安全稳定运行中发挥了重要作用, 而随着电网调控云建设, 电网运行数据统计分析等业务对PMU时序数据的云端共享提出了需求. 本文提出了一种面向PMU时序数据的云边协同技术, 该技术针对PMU时序数据的存储和访问特性, 构建数据协同模型架构, 实现PMU时序数据从电网调度系统生产控制区边缘节点汇集到调控云, 并通过模型化的方式进行共享. 通过在测试环境下进行实施和测试, 验证了该技术的可行性.
2022, 31(7):365-371. DOI: 10.15888/j.cnki.csa.008580
摘要:传统预测模型在处理多元时间序列时, 常常难以捕捉其非线性动力系统的复杂变化规律导致预测精度较低. 针对此问题, 本文将PCC-BiLSTM-GRU-Attention组合模型的预测方法进行了探讨和验证. 该方法首先使用Pearson相关系数(PCC)进行相关性检验并删除无关特征, 实现了对多元数据的降维选优. 其次使用双向长短期记忆神经网络(BiLSTM)双向提取时序特征. 最后使用GRU神经网络融合注意力机制(Attention), 进一步学习双向时序特征的变化规律, 精准捕捉关键时刻的信息. 为了验证该方法在多元时间序列中的可行性, 本文以股票价格预测作为实验场景, 并与BP模型、LSTM模型、GRU模型、BiLSTM-GRU模型、BiLSTM-GRU-Attention模型进行对比. 验证结果表明: 本文探讨的PCC-BiLSTM-GRU-Attention组合模型的预测方法相比其他模型具有较高的预测精度, 其平均绝对百分比误差(MAPE)达到了2.484%, 决定系数达到了0.966.
2022, 31(7):372-378. DOI: 10.15888/j.cnki.csa.008607
摘要:对于一些可以从视网膜血管观测到的眼科疾病, 眼底图像起着关键的作用, 能够为专业的医科人员提供有效的参考, 然而手工标注血管费时费力, 且工作量较大, 所以实现自动智能的血管分割方法对相关人员大有裨益. 本文将Attention机制与RU-Net结构融合应用到生成对抗网络(generative adversarial network, GAN)的生成器中, 形成了一种新的结构——Retina-GAN. 同时在对眼底图像的预处理步骤上选择了自动色彩均衡 (ACE), 提高图像对比度, 使血管更加清晰. 为了验证所提出的方法, 选用DRIVE数据集, 并把Retina-GAN与其他研究比照, 测量分析了算法准确性、灵敏度和特异度. 实验数据显示Retina-GAN比其他模型具有更好的性能.
2022, 31(7):379-385. DOI: 10.15888/j.cnki.csa.008588
摘要:公路隧道在建设过程中易受到地理环境等因素的影响, 山体结构的不稳定可能会产生潜在的安全隐患, 而隧道沉降量是反应隧道结构变化的一项重要指标, 因此提出一种基于贝叶斯优化XGBoost的隧道沉降监测量预测模型. 由于隧道施工场景复杂干扰严重, 给数据采集和后期沉降变化分析带来困难, 本文首先对原始沉降监测数据进行时间尺度统一, 然后融合时域和空域信息对数据中的异常值、缺失值进行数据修复, 在此基础上, 提出贝叶斯优化的XGBoost集成模型对隧道监测的周边收敛、地表沉降和拱顶沉降数据分别进行分析. 通过与优化前模型以及时序预测模型预测结果进行对比, 发现贝叶斯优化的XGBoost模型精度最高, 对拱顶沉降、地表沉降、周边收敛的平均预测精度可以达到
2022, 31(7):386-391. DOI: 10.15888/j.cnki.csa.008618
摘要:提高图像质量与利用新的图像分类方法是提高遥感图像树种识别精度两个突破口. 本文基于VGG16的预训练模型与无人机可见光影像进行杉木、马尾松2个树种识别研究. 利用大疆精灵4RTK无人机, 搭载FC6310R相机, 采集南平市和三明市的杉木和马尾松人工纯林彩色图像. 通过图像预处理、标注、裁剪和增强等环节构建UAVTree2k和UAVTree20k两个数据集. 基于UAVTree2k数据集和VGG16模型在ImageNet数据集的预训练模型, 重新训练3个全连接层和Sigmoid层, 研究探讨不同迭代次数、不同批次大小、不同训练集和测试集划分比例对识别精度的影像. 研究结果表明, 当迭代次数为40、批次大小为16、训练集和测试集为6:4时, 模型识别效果最好, 测试精度达到98.63%; 小样本下, 基于VGG16的预训练模型具有良好的特征学习能力.