2018, 27(9):1-9. DOI: 10.15888/j.cnki.csa.006538 CSTR:
摘要:在世界上,约有七百万到一千万老年人正在承受着帕金森(Parkinson's Disease,PD)疾病带来的困扰.帕金森疾病是一种常见的神经系统变性疾病,它的临床特征为震颤、强直、运动迟缓以及自主能力的下降.其临床表现和多系统萎缩(Multiple System Atrophy,MSA)病症极为相似.研究表明,帕金森病症患者在确诊时,往往已经到了无法挽回的境地,所以对于帕金森病症能够区别于MSA病症并且得到早期诊断,人们在不断探索新的方法.随着大数据时代的到来,深度学习在图像识别和分类方面取得了重大性突破.所以,本研究提出使用深度学习方法实现对帕金森疾病、多系统萎缩症和健康人群的诊断.本数据来源北京301医院.原始核磁共振图像(Magnetic Resonance Image,MRI)的处理得到北京301医院医生的指导.本实验重点在于改进现有神经网络,使其在医学图像识别和诊断中获得良好的效果.本实验依据帕金森病症的病理特点提出了改进算法,通过对比模型损失、准确率等指标获得了较好的实验结果.
2018, 27(9):10-17. DOI: 10.15888/j.cnki.csa.006503 CSTR:
摘要:针对现有的景点推荐算法在处理用户关系时忽视了用户隐性信任和信任传递问题,以及当用户处于新城市时由于缺乏用户历史记录无法做出准确推荐的情况,本文提出一种综合用户信任关系和标签偏好的个性化景点推荐方法.在仅仅考虑用户相似度时推荐质量差的情况下引入信任度,通过挖掘用户隐性信任关系解决了现有研究在直接信任难以获取时无法做出推荐的情况,有效缓解了数据稀疏性和冷启动问题.同时在用户兴趣分析过程中将景点和标签的关系扩展到了用户、景点和标签三者的相互关系,把用户的兴趣偏好分解成对不同景点标签的长期偏好,有效地缓解了缺乏用户历史游览记录时推荐质量不佳的问题.通过在Flickr网站上收集的数据进行实验验证,结果表明本文提出的混合推荐算法有效地提高了推荐精度,在一定程度上缓解了冷启动和新城市问题.
2018, 27(9):18-24. DOI: 10.15888/j.cnki.csa.006552 CSTR:
摘要:命名实体识别是自然语言处理中的一项基础任务,传统的识别方法往往需要外部知识和人工筛选特征,需要较高的人力成本和时间成本;针对传统方法的局限性,提出一种基于GRU (Gated Recurrent Unit)的命名实体识别模型,该模型以字向量作为输入单位,通过双向GRU层提取特征,并通过输出层得到标签序列.在传统命名实体和会议名称这种特定领域命名实体上对该模型进行了测试.实验结果表明,本文设计的循环神经网络模型能有效的识别命名实体,省去了人工设计特征的繁琐工作,提供了一种端到端的识别方法.
2018, 27(9):25-32. DOI: 10.15888/j.cnki.csa.006518 CSTR:
摘要:置信度传播算法作为一种有效的寻找图像间对应点的方法,近年来被广泛应用于光流估计.但是在估计大位移高精度光流时,将置信度传播直接应用于原图像会导致标签空间过大和处理时间过长的问题.为了克服这个缺点,我们提出了一种基于分层置信度传播的算法来估计高精度大位移光流.本文方法将输入图像视作马尔科夫随机场,为了提高效率,在超像素和像素两个层面上执行置信度传播.我们将超像素层得到的基础位移结果作为粗略的位移参考值,可以有效地减小像素层置信度传播的标签空间,并在有限的标签空间内得到高精度的光流估计结果.MPI Sintel光流数据集上的实验结果显示本文提出的方法在精度和速度上都取得了较好的结果.
2018, 27(9):33-39. DOI: 10.15888/j.cnki.csa.006479 CSTR:
摘要:图像特征提取始终是计算机视觉和图像处理的核心任务.随着深度学习的快速发展,卷积神经网络逐渐取代传统图像特征算子,成为特征提取的主要算法.本文针对城市遥感数据众包标记系统中的数据关联问题,结合卷积神经网络和池化编码,提出基于深度先验的图像特征提取方法.该特征能有效聚焦室外图像近处物体,并通过图像检索实验验证了其对室外图像的良好表征能力.
2018, 27(9):40-46. DOI: 10.15888/j.cnki.csa.006533 CSTR:
摘要:许多自然语言应用需要将输入的文本表示成一个固定长度的向量,现有的技术如词嵌入(Word Embeddings)和文档表示(Document Representation)为自然语言任务提供特征表示,但是它们没有考虑句子中每个单词的重要性差别,同时也忽略一个句子在一篇文档中的重要性差别.本文提出一个基于层级注意力机制的文档表示模型(HADR),而且考虑文档中重要的句子和句子中重要的单词因素.实验结果表明,在考虑了单词的重要和句子重要性的文档表示具有更好的性能.该模型在文档(IMBD)的情感分类上的正确率高于Doc2Vec和Word2Vec模型.
2018, 27(9):47-51. DOI: 10.15888/j.cnki.csa.006542 CSTR:
摘要:深度学习是机器学习的一个分支,开创了神经网络发展的新纪元.自编码算法作为深度学习结构的重要组成部分,在无监督学习及非线性特征提取过程中起到了至关重要的作用.首先介绍自编码算法的基本概念及原理,然后介绍基于自编码算法的改进算法,最后列举了自编码算法在若干领域应用的知名案例和发展趋势.
2018, 27(9):52-60. DOI: 10.15888/j.cnki.csa.006523 CSTR:
摘要:PET影像检查中常常利用示踪剂进行造影.目前示踪剂的分装方法主要是传统人工稀释分装,存在着分装效率不高,对人体辐射剂量大等问题.为了解决上述问题,研究者对自动分装系统进行了一定的研究,但是其控制界面功能单一,不能实时监控分装工作情况.因此本文设计了一款基于Qt的自动化分装热室控制界面.该界面能接收通过网络传输的远端摄像头数据,对分装热室内部情况进行实时的显示,应用亮度均衡算法对图像进行处理.并使用串口通讯协议通过蓝牙与STM32F429开发板进行连接,设计相应的功能控件对开发板进行远程操作,配合分装机械系统实现对分装热室自动化控制.经试验测试表明,本界面实现了人机交互的友好界面功能,很好的提高了监控画质和系统响应速度,相比常用的监控软件MiniVCap和VCam,视频延时和CPU占有率都有明显的降低,并能稳定地与STM32F429进行连接,在性能和指标上达到了设计需要.
2018, 27(9):61-67. DOI: 10.15888/j.cnki.csa.006398 CSTR:
摘要:为了更合理地调度出租车资源,提出基于机器学习的智能出租车预测系统.首先,对波尔图出租车GPS数据集进行分割处理,并抽取其中的一部分作为研究对象;接着利用回声状态网络算法预测旅行目的地;最后利用随机森林算法在相同情况下预测出租车抵达时间.实验表明本系统能根据当前的波尔图出租车GPS数据集预测出实际出租车某段旅程的目的地和旅程所需要的时间,以达到减少出租车资源浪费的目的.
2018, 27(9):68-73. DOI: 10.15888/j.cnki.csa.006504 CSTR:
摘要:青海湖是我国最大的内陆湖,其对于当地生态系统起着至关重要的作用.对青海湖水体进行快速有效监测,成为研究的一个方向.目前的水体识别研究多采用单机版来进行实现,其存在识别速度较慢,自动化程度低等问题.随着遥感数据量的日益增长,传统识别方法难以满足需求.基于Hadoop和Spark分布式大数据框架,设计并实现了自动化水体识别系统.该系统主要实现了遥感图像的数据存储,数据读取,数据处理,模型预测等功能模块,并最后通过shell脚本来实现系统的自动化执行.最后选用了青海湖区域三天遥感图像数据来对系统进行验证.实验结果表明,该系统能够自动完成水体识别流程,并能准确的预测水体.
2018, 27(9):74-80. DOI: 10.15888/j.cnki.csa.006551 CSTR:
摘要:随着油田信息化建设的不断发展,越来越多的IT业务系统在油田各级单位普及应用.由于油田应用数量庞大、种类复杂,如何快速评估各类系统的运行情况和安全状况成为油田关注的重要问题.在使用这些应用系统的同时,一些访问信息会以日志的形式储存下来,因此通过分析日志数据可以挖掘出用户访问喜好,发觉业务系统潜在的安全问题,进而为油田应用评估提供决策依据.然而随着IT业务访问量剧增,应用日志的数量、容量也随之增加,仅依靠单机环境对海量数据进行分析已经无法满足油田业务需求.针对这个问题本文提出了基于Spark计算框架的应用日志行为分析方法,同时设计了可视化平台完成对整个分析系统的管理.
2018, 27(9):81-86. DOI: 10.15888/j.cnki.csa.006528 CSTR:
摘要:Docker容器产生的日志分散在不同的相互隔离的容器中,并且容器具有即用即销的特点,传统的解决方式是将日志文件挂载到宿主机上,但是容器经常会漂移,给日志的统一查看带来挑战,并且传统的Docker容器集群日志分析系统存在扩展性弱、效率低下等问题.本文采用Kubernetes实现容器管理、服务发现及调度,使用Filebeat采集容器及宿主机上的日志文件,并使用Redis作为缓存,Logstash转发,使用主流的开源日志收集系统ELK实现日志的存储、查看、检索.该系统具有可靠性、可扩展性等特点,提高运维人员的工作效率.
盛念祖 , 赵赫 , 王卫东 , 张中贤 , 吕波 , 李晓风
2018, 27(9):87-92. DOI: 10.15888/j.cnki.csa.006520 CSTR:
摘要:室内健身车是一种重要的室内有氧健身器材,常应用于心肺耐力评估测试和自助健身锻炼,但是现有室内健身车多使用串口连接通信,成本较高,通用性不佳.本文设计实现了一种基于无线局域网通信的室内健身车移动客户端,通过辅助室内健身车连接本地无线局域网并进行通信,实现室内健身车控制和实时运动信息展示,相较于传统的串口通信方法,可使健身车的使用范围更广,更便于普及.结果表明,该客户端可以有效提高室内健身车系统的通信效率,并大幅降低室内健身车的设备成本.
2018, 27(9):93-99. DOI: 10.15888/j.cnki.csa.006561 CSTR:
摘要:IETF提出的服务功能链(Service Function Chain,SFC)解决了服务功能在部署过程中网络拓扑与硬件设备紧密耦合、灵活性差等问题,其中,NSH协议用于支持服务功能链的实现.然而,标准的OpenFlow协议对NSH协议支持不足、实现过程复杂且实现后造成兼容性等问题.本文基于软件定义网络(Software Defined Network,SDN)和网络功能虚拟化(Network Function Virtualization,NFV)技术,根据IETF规定的相关标准,提出一种基于协议无感知转发(Protocol Oblivious Forwarding,POF)的服务功能链,利用POF在数据平面深度可编程的能力实现NSH协议.文中基于FloodLight控制器和POF交换机实现了该服务功能链,实验结果表明,基于协议无感知转发的服务功能链可以高效地实现服务功能的部署.
2018, 27(9):100-106. DOI: 10.15888/j.cnki.csa.006517 CSTR:
摘要:针对实际应用中色情图片的复杂多样性问题,提出一种基于多分类和深度残差网络(ResNet)的不良图片识别框架.不同于已有的方法将色情图片识别作为二分类问题,该方法基于多样性特征将色情图片分为7个更细粒度的类别,并将正常图片分为是否包含人物2个类别,通过50层ResNet模型进行分类,再按照阈值计算是否属于不良图片.为了减少训练时间和挖掘优质特征,采用一种反馈修正的训练策略.提出一种单边滑动窗口的预处理方法以解决图片不同尺度的影响问题.测试结果表明,该方法在时间效率和识别准确率上效果良好.
2018, 27(9):107-111. DOI: 10.15888/j.cnki.csa.006553 CSTR:
摘要:多租户作为云计算的核心计算,它解决了在相同的系统资源或软件应用中实现多用户共同访问和使用,提高了系统软硬件资源的利用率,如何保障租户服务质量的前提下提高服务器资源利用率是一个挑战性问题.本文在Eucalyptus平台基础上,利用多租户技术,实现了陕西农村饮水规划调查数据库系统.数据的存储方式采用共享数据库共享模式,提出了多租户改进遗传放置算法,将租户合理的放置到虚拟机上,在最少硬件资源使用的情况下保证了租户服务质量.在此基础上进行了实验分析,表明了上述算法的可行性和有效性.
2018, 27(9):112-117. DOI: 10.15888/j.cnki.csa.006534 CSTR:
摘要:为应对海量遥感影像快速计算的需求,通过对影像获取、算法和计算过程优化和改进,提出了一种基于Apache Spark并行计算框架的MODIS海表温度反演方法,实现了海量MODIS遥感影像的海表温度快速反演.应用四轮网络查询请求获取特定的时空范围影像数据,提高影像获取阶段的效率;应用简化算法参数、拟合过程变量改进海表温度劈窗算法,使之适合快速并行计算;应用弹性分布式数据集(RDD)窄依赖关系的优点,避免并行计算中的数据交换延迟.通过单机模式与集群模式对比实验,发现集成了并行计算框架的集群模式影像处理效率约为单机模式的10倍.研究结果表明了融合集群计算技术的海表温度反演过程有效提高了传统单机应用程序的处理效率.
2018, 27(9):118-123. DOI: 10.15888/j.cnki.csa.006498 CSTR:
摘要:微博话题随着移动互联网的发展变得火热起来,单个热门话题可能有数万条评论,微博话题的立场检测是针对某话题判断发言人对该话题的态度是支持的、反对的或中立的.本文一方面由Word2Vec训练语料库中每个词的词向量获取句子的语义信息,另一方面使用TextRank构建主题集作为话题的立场特征,同时结合情感词典获取句子的情感信息,最后将特征选择后的词向量使用支持向量机对其训练和预测完成最终的立场检测模型.实验表明基于主题词及情感词相结合的立场特征可以获得不错的立场检测效果.
2018, 27(9):124-129. DOI: 10.15888/j.cnki.csa.006513 CSTR:
摘要:MCRA最小值递归平均算法对噪声的估计值较为准确,而且对一段话音内噪声功率谱的变化也能准确的追踪.但是面对噪声功率谱突然陡增这种情况,需要经过一段时间的自适应才能得到准确的噪声估计值,而在这个自适应期间,会留下较强的残留噪声,影响人的听感.本文在MCRA算法的基础上,引入一种利用最大对数似然比结合能零比的VAD (Voice activity Detection)辅助算法,得到一种改进型噪声估计算法.实验仿真结果也表明,改进的噪声估计算法在噪声估计速度方面优于MCRA算法.
2018, 27(9):130-136. DOI: 10.15888/j.cnki.csa.006540 CSTR:
摘要:在车载自组织网(Vehicular Ad-hoc Network,VANET)环境下,针对多节点同时接入信道时的竞争冲突问题,将分布式时分多址(Time Division Multiple Access,TDMA)和空分多址(Space Division Multiple Access,SDMA)思想相结合,提出改进的分布式自适应时分多址分配机制(Modified Decentralized Adaptive TDMA Scheduling mechanism,MDATS).MDATS协议的节点通过帧信息(Frame Information,FI)的交互,获取两跳范围内其他节点时隙使用情况,从而筛选出空闲时隙集.竞争区域将根据空闲时隙数在空间上均分成多个逻辑区段,节点则根据所处的逻辑区段与空闲时隙的对应关系确定竞争使用的时隙.该协议通过对空闲时隙在空间上的分散化,降低同时接入节点之间的竞争冲突.仿真结果表明,MDATS协议与其他类似MAC协议相比,能够达到更高的信道接入成功率、更低的接入时延性能以及更高的时隙利用率.
2018, 27(9):137-142. DOI: 10.15888/j.cnki.csa.006532 CSTR:
摘要:科学准确的获取青海湖区域土地覆盖分类对于研究该区域生态环境变化有着重要的意义.本文使用30米分辨率的LandSat 8 OLI青海湖区域遥感影像数据展开相关研究,30米分辨率属于中等分辨率,当前中分遥感影像的分类方法尚存在特征提取困难、分类精度不高等问题.本文借鉴GoogLeNet Inception结构,设计并提出了一种卷积神经网络模型进行特征提取及分类,分析了用于样本生成的邻域窗口尺寸对分类结果的影响,并与最大似然分类和SVM分类方法进行比较.结果表明,在窗口尺寸为9×9时,CNN模型的总体分类效果最好,且CNN的分类结果明显优于最大似然分类方法和SVM.
2018, 27(9):143-150. DOI: 10.15888/j.cnki.csa.006559 CSTR:
摘要:为提高软件定义网络抵抗高级持续性威胁的能力,对软件定义网络特性及高级持续性威胁中的隐蔽通信进行了分析,提出了一种适用于软件定义网络的高效隐蔽通信检测机制.该隐蔽通信检测机制首先利用软件定义网络抓取网络流量并从中获取可能包含隐蔽通信的报文;随后从上述报文中提取SSL证书,并计算用于表征该证书的特征值;最后采用孤立森林算法对证书的特征值进行检测以判断证书是否为非法证书,基于此检测结果判断网络中是否存在隐蔽通信.实验结果及分析表明,该隐蔽通信检测机制能够提高隐蔽通信检测精度,降低隐蔽通信误检率;同时该机制可扩展性较高,能够适用于不同应用场景.
2018, 27(9):151-156. DOI: 10.15888/j.cnki.csa.006516 CSTR:
摘要:情景是分析事件的发生、发展及可能的后果的有效机制,然而,基于情景的预警机制或缺乏有效的模型支撑或受制于模型的局限性,实践中难以推广.抽象故障树是同类事故故障树的高层抽象,综合历史案例与专家经验,能够刻画事故的成因的机理、情景演化过程及可能的后果,能够有效支撑基于情景的预警分析.提出一种基于抽象故障树的化工事故预警方法,基于抽象映射计算事件危害度及节点重要度,将情景演化的割集模型转换为贝叶斯网络模型,采用Board法对事故危害进行风险度量和防御事件排序,实现基于情景的不同演化路径的事故风险预测及最佳应对策略推荐,实验结果显示了该方法用于事故分析预警的有效性.
2018, 27(9):157-162. DOI: 10.15888/j.cnki.csa.006536 CSTR:
摘要:问句分类的目标是将用户提出的自然语言问句分到预先设定的类别.在社区问答中,如何准确高效的对问句进行分类是一项重要任务.本文提出了一种基于深度神经网络的问句分类方法,该方法首先将问句用词向量进行表示,然后用融合双向长短时记忆网络(Bi-LSTM)和卷积神经网络(CNN)结构并包含注意力机制的深度学习模型提取问句特征进行分类.该方法的特色在于利用Bi-LSTM和CNN在句子级文本表示的优点,充分捕捉问句特征,并结合问句的对应答案来表示问句,丰富了问句信息.实验表明,该问句分类方法准确率较高,在多个数据集上取得不错结果.
2018, 27(9):163-169. DOI: 10.15888/j.cnki.csa.006545 CSTR:
摘要:在物种鉴定领域中,权威方法是基于BLAST的序列比对算法,然而该算法出现计算量过于庞大,运算效率低以及资源消耗较高等问题.为解决以上问题,本文借鉴经典文献中的K-String组份向量方法,对向量空间模型作出改进,将其应用于基于16S rRNA序列的物种鉴定领域,并在巴拿赫空间的理论体系下,对改进向量空间模型算法中的遗传距离公式进行等价替换,给出不同范数背景下对应的遗传距离公式,供科研人员参考.本文从计算效率和物种鉴定效果两个方面来判断改进算法的性能,最终得到如下结论:欧几里得空间下的内积范数从计算效率上较经典的blast算法具有显著优势,而其分类效果在检出率这一方面,达到了比对结果的一致性.
2018, 27(9):170-175. DOI: 10.15888/j.cnki.csa.006548 CSTR:
摘要:视频或者图像在传输过程中,可能出现随机性的误码、突发性的误码、传输中的丢包等等,对解码出的图像数据也会有严重的影响.本文提出了基于深度学习的图像重建算法:一种基于图像背景预测生成模糊区域内容的无监督图像重建神经网络模型.为了重建出逼真的图像,神经网络模型需要既理解整个图像的内容,又为缺失的部分重构出一个合理的假设.损失函数包含标准像素级重建损失和对抗损失,在训练卷积神经网络模型时,能够更好地处理图像中的结构细节产生更清晰的结果.通过实验可以发现本文设计的深度卷积神经网络模型与基于样本插值的算法相比在图像重建中有着较好的效果.
2018, 27(9):176-181. DOI: 10.15888/j.cnki.csa.006546 CSTR:
摘要:在计算机计算能力大大增强的时代,为了提高对时间自动机进行空性检测的效率,进一步高效利用多核处理器的优势,研究了利用Büchi自动机的多核空性判定算法改造CTAV,使它成为一款时间自动机模型关于线性时序逻辑的多核模型检测工具,从而提高模型检测的效率.通过对符号化状态之间包含关系的研究,利用这种状态之间的包含关系更快的找到接收路径并避免不必要的状态展开,实现了多核模型检测算法的优化,对比了一些常见模型的验证数据,取得了更好的效果.
2018, 27(9):182-187. DOI: 10.15888/j.cnki.csa.006496 CSTR:
摘要:传统的协同过滤算法虽然可以很容易地挖掘出用户的兴趣爱好,但存在数据冷启动和稀疏性问题.针对这些问题,提出一种基于用户兴趣模型的推荐算法.首先通过LDA主题模型训练数据集得到物品-主题概率分布矩阵,利用物品-主题概率分布矩阵得到用户历史兴趣模型,然后结合用户历史行为信息和物品内容信息得到用户兴趣模型,最后计算用户与候选集之间的相似度,进行TOP-N推荐.在豆瓣电影数据集上的实验结果表明,改进后的推荐算法能够更好地处理稀疏数据和冷启动问题,并且明显提高了推荐质量.
2018, 27(9):188-192. DOI: 10.15888/j.cnki.csa.006529 CSTR:
摘要:在现代软件开发和维护中,重构是提高软件可维护性和软件质量的常用手段.而大量重构模式掺杂在日常的bug修复、功能增加等代码变更中,使得变更理解变得非常复杂.识别重构模式可以将重构与其它类型的代码变更隔离,利于变更理解.目前在识别重构模式的相关研究中,并没有结合变更类型和相似性比较的识别重构模式的方法及工具.为此,提出了一种基于细粒度变更类型和文本相似性比较识别重构模式的方法.将该方法应用于抽取类重构模式,并在4个开源项目中进行了实验,其平均准确率在82.6%左右.
2018, 27(9):193-198. DOI: 10.15888/j.cnki.csa.006537 CSTR:
摘要:针对随机森林算法中节点分裂方式单一且相似的问题,提出一种改进节点分裂方式的优化算法,将算法中独立的节点分裂方式ID3与CART进行重新组合,通过自适应参数选择得到新的分裂规则,用于最优属性的选择划分并应用于图像分类问题.首先以词袋模型为基础,加入空间金字塔结构来提取图像特征,并将其量化成视觉词汇,最后结合Spark平台用改进节点分裂方式的随机森林算法实现图像分类.实验结果表明,通过选择组合算法的最优系数,该算法有效提高图像分类准确率,并保证算法运行效率.
2018, 27(9):199-204. DOI: 10.15888/j.cnki.csa.006544 CSTR:
摘要:Swarm是一种对集群中Docker镜像和容器进行管理的工具,其在计算节点权值时可能会得到若干个相同权值的节点.现有的Swarm调度策略只是将这些节点随机分配,由于相同权值节点的资源负载情况并不相同,所以将会造成节点负载不均衡.针对上述问题,本文提出一种动态调度算法对Swarm调度策略进行优化.通过实验,证明增加动态调度算法能够使集群中节点负载更加均衡,同时提高集群的整体资源利用率.
2018, 27(9):205-209. DOI: 10.15888/j.cnki.csa.006570 CSTR:
摘要:针对非负矩阵分解(NMF)相对稀疏或局部化描述原数据时导致的稀疏能力和程度比较弱的问题,提出了L1范数约束正交子空间非负矩阵分解方法.通过将L1范数约束引入到正交子空间非负矩阵分解的目标函数中,提升了分解结果的稀疏性.同时给出累乘迭代规则.在UCI、ORL和Yale三个数据库上进行的实验结果表明,该算法在聚类效果以及稀疏表达方面优于其他算法.
2018, 27(9):210-214. DOI: 10.15888/j.cnki.csa.006554 CSTR:
摘要:短文本的研究一直是自然语言处理领域的热门话题,由于短文本特征稀疏、用语口语化严重的特点,它的聚类模型存在维度高、主题聚焦性差、语义信息不明显的问题.针对对上述问题的研究,本文提出了一种改进特征权重的短文本聚类算法.首先,定义多因子权重规则,基于词性和符号情感分析构造综合评估函数,结合词项和文本内容相关度进行特征词选择;接着,使用Skip-gram模型(Continuous Skip-gram Model)在大规模语料中训练得到表示特征词语义的词向量;最后,利用RWMD算法计算短文本之间的相似度并将其应用K-Means算法中进行聚类.最后在3个测试集上的聚类效果表明,该算法有效提高了短文本聚类的准确率.
2018, 27(9):215-219. DOI: 10.15888/j.cnki.csa.006564 CSTR:
摘要:物流配送设施的选址对于物流成本、在途时间影响巨大.其特点包括:配送设施选址和配送路线交互影响、多层级选址、配送设施存件数量均衡性等.本文通过分析物流配送设施选址的特点设计了一个基于BIRCH聚类的物流配送设施选址算法,融合了BIRCH聚类算法和基于Dijkstra距离的重心法,为物流配送设施选址提供了更好的方案,大幅节约长期运营成本.
2018, 27(9):220-223. DOI: 10.15888/j.cnki.csa.006521 CSTR:
摘要:随着业务量、用户量的增大,提高服务器集群的效率变得越来越重要.本文使用机器学习算法,通过对历史数据进行训练得到响应时间预测模型,来预测新请求的响应时间,根据每个服务器节点的预估响应时间将请求分配给具有最少响应时间的服务器节点,从而提高集群中请求分配的均衡性,提高集群的效率.本文通过对三种机器学习算法的实验,均表明本策略能降低小集群高并发场景中系统的平均响应时间.
2018, 27(9):224-228. DOI: 10.15888/j.cnki.csa.006541 CSTR:
摘要:针对气象网站等应用系统向地方政务云迁移过程中缺乏基础数据的现状,从功能性,开发成本,灵活性方面考虑选用ETL工具,基于Kettle软件对气象数据ETL流程进行建模,使用Quartz开发作业调度系统实现ETL流程的自动化运行,在政务云搭建SQL Server数据库集群,构建了政务云气象数据仓库.该数据仓库实现了异构环境气象数据在政务云的实时同步和存储,为气象应用系统在政务云的全面部署提供了数据支持,也为气象部门参与电子政务数据交换和共享打下基础.
2018, 27(9):229-235. DOI: 10.15888/j.cnki.csa.006515 CSTR:
摘要:随着网络技术的发展,核心设备路由器的缓存容量在不断增加,基于丢包的拥塞控制机制引发了BufferBloat和带宽利用率低等问题.为此,Google最近提出了一种基于瓶颈带宽和往返时延测量的拥塞控制协议BBR,引起了广泛关注.由于BBR新近提出不久,目前缺乏对其性能评估的工作.本文通过实验对BBR协议进行了比较全面的性能分析和评估,包括协议的传输效率、收敛性及公平性等,并在此基础上,提出了BBR协议下一步的改进思路.
2018, 27(9):236-242. DOI: 10.15888/j.cnki.csa.006478 CSTR:
摘要:认知网络按照一定的准则划分为若干个簇,簇内共享一条信道用于交换控制信息,这种以分簇的方式实现按区域共享信道是认知无线电MAC层频谱共享问题的解决方法之一.为了使分簇结构更加有效的工作,本文提出了一种针对分簇结构的MAC层协议.在该协议中,信道接入时间被划分成一系列的超级帧,超级帧的各个时段均对应簇节点的具体操作,以此支撑簇结构稳健地应对主用户行为.仿真结果表明,本文提出的MAC协议在中高网络负载情况下能获得较高的网络吞吐量以及较低的传输时延.
2018, 27(9):243-248. DOI: 10.15888/j.cnki.csa.006509 CSTR:
摘要:本文研究去中心化的网络接入身份认证问题.依据非交互式零知识证明原理,借鉴区块链技术中的共识思想,对传统的拜占庭共识算法进行改进,提出了利用已经接入网络的主机对申请接入网络者的公钥所属权进行认证,并对认证结果达成共识的方案,在此基础上在SDN网络中设计并实现了接入身份认证方案BchainNAC.
2018, 27(9):249-255. DOI: 10.15888/j.cnki.csa.006505 CSTR:
摘要:智能手机以及平板凭借其便捷的丰富的输入功能越来越受到用户的欢迎,但是它们丰富的输入功能增加了测试的复杂性.现有的基于GUI级别的录制与回放工具满足不了Android应用程序可以从设备上的各种传感器获取输入,识别GUI手势以及一些对时间有精确要求的录制和回放需求.本文设计并且实现了一个工具:RARA.RARA可通过直接捕获手机底层的GUI事件以及传感器事件进行应用的录制,并且以微秒时间精度回放.最后通过实验验证了:(1) RARA录制与回放功能是有效的;(2)回放的时间开销只有1%左右,不会对宿主APP的性能产生影响;(3)通过RARA的录制回放功能,可在多款应用程序的测试中重现应用Bug.
2018, 27(9):256-261. DOI: 10.15888/j.cnki.csa.006543 CSTR:
摘要:本文搭建了以ARM Cortex-A9为核心的嵌入式字符分割识别处理平台,研究了在Linux操作系统中交叉编译OpenCV、Qt、BootLoader,并移植相关驱动到嵌入式平台的方法;基于经典算法使用OpenCV库函数实现了图像字符的分割和识别处理;最后,在嵌入式平台上移植了开发程序并进行了实验.结果表明,该系统能对图像字符进行很好的分割和识别.
2018, 27(9):262-267. DOI: 10.15888/j.cnki.csa.006547 CSTR:
摘要:Android系统提供了多种应用间交互机制,其中开放活动(Exported Activity,EA)不需要复杂的跨进程交互就可以被其他应用在运行时调用.现在很多研究主要关注GUI组件的功能性测试,但是在Android应用本身往往不会启动内部的开放活动,所以开放活动有时候很难被覆盖到.本文提出了一种系统化测试开放活动的方法,使用该方法可以生成一组代理应用作为测试驱动程序启动应用中的开放活动.首先,使用静态分析技术解析APK文件,提取出开放活动列表和启动它们需要数据的键值和类型;其次,将相应的数据填充到预先设置好的模板中,生成测试驱动应用.本文基于提出的测试方法开发了一款原型工具——EASTER,使用一些真实的应用进行了实验.实验结果显示,所有测试应用共有65个开放活动,其中有20个开放活动在被外部应用启动过程中存在漏洞.
2018, 27(9):268-272. DOI: 10.15888/j.cnki.csa.006563 CSTR:
摘要:为了快速获得音译结果,借鉴人工处理方式,开发了基于规则的多语种音译软件.该软件采用算法和规则独立设计的思想,能满足多种语言的音译需求.完整的音译过程包括单词预处理、字母识别与切分、字母重组与定位、规则表查询四个步骤.在字母重组阶段提出一种确定最佳音节划分的方法,有效解决了音节划分错误较多的难题,从而保证了最终音译结果的质量.通过对英语、罗马语和俄语进行分组实验,经人工检查,音译正确率达到95%以上.
2018, 27(9):273-277. DOI: 10.15888/j.cnki.csa.006519 CSTR:
摘要:在近年来随着用户对音视频通话质量要求的提高,WebRTC以其强大的多媒体处理能力得到了广泛的应用.然而WebRTC提供的JSEP是一种弱信令,在企业级的融合通信应用中必须将WebRTC与实际的信令协议相结合.SIP是IMS的核心技术,对多媒体会话的控制起着非常重要的作用.本文介绍了WebRTC和SIP协议融合的已有方案,研究了WebRTC和SIP协议互通需要解决的问题,提出了一种WebRTC的PeerConnection层和SIP协议在客户端的融合方案,并和其他方案对比,得出该方案的优缺点.
2018, 27(9):278-282. DOI: 10.15888/j.cnki.csa.006432 CSTR:
摘要:随着智能移动设备和社交媒体的发展,出现了越来越多面向最终用户的应用软件.如何充分了解最终用户的需求,从而减少软件项目的风险,成为亟待解决的问题.在各类软件项目中,开源软件项目的开发具有特殊性,体现在参与人员的广泛性、多层次性,以及用户需求的多面性和不稳定性等方面.在项目成熟度评估的基础上,提出了开源软件项目的立项评估模型,并详细介绍了成熟度评估的方法及基于成熟度的开源软件项目立项评估流程,通过一个项目实例分析了在该模型基础上的立项评估过程.
2018, 27(9):283-287. DOI: 10.15888/j.cnki.csa.006434 CSTR:
摘要:传统工作流程通过设计活动和迁移线等元素来实现流程的基本流转,但随之而来的问题是当流程异常复杂,例如存在多达几十个活动且活动之间需要不断跳转交互的情况下,不仅开发复杂度成倍增加,而且运行时性能也会持续降低.为解决此问题,本文基于有限状态机的原理,结合云计算技术,提出了云工作流状态机,能够充分利用代码逻辑开发的便捷性,简化流程的活动和迁移,最终达到运行时高性能的架构目标.文中详细阐述了工作流状态机的实现原理,运行机制,以及云计算下的状态机服务框架,最后介绍了基于云状态机的业务应用开发方式,并给出容器下的压力测试结果:流程在双节点流转的单步耗时非常短,运行稳定.实践证明,基于容器的云架构在保证可扩展性的同时亦能满足高性能的设计目标.