2. 中国电力科学研究院有限公司 人工智能应用研究所, 北京 102209;
3. 国网浙江省电力有限公司 经济技术研究院, 杭州 310001
2. Artificial Intellegence Applications Institute, China Electric Power Research Institute Co. Ltd., Beijing 102209, China;
3. State Grid Zhejiang Economic Research Institute Co. Ltd., Hangzhou 310001, China
近些年来, 从国家到地方, 各领域各企事业单位都投入大量人力、物力开展科研和产业建设, 在项目招标、申报、实施、验收等阶段, 都离不开遴选出相关专家进行评审. 随着国家经济发展和科技管理水平的提高, 各级单位每年立项的科技项目数量快速增加, 以自然基金委的科研项目为例, 仅在2019年国家自然科学基金项目申请集中接收期间, 国家自然科学基金委员会共计接收项目申请达到了240711项, 而国家电网总公司每年立项的科技项目也有300余项, 可见在短时间内对科技项目展开评审工作的任务量是极为繁重的.
随着项目管理流程的日益规范化, 如今在项目的立项论证、中期检查、成果验收、成果评价等多个环节都需要组织相关专家进行会审. 为了提高项目评审的效率, 目前各公司及单位普遍采用分组评审的策略, 但由于技术领域的日益细分和跨学科技术的广泛应用, 导致从业务和管理维度进行分组评审往往会使每个组的项目跨越较多的技术领域, 因此必须遴选出一组契合这些技术领域的专家才能实现对该组项目的有效评审.
目前传统专家遴选的方式普遍由人工作业完成, 在成千上万的专家库中检索出合适的专家组合十分具有挑战性. 由于候选专家排列组合的方案数巨大, 因此在有限时间内找出合适的专家团体变得十分困难, 亟需找到一种能合理为科技项目评审工作匹配出评审专家组合的解决方案, 以克服人工遴选专家方式所带来的种种弊端.
考虑到在分组项目评审过程中往往同时有多个项目和多位专家, 应为科技项目选出有限数量的评审专家, 使得这些专家组合成的评审团体可以较好地契合项目所涉及的各个相关领域. 本文首先将该问题建模为一个典型的组合优化问题, 通过将项目和专家映射到技术领域建立起科技项目和评审专家所对应于专业领域上的离散分布, 进而基于余弦相似度函数来量化评价该组科技项目和评审专家组之间的匹配度. 鉴于该类组合优化问题往往在多项式级时间复杂度上无法有效求解, 因此本文提出了基于贪心迭代搜索的GIS算法, 该算法主要采用了多轮迭代搜索最优部分解来组合形成全局最优解的策略以实现找出最优专家组合的目的. 本文最终将GIS算法分别在国家电网专家库及其历史立项科技项目真实数据集上进行了实验验证, 并研究了专家库大小、领域数量、项目数量等不同因素对算法的影响, 结果表明本文提出的GIS算法能在较短的时间内找到较优的评审专家组合方案.
1 相关工作近些年来, 已有不少相关学者对专家推荐问题进行过深入的研究, 其中也不乏一些十分具有代表性的专家推荐方法, 目前的专家推荐方法大体可分为两类: 第一类是针对专家独立推荐的研究, 其主要思想是在推荐一位或多位专家时, 主要考虑将专家以独立个体的方式推荐得出, 即每位专家都与当前待评审项目存在一定程度上的强相关关系, 但不考虑所推荐专家形成组合后的整体情况; 第二类则是针对专家组合推荐的研究, 一般是在限定若干约束条件的情况下推荐出由多位专家组成的专家团体, 该专家团体实现了对于当前待评审项目能达到组合最优的评审效果, 但其中每位专家则不必精通每个待评审项目, 下面简要介绍在基于上述两种研究思路下当前已有的相关工作.
基于专家独立推荐的研究: 文献[1–5]均通过提出一种科技项目评审专家推荐系统模型, 该模型在挖掘文本信息的基础上运用关键词提取、特征权重计算等相关算法, 得到科技项目的多维度特征信息, 然后通过计算其与专家在词条上的相似度, 并综合专家参评项目经验及专家业务能力等因素, 最终使用基于内容推荐、协同过滤推荐以及专家评分加权因子相融合的混合推荐模型, 计算出每位专家的综合评分, 再根据设定的阈值以及推荐指数从高到低产生推荐专家名单实现了对科技专家的高效遴选; 文献[6–11]均通过提出了一种基于文本分类模型的方式来实现专家自动推荐的效果, 主要借助有监督或无监督的方式建立起专家知识模型来判断出评审专家的主要研究领域和评审项目的专业领域, 再将评审项目的专业领域与评审专家的研究领域按相似性自动匹配, 最终达到对评审专家精准推荐的目的; 文献[12–14]主要提出了一种基于主题模型的评审专家协同推荐方法, 即借助隐含狄利克雷分布模型构建主题特征空间, 并利用特征提取算法分别获得项目文档与专家文档的主题特征向量, 计算项目与专家主题特征向量的相关度并取项目相关度较髙的专家作为推荐结果.
基于专家组合推荐的研究: 文献[15–18]主要通过将项目与专家抽象为二分图网络模型, 由网络节点的关联性出发, 提出了一种基于相似度传播的复杂网络节点匹配方法, 通过借助图论中的KM算法、最大流匹配算法等方式实现节点间分组匹配的目的, 最终设计出项目与专家的多重匹配算法; 文献[19]提出一种基于语义挖掘的科技项目评审专家智能推荐方法, 为一个或多个项目自动推荐生成候选专家列表; 文献[20]提出一种适用于求解通用最大权完美匹配的智能优化方法, 该方法能自适应地从改进的离散粒子群策略以及模拟退火策略中选择适用于当前演化过程的有效策略, 并在保持种群稳定进化的同时促使种群快速收敛.
综上所述, 对于独立推荐专家的方式来说, 其主要关注点为挖掘专家与项目的知识信息, 并使用混合加权的方式来计算每个专家的综合得分, 最终基于该分数实现推荐. 但这种方式难以保证由多个高评分专家组合而成的团体也能契合实际项目需求, 具体来说, 当这些高评分专家均仅擅长于特定领域且彼此相似时, 那么此时的专家组合虽能满足每位专家最优, 但却无法保证该组合整体足够适合于当前项目的评审需求. 而基于专家组合推荐的方式则避免了这种情况的发生, 其实现方式主要是将项目和专家的关联关系抽象成二部图网络模型, 进而考虑使用如完美匹配、最大流匹配等图论算法实现专家遴选, 但这类算法常常由于具有较高的时间复杂度而难以将其应用到大规模数据集上. 为此基于上述考虑, 本文设计了一种抛弃传统二部图网络结构的专家组合推荐策略, 并最终将其运用到较大的数据集上实现了科技项目与评审专家的多重匹配.
2 问题定义本文在考虑实际分组项目评审的情况下将该匹配问题进一步抽象描述如下:
当前共有
由于任意一个科技项目
${W^{PF}} = \left[ {\begin{array}{*{20}{c}} {{w_{11}}}&{{w_{12}}}&{...}&{{w_{1l}}} \\ {{w_{21}}}&{{w_{22}}}&{...}&{{w_{2l}}} \\ {\vdots}&{\vdots}&{\vdots}&{\vdots} \\ {{w_{n1}}}&{{w_{n2}}}&{...}&{{w_{nl}}} \end{array}} \right]$ | (1) |
同理, 因为任意一名候选专家
${W^{EF}} = \left[ {\begin{array}{*{20}{c}} {{w_{11}}}&{{w_{12}}}&{...}&{{w_{1l}}} \\ {{w_{21}}}&{{w_{22}}}&{...}&{{w_{2l}}} \\ {\vdots}&{\vdots}&{\vdots}&{\vdots} \\ {{w_{m1}}}&{{w_{m2}}}&{...}&{{w_{ml}}} \end{array}} \right]$ | (2) |
假设每个科技项目
$D(P) = \sum\limits_{{P_i} \in P} {W_i^{PF} = } \left( {\sum\limits_{i = 1}^n {{w_{i1}},} \sum\limits_{i = 1}^n {{w_{i2}},\cdots,} \sum\limits_{i = 1}^n {{w_{il}}} } \right)$ | (3) |
同理, 若对已选出的
$D({E^{(k)}}) = \sum\limits_{{E_x} \in {E^{(k)}}} {W_x^{EF} = } \left( {\sum\limits_{i = {x_1}}^{{x_k}} {{w_{i1}},} \sum\limits_{i = {x_1}}^{{x_k}} {{w_{i2}},\cdots,} \sum\limits_{i = {x_1}}^{{x_k}} {{w_{il}}} } \right)$ | (4) |
为了定义所遴选出的专家与待评审项目的匹配程度, 本文提出了一种评价函数
因此可以借助前文所定义的离散分布
$S\left( {P,{E^{(k)}}} \right) = \cos \left[ {D(P),D\left( {{E^{(k)}}} \right)} \right] = \frac{{D(P) \cdot D\left( {{E^{(k)}}} \right)}}{{\left| {D(P)} \right|\left| {D\left( {{E^{(k)}}} \right)} \right|}}$ | (5) |
离散分布间结构相似性的度量方式如图1.
3 贪心迭代搜索算法
通过上一节的定义, 显然能计算出任意一组科技项目与评审专家集之间的匹配度大小, 那么
假设本组待审的科技项目集合记为
由此定义GIS算法的具体实现步骤如算法1.
算法1. 贪心迭代搜索算法
1) 定义搜索参数
2) 遍历解集集合
3) 重复步骤2)使得所有专家团体
4) 根据
5) 至此由上述步骤已完成了一轮
6) 在集合
分析GIS算法的执行流程可知, 该算法的主要运算成本集中在步骤2) ~ 5)上, 其中步骤2)将会迭代
为了验证GIS算法的有效性, 本文使用了真实的电力行业科技项目评审数据集进行实验. 图2是GIS算法的搜索过程. 该数据集共包含有8364名电力行业资深专家, 涉及127个电力行业相关研究领域, 项目数据包含过去3年内国家电网总公司立项的科技项目共912项, 其中科技项目共分为90组, 每组包含的项目从5个到20个不等, 每个项目所涉及的专业领域也均在上述127个电力行业研究领域之内. 本节将通过使用该数据集来测试GIS算法对于解决专家遴选问题的表现, 并结合蛮力搜索算法、RandomSelect算法和GradualSubtract算法作为baseline构成对比实验以综合分析出GIS算法的有效性. 其中RandomSelect算法的基本思想是每次从专家库中随机挑选一名专家, 使得该专家加入当前专家团体后, 专家团体的评价分数能得到提升, 依此原则不断地挑选出指定数目的专家即可; GradualSubtract算法的主要思想则是每次都会从当前未被选择的专家中找出一名研究领域最多覆盖于当前项目的专家, 并将其加入到评审专家团体中, 然后从项目中删除这些技术领域, 接下来再重复地寻找下一位专家, 直至构建出最终的评审专家团体.
4.1 蛮力搜索算法的可行性
本节通过使用蛮力搜索算法(Brute Force Search, BFS)构成对比实验, 分析其与本文提出的GIS算法应用在真实场景下的可行性. 鉴于BFS算法在专家总量稍大时便会带来巨大的耗时, 所以本次实验仅选取了150位专家为全部候选专家, 测试其在面对包含1至10个科技项目的评审工作时, BFS算法和GIS算法所能达到的匹配度及耗时情况. 特别地, 由于分组评审工作中所需的评审专家数目与其所包含的科技项目数目一般为1:1配置, 所以本章所进行的实验也将默认采取这种设定.
图3和图4展示了在逐渐改变实验中每组评审工作中所包含的科技项目数量的情况下, BFS算法和GIS算法各自的耗时及匹配度表现. 不难发现当采用BFS算法后, 虽候选专家的总量仅有150个, 但面对包含4个科技项目的评审需求时, 便难以在可接受的时间尺度上找出一种合适的评审专家组合方案; 相比之下, 本文提出的GIS算法则能保证在尽量少的耗时下达到与BFS算法一致的匹配度表现, 可见该算法有处理较大数据集的潜力, 能应用于现实情景下的实际需求.
4.2 专家库大小的影响
本节将测试在逐渐改变专家库大小的情况下, 分析GIS算法对于包含20个科技项目的评审工作需求时的表现情况, 图5和图6记录了实验过程中RandomSelect算法、GradualSubtract算法和GIS算法的匹配度及耗时表现. 通过对比不难分析出当专家总量逐渐增大时, GIS算法所找出的专家组合方案的匹配度会逐渐升高, 直至专家总量达到2000左右时趋于稳定; 相比之下, RandomSelect算法与GradualSubtract算法的匹配度表现则较差, 其中RandomSelect算法的匹配度一直处于0.5到0.6的范围内上下波动, 而GradualSubtract算法的匹配度虽在不断升高, 但其提升速度及稳定上限相比于GIS算法仍有一定差距.
考虑算法的运行时间而言, 当K值为30时GIS算法的耗时最多, 而将K值下调至5后GIS算法的整体耗时便能显著下降. 值得注意的是, 虽然此时GIS算法的整体耗时仍略多于RandomSelect算法和GradualSubtract算法, 但不难发现其匹配度表现已经有了较大幅度的提升.
4.3 领域数量的影响
本节将通过调整每组评审工作中包含的20个科技项目所涉及专业领域的数目, 探究领域数量对于本文所提出的GIS算法的影响, 如图7和图8. 由实验中匹配度曲线和耗时曲线不难看出, 当逐渐增大项目所涉及的领域数量后, RandomSelect算法、GradualSubtract算法和GIS算法的耗时曲线基本处于稳定状态, 虽个别情况下有小范围的波动, 但总体上这3种算法的耗时表现均不会受领域数量变化的影响.
同时根据匹配度曲线亦可以发现, RandomSelect算法的匹配度表现会随着领域数量的增多而出现明显下降, GradualSubtract算法的表现则相对稳定, 其匹配度曲线在发展趋势上并未出现明显变化. 相比之下, 本文提出的GIS算法的表现最好, 其匹配度曲线始终能保持在较高位且整个过程中十分稳定, 所以本实验证实了通过改变领域数量不会对GIS算法的匹配度表现产生根本性影响.
4.4 项目数量的影响
本节最后将通过改变每期评审工作中所包含科技项目的数量测试其对GIS算法的影响, 图9和图10记录了实验过程中在逐渐增大项目数量后RandomSelect算法、GradualSubtract算法和GIS算法的表现. 不难看出当项目数量逐渐增大时, RandomSelect算法和GradualSubtract算法的耗时相对较少, 而K值为5的GIS算法耗时则略多, 且随着科技项目数量的增加, K值设置的越大GIS算法的耗时增长越为迅速.
同样对比这3种算法的匹配度曲线可知, GIS算法相比于RandomSelect算法和GradualSubtract算法的表现更好, 且增大
5 结束语
本文提出了在分组项目评审的背景下求解最优评审专家组合的GIS算法, 该算法主要通过约束贪心算法的搜索空间, 多轮迭代后找出契合本期项目评审需求的专家团体. 通过借助电力行业数据集对该分组项目评审专家遴选问题进行实验分析, 结果表明本文提出的GIS算法在计算耗时和计算效果上均有较好的表现, 可以将其应用到实际的科技项目评审工作之中.
[1] |
胡斌. 科技项目评审专家推荐系统的研究与实现[硕士学位论文]. 杭州: 杭州电子科技大学, 2011.
|
[2] |
胡斌, 徐小良. 科技项目评审专家推荐系统模型. 电子科技, 2012, 25(7): 1-5. DOI:10.3969/j.issn.1007-7820.2012.07.001 |
[3] |
黄敏. 科技项目评审专家推荐系统研究[硕士学位论文]. 杭州: 杭州电子科技大学, 2013.
|
[4] |
黎坚. 科技专家遴选方法研究与实现[硕士学位论文]. 广州: 华南理工大学, 2017.
|
[5] |
余峰. 项目评审专家推荐方法研究[硕士学位论文]. 昆明: 昆明理工大学, 2013.
|
[6] |
李明, 刘鲁, 王君, 等. 基于模糊文本分类的多知识领域专家推荐方法. 北京航空航天大学学报, 2009, 35(10): 1254-1257. |
[7] |
郑新宇, 徐建良. 基于文本相似度的评审专家推荐方法研究. 科技资讯, 2019, 17(17): 173-176. |
[8] |
魏捷. 论文审稿专家推荐系统的设计与实现[硕士学位论文]. 北京: 北京邮电大学, 2019.
|
[9] |
刘一星. 论文投稿系统评审专家自动推荐模型研究[硕士学位论文]. 重庆: 重庆大学, 2009.
|
[10] |
陶砾, 刘恒初, 杨朔, 等. 专家遴选系统设计与实现. 计算机时代, 2019(7): 36-39. |
[11] |
刘一星, 梁山. 基于改进ATSVM算法的评审专家自动推荐模型. 重庆科技学院学报(自然科学版), 2010, 12(1): 134-136. |
[12] |
石林宾. 基于主题分析的评审专家推荐方法研究[硕士学位论文]. 昆明: 昆明理工大学, 2014.
|
[13] |
李春英, 汤庸, 陈国华, 等. 面向学术社区的专家推荐模型. 智能系统学报, 2012, 7(4): 365-369. DOI:10.3969/j.issn.1673-4785.201205041 |
[14] |
余峰, 余正涛, 杨剑锋, 等. 基于主题信息的项目评审专家推荐方法. 计算机工程, 2014, 40(6): 201-205. DOI:10.3969/j.issn.1000-3428.2014.06.043 |
[15] |
陈泽亚, 王庆, 郭静, 等. 基于二分图网络的项目与专家多重匹配策略. 小型微型计算机系统, 2016, 37(3): 545-550. DOI:10.3969/j.issn.1000-1220.2016.03.029 |
[16] |
杜方, 宣琦, 吴铁军. 基于相似度传播的复杂网络间节点匹配算法. 信息与控制, 2011, 40(3): 331-337, 342. |
[17] |
孙昊良. 科技项目管理中专家与申请书分组匹配算法的研究[硕士学位论文]. 北京: 北京交通大学, 2008.
|
[18] |
毛晚堆, 谷千军, 褚蓓蓓, 等. 科技项目评审专家分组匹配算法. 北京理工大学学报, 2014, 34(5): 523-527. |
[19] |
吴仁克. 科技项目评审专家智能检索与推荐系统的研究及实现[硕士学位论文]. 杭州: 杭州电子科技大学, 2014.
|
[20] |
印桂生, 崔晓晖, 董红斌, 等. 量子协同的二分图最大权完美匹配求解方法. 计算机研究与发展, 2014, 51(11): 2573-2584. DOI:10.7544/issn1000-1239.2014.20130687 |