大数据时代的到来, 大规模生产、分析和应用数据成为了新的发展趋势. 在企业长期的生产和运营过程中, 产生了大量的有价值的数据, 对于这些数据的收集和分析, 可以提升企业管理并获得竞争优势[1]. 随着企业产生的半结构化和非结构化数据逐年增加, 如何存储和分析数据、如何挖掘和共享知识, 成为了面临的主要问题. 通过提升内部知识管理能力, 知识管理系统有助于建立开放和协作的生态系统、利用内外部知识流, 从而提高创新能力[2]. 因此, 许多企业也开始建设知识管理系统, 以管理组织学习和业务知识[3]. 然而, 对于PB级别的非结构化数据而言, 现有的知识管理系统仅靠传统的数据库技术已不能满足用户多样化的需求,还需要结合分布式计算和存储技术. 解决大数据环境下的知识存储、知识共享、知识挖掘、知识检索与推荐的问题, 企业需要构建一种基于大数据技术的知识管理系统, 从而支持知识创新和知识应用.
1 国内外研究现状知识管理系统(Knowledge Management System, KMS)指的是一系列应用于管理组织知识的信息系统. 它是一种建立在IT系统之上, 用来支持和强化组织中知识创造、存储、传播和应用过程的信息系统[4]. 而企业知识管理系统(Enterprise Knowledge Management System, EKMS )有狭义和广义之分, 广义的EKMS将企业整体看作一个知识处理系统, 它是企业模型的抽象和企业在知识管理方面的视图; 狭义的EKMS是指支持企业知识管理过程的信息系统[5]. 简而言之, 知识管理系统是为了实现知识创新和知识共享并对知识进行管理的一种工具. 近年来, 关于知识管理系统的研究取得了丰厚的理论成果和实践经验, 其中文献[6]从快速应对复杂变化的应用环境、支持知识管理生命周期过程、满足用户个性化需求的角度, 提出了一种敏捷知识管理系统. 文献[7]从用户行为动机的角度出发, 将用户创新的理念融入到知识管理系统中, 探讨了基于用户创新模式知识管理系统. 文献[8]构建了基于本体的知识管理系统框架并实现了部分检索模块. 文献[9]结合云计算的战略理念, 研究了基于云计算的企业KMS再造的体系. 文献[10]结合Web 2.0的特点, 构建了面向服务的知识管理系统四层模型.
目前大多数的研究主要是从知识管理的理念出发, 进行相关理论以及模型的研究. 而对于大数据技术在知识管理系统中的应用研究较少且不够深入, 论文从大数据时代处理数据的思维入手, 突出用户行为模式和人机交互的因素, 着眼于海量知识的检索(知识需求为导向)、个性化知识推荐(知识浏览为导向)、虚拟社区知识共享(知识交流为导向)、知识挖掘(知识创新为导向)以及情报服务(知识应用为导向)等功能, 利用大数据相关技术, 构建基于Hadoop的企业知识管理系统(Hadoop-based Enterprise Knowledge Management System, H_EKMS). 从而满足用户个性化和智能化的需求, 达到知识转移、应用、共享与创新的目的.
2 H_EKMS的优势 2.1 Hadoop体系结构Hadoop的核心是HDFS和MapReduce. HDFS (Hadoop Distributed File System)是一个分布式文件系统, HDFS以流式数据访问模式来存储超大文件, 运行于商用硬件集群上[11]. 通过实现冗余来保障数据的安全存储, 具有高容错性的特点. MapReduce是一种建立在HDFS上的分布式计算框架, 可用于数据处理的编程模型, 具有良好的扩展性和高容错性[12]. MapReduce任务过程分为Map阶段和Reduce阶段, 每个阶段都是以键值对(key/value)作为输入和输出(见图1), 其一般形式为:
Map: (K1,V1)→list(K2,V2)
Reduce: (K2, list(V2))→list(K3, V3)
2.2 H_EKMS的优势
随着EKMS的访问量与知识量的增加, 传统的EKMS已无法满足用户的需求. 另外, 对于EKMS而言, 长期积累的数据与知识是企业非常宝贵的财富, 如何应用这些数据和知识来提升企业管理是未来知识管理系统应当解决的问题. 大数据与云计算技术的发展改变了企业的知识管理模式和用户的行为观念, 对EKMS的功能和架构的设计提供了新的思路. 而Hadoop以其开源、适合处理海量数据集的特点成为了研究大数据的重要平台, 满足了面向企业的信息系统的扩展性和经济性的需求. 与传统的EKMS相比, H_EKMS具有如下几个优势:
(1) 满足用户个性化的需求
大数据背景下信息过载十分严重, 而每个用户的精力有限, 如何在繁杂的信息中找到自己感兴趣的内容是亟待的问题. 然而传统的KMS用户交互性差, 不能够为用户提供更加个性化的服务, 造成了KMS使用率不高的现象, 不能够达到企业构建KMS的目的. H_EKMS利用推荐系统技术解决信息过载的问题, 能够为用户提供个性化知识服务, 进一步增加用户粘性和增强用户使用KMS活跃度, 从而真正发挥KMS作用.
(2) 提升知识存储与分析的性能
伴随着数据的爆炸式增长, 除了数据规模的增大, 数据的复杂度也在增加(半结构化和非结构化数据增多), 其多样性、价值密度低和超大规模的特点与传统的数据库和数据仓库的数据存在着很大的差异, 而传统的EKMS实现的主要是在线事务处理(OLTP), 已不能满足大数据处理的需求. 由于H_EKMS底层采用的是HDFS进行知识的存储, 知识文件被分割成不同的块(block)存储在不同的数据节点(datanode)之上, 每个块的副本数可以根据实际需求进行设定, 从而实现冗余存储, 保证数据存储的安全性. 后台采用的是大规模的部署Hadoop的服务器组成的集群, 从而提供了海量的数据存储空间和高性能的计算能力. Hadoop能够在集群的各台机器之间动态地移动数据, 将作业分散到不同是节点执行, 并保证各个节点的动态平衡, 因此处理速度非常快. 另外MapReduce具有数据本地化的特性, 从而减少数据传输的时间开销, 实现高性能的计算. MapReduce编程模型支持多数统计分析和机器学习的算法, 采用分布式并行处理的策略, 加快了数据处理的速度和效率, 而Mahout构建了一个快速创建可伸缩、高性能的机器学习应用程序的环境, 对于大规模数据挖掘有着良好的支持. 目前MapReduce应用的计算场景有很多, 主要包括流量统计、用户行为分析、推荐引擎、数据挖掘分类器等.
(3) 实现面向管理决策的知识发现
知识发现是提取有用信息和隐藏信息的过程, 从大规模数据中发现潜在的、有用的知识, 旨在服务于管理决策. 传统的知识管理系统更多地考虑对显性知识的管理, 而这些显性知识只是冰山一隅. 在大数据时代, 知识管理的范畴扩大了, 基于Hadoop的EKMS不局限于现有知识的管理, 而是更加关注商务智能的过程, 将知识的采集的来源丰富化(企业内部大数据和企业外部大数据), 通过知识发现解决企业数据充足而知识匮乏的窘境, 把大量的原始数据转换成有价值的、便于利用的知识, 从而帮助企业在激烈的市场竞争中获得战略性优势.
(4) 提高系统的可扩展性
Hadoop提供了一个高度可扩展的共享存储和分析平台, 它可以存储和分发横跨数百个并行操作的廉价的服务器数据集群. 传统的EKMS主要依赖于关系型数据库系统, 对于处理大数据而言, 以纵向扩展来打造超级计算机显然是不可取的, 其扩展性不够友好. Hadoop则实现横向扩展, 能够在成百上千的数据节点上运行应用程序, 具有良好的扩展性和弹性. 企业可以根据自身的规模以及用户访问量等实际情况部署集群, 可以灵活地增加和减少集群节点, 且不会影响KMS的运转.
3 H_EKMS构建 3.1 基于Hadoop的企业知识管理框架模型本文以数据化运营为视角, 依托Hadoop生态系统的相关大数据技术, 构建了基于Hadoop的企业知识管理框架模型, 该模型由人、技术、知识源和功能服务构成(见图1), 突出“数据驱动管理创新、管理与技术并重”的理念, 整个模型框架建立在Hadoop生态系统之上, 对于数据的存储、分析有着良好的支持. 以下主要从知识创造、知识存储、知识集成和知识创新4个方面进行阐述.
(1) 知识创造
在数据大爆炸时代, 全球的数据量呈现不断增长的趋势. 大数据背景下知识管理生命周期的各个环节变得复杂了, 其中知识的采集不在局限在企业内部, 而是延伸到了企业的外部. 企业的外部大数据包括产业链数据、互联网数据、竞争情报数据和UGC数据, 这些数据不仅蕴含着巨大的商业价值, 而且还是企业知识发现和知识积累的重要基础. 但是这些数据具有量大、多样和价值密度低等特性, 依靠传统的数据库技术实现存储和在线事务处理(OLTP)并不能够满足企业需求, 引入MapReduce编程模型和Hive数据仓库分别实现大数据的分布式计算与在线分析处理(OLAP), 可以轻松达到企业大数据挖掘的目的, 进而为知识的储备与应用奠定基础.
(2) 知识存储
知识创造阶段的输出是经过分析处理之后形成的具有一定价值和规范的知识与数据, 但是仍具有多样和量大的特性. 一方面随着企业规模的增大和持续化运转, 这些数据和知识的积累量增大的速度会越来越快, 另一方面对于存储的安全性和操作的便捷性要求也越来越高. 云计算为实现云存储提供了技术支撑, 通过HDFS实现分布式存储, 既满足了知识量大的需求又满足了存储的安全性需求, 而HBase是构建在HDFS之上的面向列的分布式数据库, 支持实时访问超大规模数据集, 为企业的大数据应用提供了较好的解决方案.
(3) 知识集成
知识集成是通过H_EKMS实现的, 是知识应用和知识创新的基础. 主要包括基础功能和智能功能, 其中基础功能主要包括: 知识门户、知识地图、权限管理、知识检索、虚拟社区、学习培训等. 知识门户是统一展示知识的平台, 是企业或组织内部具体用户与知识管理系统软件进行人机交互的接口, 用于知识的发布与共享, 并且集成了知识管理的各个功能模块, 使得企业各部门员工之间知识交流和信息共享更加的流畅. 知识地图是具有索引的功能, 将显性的知识以图表、文字等形式表现出来, 能够很方便地按照知识地图的指引找到所需要的知识. 权限管理是为了系统的安全考虑, 将系统的用户划分成不同的级别进行权限控制. 知识检索是知识管理系统的最基础的功能之一, H_EKMS是建立在大数据技术基础之上的, 能够快速精准地响应用户的检索操作, 从而可以提升用户体验. 虚拟社区是知识管理系统用户进行知识交流和知识共享的重要平台, 用户可以通过虚拟社区平台回答、提问、推荐和贡献知识, 真正使隐性的经验类知识得到挖掘与传播, 有利于促进形成知识共享、知识创新的文化氛围. 学习培训是系统用户进行知识补给和推动内部知识传播的平台, 提供了学习的随时随地性, 既能够增强员工的基本技能, 又能够为企业节省大量的人力和财力.
智能功能是H_EKMS有别于其他传统的EKMS的特色功能, 主要包括知识推荐、日志分析、知识挖掘和情报服务. 知识推荐是综合运用机器学习相关的算法, 通过分析基础功能服务模块的知识检索、虚拟社区、学习培训所产生的行为数据、用户生成内容(User Genetated Content, UGC)以及知识元数据,挖掘用户的需求、兴趣以及行为模式, 从而实现个性化知识推荐. 伴随着知识管理系统的运转会产生大量的日志数据, 这些数据既包括系统运行过程中的运行状态, 又包括用户的一些访问数据, 日志分析功能模块可以对这些数据进行分析处理, 比如通过用户搜索的关键字日志分析可以得出用户的搜索偏好,通过分析系统的错误信息日志可以进行异常报警,从而可以了解系统的安全状况以及用户使用系统的行为模式, 进而为知识推荐奠定基础. 竞争情报已成为企业在长期发展过程中的核心竞争力之一, 尤其是在大数据时代, 企业若能够从海量繁杂的信息资源中挖掘出情报, 便会率先掌握和预测商机, 从而可以帮助企业进行科学决策和战略制定. 知识挖掘功能模块可以从数据资源中提炼知识, 促使隐性知识到显示知识的转换. 知识挖掘是知识管理的重要环节, 是知识创新的基础, 从海量的数据中提取结构化的知识, 将其运用到企业的生产和管理的过程中, 可以提升企业的管理效率. 另外知识挖掘可以实现搜索引擎的智能化, 通过知识挖掘构建知识图谱, 促使知识更加系统化、全面化以及知识之间的相互联系, 可以使用户的搜索更加便利. 最后, 知识挖掘也可以为企业的情报服务提供参考信息, 形成一个良性循环.
(4) 知识创新
通过对用户数据及其行为数据分析建立员工用户画像, 并对知识价值、知识量及知识标签进行有效地评估和展示, 一方面有利于企业知识管理人员及时了解实施知识管理的成效, 并对实施知识管理的绩效评价提供参考; 另一方面有利于企业管理人员根据用户特征有的放矢地进行激励, 并充分利用WEB 2.0技术促进用户生成内容, 进而促进知识转移与共享, 进一步提升企业创新能力.
3.2 H_EKMS设计设计结合以上对知识管理框架模型的分析, 设计了H_EKMS的逻辑架构, 见图2. 整个系统的架构可分为应用层和技术支撑层两大逻辑单元. 具体分析如下:
(1) 技术支撑层
技术支撑层是H_EKMS的保障, 主要由数据源层和大数据层组成. 其中数据的来源主要分为企业外部大数据和企业内部大数据, 外部大数据包括互联网大数据和行为数据, 企业内部大数据主要包括业务数据、用户属性数据和系统运转过程中产生的日志数据. 这些数据蕴含了大量的客户信息、企业竞争性情报和产业链信息, 对这些数据的深入挖掘, 一方面可以为企业管理决策提供有用的知识储备, 帮助企业精准定位商务价值和市场空间, 另一方面可以促进产业链的协同创新. 大数据层为整个系统提供分布式存储和分布式计算的技术支持, 其中数据存储是构建在分布式文件系统之上的, 传统的关系型数据库能够提供比较完整的ACID操作, 对于查询、连接以及索引有着很好的支持, 功能非常强大. 与关系型数据库相比, HBase更适合海量数据的存储和处理以及高并发访问, 并且具有很好的扩展性. 资源管理器YARN可以支撑多种计算框架, 为以后的系统扩展提供了很大的便捷. 离线分析处理主要是通过MapReduce编程模型和Hive数据仓库实现分布式计算.
(2) 应用层
就管理层面而言, 业务层主要分为三大板块, 主要分为面向企业人员的知识服务、面向管理者的决策服务及面向决策和科研机构的数据服务. H_EKMS秉承技术与管理并重的理念, 有效解决目前企业知识管理形同虚设的窘境, 更加强调知识应用的重要性, 通过为不同的使用人员提供不同的服务, 可以促进知识应用到实处, 比如通过为科研机构提供数据服务, 促进产学研协同创新, 可以为企业的发展提供良好的思路, 从而可以加快企业创新. 就技术层面而言, 业务层采用B/S架构模式, 选用SSH框架进行开发, 实现分层处理. 从用户的角度出发, 根据不同的权限设定, 系统共分了管理员和普通用户两种角色, 管理员包括系统管理员、知识管理员和社区管理员, 普通用户包括部门领导和普通员工. 其中系统管理员负责知识维护、公告以及问卷的发布与删除以及知识统计等工作, 知识管理员具有新建、修改和删除的权限, 社区管理员主要负责论坛板块的管理. 普通用户是系统的主要受众群体, 根据不同的职能层级, 划分不同的权限. 交互层提供了用户使用系统的接口, 用户可以通过PC端或者移动终端的浏览器来访问H_EKMS, 真正实现随时随地的知识共享与应用. 应用层是系统的功能模块, 也是系统的核心组件, 具有灵活的扩展性.
3.3 H_EKMS知识推荐模块设计与实现(1) H_EKMS知识推荐模块设计
EKMS不同于电商网站, 由于电商网站的用户群体非常庞大, 所以推荐系统一般采用基于物品的协同过滤算法(ItemCF), 这样可以进一步提高计算的速度. 考虑到企业员工人数相对固定而知识量逐渐增加的问题, 本文选择基于用户的协同过滤(UserCF)方法作为系统的推荐算法, 主要使用企业员工与系统交互时所产生的反馈数据完成整个推荐过程. 基于用户的协同过滤算法基本思想是通过计算用户的相似度来找到其近邻, 然后根据近邻对其未评分的物品的评分进行评分的预测, 最后将预测评分较高的物品推荐给当前用户. 基本推荐流程见图3.
首先, 计算用户的评分, 得到User-Item评分矩阵, 由于并不是所有用户都会对所阅读的文档进行评分, 所以得到的是一个稀疏度较高矩阵.
其次, 根据得到User-Item评分矩阵, 通过Useri和Userj对所有文档的评分来计算用户的相似度, 获得当前用户的近邻. 常用的相似度计算方法主要包括Jaccard公式, 余弦相似度, 皮尔逊相关系数等[13]. 本文选择余弦相似度来计算用户的相似性, 计算公式为:
$sim\left( {x,y} \right) = \frac{{\sum\nolimits_{i \in {I_{xy}}} {{r_{xi}}{r_{yi}}} }}{{\sqrt {\sum\nolimits_{i \in {I_x}} {r_{xi}^2} } \sqrt {\sum\nolimits_{j \in {I_y}} {r_{yi}^2} } }}$ |
其中, Ixy表示同时被用户x和用户y都评分的文档集合, rxi表示用户x对文档i的评分, ryi表示用户y对于文档i的评分, Ix和Iy分别表示用户x和用户y的所评分文档集合.
最后, 计算推荐结果. 由上一步可以得到当前用户的近邻, 根据近邻对当前用户未评分的文档的评分进行加权求和即可得到当前用户对文档的预测评分. 计算公式为:
$pre{d_{xi}} = {{\bar r}_x} + \frac{{\sum\nolimits_{y \in {N_u}} {sim\left( {x,y} \right)\left( {{r_{yi}} - {{\bar r}_y}} \right)} }}{{\sum\nolimits_{y \in {N_u}} {\left| {sim\left( {x,y} \right)} \right|} }}$ |
其中, predxi代表用户x对未评分的文档i的预测评分,
通过以上分析, 编写MapReduce程序实现基于用户的协同过滤算法, 可以有效地解决传统的协同过滤算法扩展性的问题, 对评分数据进行离线计算, 即可得到推荐的文档及相应的预测评分的推荐列表, 将推荐列表存储在HBase或者其他的数据库中, 提供前端在线的个性化服务, 至此也就完成了整个推荐过程.
(2) 实验数据与开发环境
本文通过虚拟化平台VMware Workstation 12 Pro搭建Hadoop集群环境, Linux操作系统选择ubuntu-12.04.5, Hadoop版本为Hadoop-2.7.1, JDK版本为JDK1.8, 开发工具为Eclipse , Hadoop集群由5台虚拟主机组成, 采用完全分布式模式,其中s0为NameNode,S1-S3为DataNode, S4为辅助NameNode对基于MapReduce的UserCF算法的测试采用Book-Crossing数据集, 该数据集包括图书社区的278 858个用户对271 379本书的评分信息, 本文共抽取82 690条记录进行模拟实验, 包括7874个用户的评分信息.
(3) 结果分析
由(2)可知, S1-S3为DataNode, 本文将数据集划为4份, 分别选取1968、3937、5905和7874个用户的评分数据, 在不同的集群规模上进行计算(选取的DataNode依次为S1, S1和S2, S1、S2和S3). 采用加速比进行性能评价, 其计算公式为:
${S_p} = \frac{{{T_s}}}{{{T_n}}}$ |
其中, Ts表示固定规模数据集下在单个DataNode的运行时间, Tn表示固定规模数据集下在n个DataNode的运行时间. 具体结果见图4.
如图4所示,随着DataNode节点的增加, 加速比大致呈现出线性增加的趋势, 能够进一步说明对于相同数量的数据集而言, 通过增加计算节点的数量, 可以提升数据处理的效率. 可以看出当数据量较小时, 加速比的变化趋势相对平缓, 说明对于较小的数据集而言, 通过增加计算节点的数量并不能够显著提升计算效率,这也进一步说明Hadoop更加适合处理规模较大的数据集. 由于用户的评分数据十分稀疏, 所以在Hadoop平台上实现基于用户的协同过滤算法可以充分发挥分布式并行计算的优势,从而有效解决算法的扩展性问题.
4 结论与展望在大数据技术的背景下, 通过对KMS架构再思考, 结合开源的、有庞大社区支持的Hadoop云平台以及Hadoop生态圈的其他大数据技术, 以用户行为模式和人机交互为出发点, 以知识的共享、应用和创新为落脚点, 构建了更加个性化和智能化的H_EKMS, 可以有效解决企业人员使用KMS积极性不高的窘境, 并提高企业海量数据的存储于处理的能力. 着重分析基于Hadoop的知识管理框架模型和系统的逻辑架构, 考虑到知识大爆炸、信息过载的问题, 提出了推荐系统在EKMS的应用. 最后, 详细分析知识推荐功能模块实现思路和关键技术, 采用了分布式MapReduce程序实现基于用户的协同过滤算法, 有效地解决协同过滤算法带来的扩展性问题. 本文构建的EKMS是基于Hadoop 2.0的, 主要采用Mapreduce实现数据的批处理, 而Hadoop 2.0的资源管理系统YARN (Yet Another Resource Negotiator)可以支持多种计算框架, 如Spark, Storm等, 随着企业知识管理的业务场景不断丰富, 对计算框架进行整合, 实现低延迟大数据处理有待进一步研究.
[1] |
Li BA. Knowledge management based on big data processing. Information Technology Journal, 2014, 13(7): 1415-1418. DOI:10.3923/itj.2014.1415.1418 |
[2] |
Tseng SM. The effects of information technology on knowledge management systems. Expert Systems with Applications, 2008, 35(1-2): 150-160. DOI:10.1016/j.eswa.2007.06.011 |
[3] |
Santoro G, Vrontis D, Thrassou A, et al. The internet of things: Building a knowledge management system for open innovation and knowledge management capacity. Technological Forecasting and Social Change, 2017. DOI:10.1016/j.techfore.2017.02.034 |
[4] |
Alavi M, Leidner DE. 知识管理和知识管理系统: 概念基础和研究课题. 郑文全, 译. 管理世界, 2012(5): 157-169. |
[5] |
常志平, 蒋馥. 企业知识管理系统的柔性战略分析. 科学学与科学技术管理, 2002, 23(9): 89-92. |
[6] |
张明宝, 马静, 米传民. 敏捷知识管理系统的设计与实现. 情报杂志, 2009, 28(2): 35-39. |
[7] |
张庆华, 张庆普. 基于用户创新模式的企业知识管理系统研究. 情报杂志, 2011, 30(6): 126-129. |
[8] |
Zhang JS, Zhao W, Xie G, et al. Ontology-based knowledge management system and application. Procedia Engineering, 2011, 15: 1021-1029. DOI:10.1016/j.proeng.2011.08.189 |
[9] |
叶春森, 汪传雷, 梁雯. 基于云计算的企业知识管理系统再造体系研究. 情报理论与实践, 2016, 39(3): 80-84. |
[10] |
王伟军, 刘艳芬, 王显彬, 等. 基于Web2.0的知识管理系统的设计. 情报理论与实践, 2009, 32(6): 97-101. |
[11] |
Shvachko K, Kuang HR, Radia S, et al. The hadoop distributed file system. Proceedings of the IEEE 26th Symposium on Mass Storage Systems and Technologies. Incline Village, NV, USA. 2010. 1–10.
|
[12] |
White T. Hadoop: The Definitive Guide. 4th ed. O'Reilly Media, Inc., 2015.
|
[13] |
Nilashi M, Bagherifard K, Ibrahim O, et al. Collaborative filtering recommender systems. Research Journal of Applied Sciences, Engineering & Technology, 2013, 5(16): 4168-4182. |