基于Spark的流程化机器学习分析方法
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(U1435220)


Method of Implement Machine Learning Analysis with Workflow Based on Spark Platform
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    Spark通过使用内存分布数据集,更加适合负载数据挖掘与机器学习等需要大量迭代的工作.但是数据分析师直接使用Spark进行开发十分复杂,包括scala学习门槛高,代码优化与系统部署需要丰富的经验,同时代码的复用度低导致重复工作繁多.本文设计并实现了一种基于Spark的可视化流程式机器学习的方法,一方面设计组件模型来刻画机器学习的基本步骤,包括数据预处理、特征处理、模型训练及验证评估,另一方面提供可视化的流程建模工具,支持分析者设计机器学习流程,由工具自动翻译为Spark平台代码高效执行.本工具可以极大的提高Spark平台机器学习应用开发的效率.论文介绍了工具的方法理论和关键技术,并通过案例表明工具的有效性.

    Abstract:

    By using resilient distributed dataset,Spark is more adapted to iterative algorithms,which are common in data mining and machine learning jobs.However,the development of Spark applications is complicated for data analysts on account of the high threshold to learn scala,the rich experience of code optimization and system deployment,as well as multiple duplicated work due to the low reusing of code.We design and develop a machine learning tool with visible workflow style based on Spark.We design the stages of machine learning with workflow modules,including data preprocessing,feature processing,model training and validation.Meanwhile,a friendly user interface is brought forward to accelerate the design of machine learning workflow model for analysts,with the support of auto parsing from modules to Spark jobs by server end.This tool can greatly improves the efficiency of machine learning development on Spark platform.We introduce the theoretical methods and critical techniques in the paper,and prove its validity with a real instance.

    参考文献
    相似文献
    引证文献
引用本文

赵玲玲,刘杰,王伟.基于Spark的流程化机器学习分析方法.计算机系统应用,2016,25(12):162-168

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2016-03-21
  • 最后修改日期:2016-04-11
  • 录用日期:
  • 在线发布日期: 2016-12-14
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号