使用内存缓存的迭代应用编程框架
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金(61100067)


MemLoop: A Programming Framework Using In-Memory Cache for Iterative Application
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    迭代式计算是一类重要的大数据分析应用. 在分布式计算框架MapReduce上实现迭代计算时, 计算会被分解成多个作业并按作业依存关系顺序运行, 这使得程序与分布式文件系统(DFS)有多次交互而影响程序执行时间. 对这些交互相关数据的缓存会降低与DFS的交互时间, 进而提升程序总体的性能. 考虑到集群中的大量内存在多数情况下会处于空闲状态, 提出了一种使用内存缓存的迭代式应用编程框架MemLoop. 该系统从作业提交API、调度算法、缓存管理模块实现缓存管理以充分利用内存缓存迭代间可驻留数据与迭代内依存数据. 我们将此框架与已有相关框架进行了比较, 实验结果表明该框架能够提升迭代程序的性能.

    Abstract:

    The iterative computation is an important big data analysis application. While implementing iterative computation on the distributed computation framework MapReduce, the iterative program will be divided into more than one jobs which run in the order defined by the dependencies between jobs, which lead to many interactions between the program and distributed file system(DFS) that will affect the program's execution time. Caching these interaction-related data will reduce the time of interactions between the program and DFS and hence improve the overall performance of application. Considering that large amount of memory in cluster nodes is unused at most time, this paper proposes a programming framework called MemLoop using memory cache for iterative application. This system sufficiently uses the free memory in the cluster's nodes to cache data by implementing the memory caching management from three models: job submit API, task scheduling algorithm, cache management. The cached data is classified into two categories: inter-iteration resident data and intra-iteration dependent data. We compare this framework with previous related framework. The result shows that MemLoop can improve the performance of iterative program.

    参考文献
    相似文献
    引证文献
引用本文

连文波,汪美玲,陶秋铭,赵琛.使用内存缓存的迭代应用编程框架.计算机系统应用,2015,24(3):44-49

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2014-07-04
  • 最后修改日期:2014-08-11
  • 录用日期:
  • 在线发布日期: 2015-03-04
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号