公告:网址大全导航目录www.btv85.com为各位站长提供免费收录网站的服务,VIP会员每天提交网站30、文章30免审核,快审服务(10元/站),可自助充值发布。

点击这里在线咨询客服 点击这里在线咨询客服
新站提交
  • 网站:223084
  • 待审:0
  • 小程序:16453
  • 文章:25975
  • 会员:239

今天BTV导航网的小编为你讲一下剖析阿里巴巴的云梯YARN集群技术使用相关的内容。

阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块既有MRv1,也有YARN集群,它们共享一个存储HDFS集 群。云梯YARN集群上既支持MapReduce,也支持Spark、MPI、RHive、RHadoop等计算模型。本文将详细介绍云梯YARN集群的 技术实现与发展状况。

MRv1与YARN集群共享HDFS存储的技术实现

以服务化为起点,云梯集群已将Hadoop分为存储(HDFS)服务与计算(MRv1和YARN)服务。两个计算集群共享着这个HDFS存储集群,这是怎么做到的呢?

在引入YARN之前,云梯的Hadoop是一个基于Apache Hadoop 0.19.1-dc版本,并增加许多新功能的版本。另外还兼容了Apache Hadoop 0.19、0.20、CDH3版本的客户端。为了保持对客户端友好,云梯服务端升级总会保持对原有客户端的兼容性。另外,为了访问数据的便捷性,阿里的存 储集群是一个单一的大集群,引入YARN不应迫使HDFS集群拆分,但YARN是基于社区0.23系列版本,它无法直接访问云梯HDFS集群。因此实现 YARN集群访问云梯的HDFS集群是引入YARN后第一个需要解决的技术问题。

Hadoop代码主要分为Common、HDFS、Mapred三个包。

Common部分包括公共类,如I/O、通信等类。
HDFS部分包括HDFS相关类,依赖Common包。
Mapred部分包括MapReduce相关代码,依赖Common包和HDFS包。
为了尽量减少对云梯HDFS的修改,开发人员主要做了以下工作。

使用云梯的HDFS客户端代码替换0.23中HDFS,形成新的HDFS包。
对0.23新的HDFS包做了少量的修改使其可以运行在0.23的Common包上。
对0.23新的HDFS包做了少量修改使0.23的Mapred包能运行在新的HDFS包。
对云梯的Common包的通信部分做了hack,使其兼容0.23的Common。
2016130105106048.jpg (628×434)

图1 云梯Hadoop代码架构

新的云梯代码结构如图1所示,相应阐述如下。

服务端

存储部分使用原有的HDFS。
MRv1计算集群中提供原MRv1服务。
YARN集群提供更丰富的应用服务。
客户端

云梯现有的客户端不做任何修改,继续使用原有的服务。
使用YARN的服务需要使用新客户端。
云梯MR服务切换为YARN要经过三个阶段

服务端只有MRv1, 客户端只有老版本客户端。
服务端MRv1和YARN共存(MRv1资源逐渐转移到YARN上), 客户端若需使用MRv1服务则保持客户端不变;若需使用YARN服务则需使用新版客户端。
服务端只剩下YARN,客户端只有新版本客户端。
通过上述修改,云梯开发人员以较小的修改实现了YARN对云梯HDFS的访问。

Spark on YARN的实现

云梯版YARN集群已实现对MRv2、Hive、Spark、MPI、RHive、RHadoop等应用的支持。云梯集群当前结构如图2所示。
2016130105130213.jpg (628×313)

图2 云梯架构图

其中,Spark已成为YARN集群上除MapReduce应用外另一个重要的应用。

Spark是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient Distributed Datasets),提供了比MapReduce丰富的模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图形计算算法。

Spark 的计算调度方式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone方式性能与稳定性都得到了提升,但自建集群毕 竟资源较少,并需要从云梯集群复制数据,不能满足数据挖掘与计算团队业务需求。而Spark on YARN能让Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,并充分享受云梯YARN集群丰富的计算资源。

Spark on YARN功能理论上从Spark 0.6.0版本开始支持,但实际上还远未成熟,经过数据挖掘与计算团队长时间的压力测试,修复了一些相对关键的Bug,保证Spark on YARN的稳定性和正确性。

图3展示了Spark on YARN的作业执行机制。
2016130105146035.jpg (628×358)

图3 Spark on YARN框架

基于YARN的Spark作业首先由客户端生成作业信息,提交给ResourceManager,ResourceManager在某一 NodeManager汇报时把AppMaster分配给NodeManager,NodeManager启动 SparkAppMaster,SparkAppMaster启动后初始化作业,然后向ResourceManager申请资源,申请到相应资源后 SparkAppMaster通过RPC让NodeManager启动相应的SparkExecutor,SparkExecutor向 SparkAppMaster汇报并完成相应的任务。此外,SparkClient会通过AppMaster获取作业运行状态。

目前,数据挖掘与计算团队通过Spark on YARN已实现MLR、PageRank和JMeans算法,其中MLR已作为生产作业运行。

云梯YARN集群维护经验分享

云梯YARN的维护过程中遇到许多问题,这些问题在维护YARN集群中很有可能会遇到,这里分享两个较典型的问题与其解决方法。

问题1
问题描述:社区的CPU隔离与调度功能,需要在每个NodeManager所在的机器创建用户账户对应的Linux账户。但阿里云梯集群有5000多个账 户,是否需要在每个NodeManager机器创建这么多Linux账户;另外每次创建或删除一个Hadoop用户,也应该在每台NodeManager 机器上创建或删除相应的Linux账户,这将大大增加运维的负担。

问题分析:我们发现,CPU的隔离是不依赖于Linux账户的,意味着即 使同一个账户创建两个进程,也可通过Cgroup进行CPU隔离,但为什么社区要在每台NodeManager机器上创建账户呢?原来这是为了让每个 Container都以提交Application的账户执行,防止Container所属的Linux账户权限过大,保证安全。但云梯集群很早前就已分 账户,启动Container的Linux账户统一为一个普通账户,此账户权限较小,并且用户都为公司内部员工,安全性已能满足需求。

解决方案:通过修改container-executor.c文件,防止其修改Container的启动账户,并使用一个统一的普通Linux账户(无sudo权限)运行Container。这既能保证安全,又能减少运维的工作量。

问题2
问题描述:MRApplicationMaster初始化慢,某些作业的MRApplicationMaster启动耗时超过一分钟。

问 题分析:通过检查MRApplication-Master的日志,发现一分钟的初始化时间都消耗在解析Rack上。从代码上分 析,MRApplicationMaster启动时需要初始化TaskAttempt,这时需要解析split信息中的Host,生成对应的Rack信 息。云梯当前解析Host的方法是通过调用外部一个Python脚本解析,每次调用需要20ms左右,而由于云梯HDFS集群非常大,有4500多台机 器,假如输入数据分布在每个Datanode上,则解析Host需要花费4500×20ms=90s;如果一个作业的输入数据较大,且文件的备份数为3, 那么输入数据将很有可能分布在集群的大多Datanode上。

解决方案:开发人员通过在Node-Manager上增加一个配置文件,包含所有Datanode的Rack信息,MRApp-licationMaster启动后加载此文件,防止频繁调用外部脚本解析。这大大加快了MRApplicationMaster的初始化速度。

此外,云梯开发人员还解决了一些会使ResourceManager不工作的Bug,并贡献给Apache Hadoop社区。

在搭建与维护云梯YARN集群期间,云梯开发人员遇到并解决了许多问题,分析和解决这些问题首先需要熟悉代码,但代码量巨大,我们如何能快速熟悉它们呢?这 需要团队的配合,团队中每个人负责不同模块,阅读后轮流分享,这能加快代码熟悉速度。另外,Hadoop的优势在于可以利用社区的力量,当遇到一个问题 时,首先可以到社区寻找答案,因为很多问题在社区已得到了解决,充分利用社区,可以大大提高工作效率。

云梯YARN集群的优势与未来之路

当前云梯YARN集群已经试运行,并有MRv2、Hive、Spark、RHive和RHadoop等应用。云梯YARN集群的优势在于:

支持更丰富的计算模型;
共享云梯最大的存储集群,访问便捷、快速;
AppHistory信息存储在HDFS上,各种应用的作业历史都能方便查看;
相对于MRv1集群,云梯YARN能支持更大规模的集群;
 相对于MRv1集群,云梯YARN集群支持内存和CPU调度,资源利用将更加合理。
未来,云梯将会把大多业务迁移到云梯YARN集群。针对YARN版本,云梯将增加资源隔离与调度,增加对Storm、Tez等计算模型的支持,并优化YARN的性能。

通过对剖析阿里巴巴的云梯YARN集群技术使用的详细介绍,希望对你有所帮助,我们提供了更多和剖析阿里巴巴的云梯YARN集群技术使用类似的相关内容推荐,可以你更全面的帮助你解决问题。我们BTV85网址导航还提供网址收录服务,你可以注册提交你的网站信息,帮你引导搜索引擎蜘蛛,同时还有网站SEO优化交流微信群,里面很多SEO高手和大咖,加友链,可以免费进群。

剖析阿里巴巴的云梯YARN集群技术使用同类内容推荐:
  • 2022虚幻引擎技术开放日,一场连接未来的技术盛宴

    自2020年6月发布Nanite和Lumen两大核心技术演示震撼游戏界后,虚幻引擎5(UE 5)的面纱终于在今年4月随着正式版 2022-11-14

  • 长期霸榜的《三国志·战略版》,如何用元境微端技术优化游戏用户下载体验?

    提到SLG游戏,很多人会马上想到《三国志·战略版》,其自2019年发布以来,已经吸引了超过5000万的玩家,早已是 2022-10-12

  • 元境云游戏技术让游戏全平台畅玩成为现实

    随着游戏行业几十年的发展,游戏终端的逐步演进,终端之上的游戏平台已层出不穷,我们能看到越来越多的游戏被 2022-10-12

  • seo技术培训有没有周末班呢

    seo技术培训更多的是线上培训(当然线下的也有,只是开班比较少),所以时间会比较灵活,通常情况下会利用晚上及周末 2022-10-11

  • 全球5000万三国迷的选取 ——全新H5技术助力《卧龙吟》再迎第二春

    什么样的游戏能够在同一个领域持续深耕11年之久?11年的时间,国内游戏的大环境发生了翻天覆地的变化,从网页游戏的黄 2022-10-11

  • 百度搜索将以技术手段打击盗版网文站点

    为了加强知识产权保护,维护正版站点的排序权益,百度搜索将在近期以技术手段,对有盗版特征(如笔趣阁)的小说、网文 2022-10-11

  • 关于seo技术是否存在的问题

    笔者认为seo技术真实存在,且能很大程度上影响到网站数据,而网站内容建设和用户体验则是网站优化最为重要的两 2022-10-10

  • 星火之歌技术队阵容组合推荐

    星火之歌技术队怎么玩?“技术队”是游戏里面主流阵容之一,配置中大多数角色是科学家,整体强度非常的不错。下面 2022-10-10

  • SEO技术都有哪些,如何学好SEO技术

    关于SEO技术的问题,本文简单解释了SEO技术是什么,以及学习过程中要注意什么问题。总之而言,SEO技术是很重要的 2022-10-09

  • SEO标题字母大小写有区别吗

    SEO标题中的字母大小写有区别吗,需要大写,还是小写呢。SEO标题分为“首页标题”和“内页标题& 2022-08-31

  •   admin

    注册时间:

    网站:0 个   小程序:0 个  文章:0 篇

    • 223084

      网站

    • 16453

      小程序

    • 25975

      文章

    • 239

      会员

    赶快注册账号,推广您的网站吧!
    热门网站
    最新入驻小程序

    小朋友猜谜语2021-05-24

    小朋友猜谜语是一款学习教育类的

    球比分2021-05-24

    球比分是一款体育运动类的小程序

    匠人名片2021-05-24

    匠人名片是一款交友社交类的小程

    知晴2021-05-24

    知晴是一款生活服务类的小程序应

    优惠券查询工具2021-05-24

    优惠券查询工具是一款其他工具类

    成语词典汉字拼音故事大全字典2021-05-24

    成语词典汉字拼音故事大全字典是