• “善款资助副局长儿子留学”真相须尽快落地 2019-06-19
  • 21岁女护士失联2天后确认遇害 嫌疑人为其前男友 2019-06-19
  • 中国地质公园名录旅行地中国国家地理网 2019-06-13
  • 玄关运用有四大原则 用的好才能财旺挡煞聚财 ——凤凰网房产 2019-06-10
  • 河北宣讲十九大:燕赵大地起春雷 高质发展显活力 2019-06-10
  • 美商界高关税是对努力工作的美国人征税! 2019-06-10
  • 端午假期高速公路不免费!环京高速流量预计增长39% 2019-06-03
  • Facebook 推出游戏直播服务 Fb.gg,对标 Twitch 2019-05-27
  • 王毅:朝美领导人对话创造新的历史 中方欢迎和支持 2019-05-27
  • 驴友探险失足摔伤被困深山 消防官兵抬着担架蹚河救人 2019-05-24
  • 【北京隆晟通达车型报价】北京隆晟通达4S店车型价格 2019-05-23
  • 小长假 新疆接待游客353.6万人次 2019-05-23
  • “全国绿色工厂推进联盟”成立大会暨2017绿色工厂创建论坛在京召开 2019-05-22
  • 向德荣寓言:农夫、青蛙与苍蝇(原创首发) 2019-05-19
  • 杭州教师史记体评语引热议 网友直呼有才、用心 2019-05-13
  • 360彩票粤11选5走势图: 大数据小白系列 —— MapReduce流程的深入说明

    广东十一选5一定牛 www.aavbg.com 上一期我们介绍了MR的基本流程与概念,本期稍微深入了解一下这个流程,尤其是比较重要但相对较少被提及的Shuffling过程。

     

    Mapping

    上期我们说过,每一个mapper进程接收并处理一块数据,这块数据的大小默认就是一个HDFS数据块大小。

     

    Mapper处理数据时,基于性能考虑,会使用缓存,缓存的大小有一个默认值(比如100MB),满了之后,将会写入磁盘文件。

     

    不过在写入之前,会在内存中进行分区(partition),分区的数量取决于reducer的数量,实际上也就是由MR框架决定,例如上图中是3个。在每个分区内,数据会被按key进行排序,都完成之后,这些数据才会被写入磁盘。

     

    由于缓存可能多次被占满(上图中是3次),从而导致多次磁盘写入,产生多个磁盘文件,所以每个mapper结束之后,需要对自己所产生的多个文件进行合并(merge),合并出来的大文件同样进行分区及分区内的排序。

     

    通常,这个合并后的文件会被压缩,以便减少磁盘存储成本,同时也有利于降低shuffling时的网络传输成本。

     

    这些都完成之后,这个所谓的“中间结果”文件,就静静地等待reducer来获取。

     

    Reducing

    当一个mapper完成工作之后,所有的reducer们都会收到通知,开始去取该mapper产生的数据文件,不同的reducer取走不同的分区内的数据。

     

    所以取数这一步,并不是等到所有的mapper都完成才开始,而是某个mapper一完成,reducer就会去取。

     

    当所有mapper都完成,所有的中间结果都已被拷贝至reducer,才开始真正的reduce操作,对取来的多个分区数据进行合并和统一排序,最终用户所写的reduce方法会作用在排序后的每一条数据上,以产生最终结果。

      

    Shuffling

    上述所说的发生在mapping与reducing之间的数据排序、合并、及拷贝的过程,包括mapping侧的一部分好reducing侧的一部分,即图中红色框出部分,统称为shuffling。

     

    这一步骤的特点是什么?就是重磁盘IO、重网络IO,知道这一点很重要。

     

    - END - 

     

    好了,本期就先到这儿,下一期讲讲MR的优点、局限性等内容。

    喜欢本文的朋友们,欢迎长按下图关注订阅号程序员杂书馆,提前获得更多更新内容,以及领取大数据及Java经典资料。

    posted @ 2019-03-16 22:13 Morven.Huang 阅读(...) 评论(...) 编辑 收藏
  • “善款资助副局长儿子留学”真相须尽快落地 2019-06-19
  • 21岁女护士失联2天后确认遇害 嫌疑人为其前男友 2019-06-19
  • 中国地质公园名录旅行地中国国家地理网 2019-06-13
  • 玄关运用有四大原则 用的好才能财旺挡煞聚财 ——凤凰网房产 2019-06-10
  • 河北宣讲十九大:燕赵大地起春雷 高质发展显活力 2019-06-10
  • 美商界高关税是对努力工作的美国人征税! 2019-06-10
  • 端午假期高速公路不免费!环京高速流量预计增长39% 2019-06-03
  • Facebook 推出游戏直播服务 Fb.gg,对标 Twitch 2019-05-27
  • 王毅:朝美领导人对话创造新的历史 中方欢迎和支持 2019-05-27
  • 驴友探险失足摔伤被困深山 消防官兵抬着担架蹚河救人 2019-05-24
  • 【北京隆晟通达车型报价】北京隆晟通达4S店车型价格 2019-05-23
  • 小长假 新疆接待游客353.6万人次 2019-05-23
  • “全国绿色工厂推进联盟”成立大会暨2017绿色工厂创建论坛在京召开 2019-05-22
  • 向德荣寓言:农夫、青蛙与苍蝇(原创首发) 2019-05-19
  • 杭州教师史记体评语引热议 网友直呼有才、用心 2019-05-13