niusouti.com

HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

题目

HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。


相似考题
更多“HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。”相关问题
  • 第1题:

    大数据储存技术首先需要解决的是数据还量化和快递增长需求,其次是处理格式多样化的数据。谷歌文件系统(GFS)和Hadoop 的( )奠定了大数据储存技术的基础。

    A.分布式文件系统

    B.分布式数据库系统

    C.关系式数据库系统

    D.非结构化数据分析


    正确答案:A

  • 第2题:

    大数据储存技术首先需要解决的是数据海量化和快速增长需求,其次处理格式多样化的数据,谷歌文件系统(GFS)和Hadoop的( )奠定了大数据存储技术的基础。

    A.分布式文件系统
    B.分布式数据库系统
    C.关系型数据库系统
    D.非结构化数据分析系统

    答案:A
    解析:
    大数据存储技术首先需要解决的是数据海量化和快速增长需求。存储的硬件架构和文件系统的性价比要大大高于传统技术,存储容量计划应可以无限制扩展,且要求有很强的容错能力和并发读写能力。目前,谷歌文件系统(GFS)和Hadoop的分布式文件系统HDFS奠定了大数据存储技术的基础。大数据存储技术第二个要解决的是处理格式多样化的数据,这要求大数据存储管理系统能够对各种非结构化数据;进行高效管理,代表产品如:谷歌BigTable和HadoopHbase等非关系型数据库(NoSQL)。

  • 第3题:

    Hadoop分布式文件系统(HDFS)具有()的特性。

    • A、适合数据批量处理
    • B、数据处理能力极强
    • C、最大化吞吐率
    • D、允许计算向数据迁移
    • E、适合多线程问题

    正确答案:A,C,D

  • 第4题:

    以谷歌GFS6为代表的分布式文件系统将数据分为()同样大小的文件块。

    • A、16M
    • B、32M
    • C、64M
    • D、128M

    正确答案:C

  • 第5题:

    Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。


    正确答案:正确

  • 第6题:

    并行数据处理框架MapReduce是()公司在大数据领域的重要贡献。

    • A、百度
    • B、谷歌
    • C、脸谱
    • D、腾讯

    正确答案:B

  • 第7题:

    多选题
    Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管理?()
    A

    大量小文件存储

    B

    高容错,高吞吐量

    C

    低延迟读取

    D

    流式数据访问


    正确答案: C,B
    解析: 暂无解析

  • 第8题:

    单选题
    关于Hive和Hadoop其他组件的关系,以下描述错误的是?()
    A

    Hive最终将数据存储在HDFS中

    B

    HiveSQL其本质是执行MapReduce任务

    C

    Hive是Hadoop平台的数据仓库工具

    D

    Hive对HBase有强依赖


    正确答案: D
    解析: 暂无解析

  • 第9题:

    单选题
    并行数据处理技术MapReduce是由哪家公司最先提出的()。
    A

    谷歌公司

    B

    百度公司

    C

    雅虎公司

    D

    脸谱公司


    正确答案: A
    解析: 暂无解析

  • 第10题:

    多选题
    谷歌云计算主要由()组成。它们是内部云计算基础平台的主要部分
    A

    谷歌操作系统

    B

    MapReduce

    C

    谷歌文件系统

    D

    BigTable


    正确答案: D,B
    解析: 暂无解析

  • 第11题:

    单选题
    分布式文件系统GFS是()公司在大数据领域的重要贡献。
    A

    百度

    B

    谷歌

    C

    脸谱

    D

    腾讯


    正确答案: A
    解析: 暂无解析

  • 第12题:

    单选题
    并行数据处理框架MapReduce是()公司在大数据领域的重要贡献。
    A

    百度

    B

    谷歌

    C

    脸谱

    D

    腾讯


    正确答案: D
    解析: 暂无解析

  • 第13题:

    试题二(共25分)

    阅读以下关于分布式存储系统设计的叙述,回答问题1至问题3。

    某软件公司开发基于云计算的分布式文档协作平台( DDCP),系统部分需求如下所示:

    (1)实现文档的分布式存储,客户端可随时随地上传和下载文档;

    (2)支持多客户端并发编辑同一文档,某个客户端所做修改会实时显示在其他客户端;

    (3)要求系统具有自我修复机制,当系统中某个节点失效时,无需人工干预能够自动实现节点替换并恢复到一致状态。

    项目组经过讨论,决定采用现有的分布式文件系统作为基础架构,但在具体选用哪种设计方案时产生了分歧。王工建议采用Hadoop分布式文件系统HDFS作为系统参考架构,但张工认为Google分布式文件系统GFS更适合该系统需求。最后经过更为详细

    的分析和讨论,同意了张工的建议,采用GFS作为分布式文档协作平台的文件系统架构。

    【问题1】(12分)

    请用300字以内的文字说明GFS和HDFS有何异同,并针对系统需求,用200字以内的文字说明选择GFS的原因。

    【问题2】(8分)

    针对图2-1所示DDCP基础架构,请分别说明一次数据读操作和一次并发写操作的过程。

    【问题3】(5分)

    请分别叙述采用GFS和HDFS架构,单点失效问题是如何解决的。


    正确答案:
    试题二分析
    分布式数据存储系统是实现云计算和面向服务计算等分布式计算模型的基础,采用不同的分布式文件系统架构决定了分布式数据存储系统的运行效率、可伸缩性、容错能力及安全性等。分布式文件系统是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,从而实现了数据的分布式存储和管理。
    Google的GFS文件系统和Hadoop分布式文件系统HDFS是当前最流行的两种分布式文件系统参考架构。
    本题主要考查应试者对于分布式文件系统设计的掌握情况,特别是GFS和HDFS分布式文件系统架构的设计。本题结合一个典型的实际项目案例,首先要求分析GFS和HDFS之间的异同,然后针对系统需求分析采用GFS文件系统的原因;针对项目中所设、计的DDCP基础架构,分析数据读写操作的过程;最后针对具体的单点失效问题,说明两种分布式文件系统架构所提供的解决方案。
    【问题1】
    本问题要求考生针对GFS和HDFS两种分布式文件系统架构的特点展开分析并进行总结。
    (1) GFS是一个面向大规模数据密集型应用的、可伸缩的分布式文件系统,虽然运行在多台普通硬件设备上,但是它提供了灾难冗余的能力,为大量客户机提供高性能的服务。一个GFS集群中包含了一个单独的Master节点、多台Chunk服务器,并且同时被多个客户端访问。GFS存储的文件被分割为固定大小的Chunk并分配标识,缺省提供3个存储复制节点,Master节点管理所有的文件系统元数据,GFS客户端代码以库的形式被链接到客户程序里,无论是客户端还是Chunk服务器都不需要缓存文件数据。
    (2) HDF-S是一个高度容错性的系统,能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS采用Master/Slave架构,一个HDFS集群由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的命名空间以及客户端对文件的访问,集群中的Datanode 一般是一个节点一个,负责管理它所在节点上的存储。一个文件被分成一个或多个数据块,这些块存储在一组Datanodeh上,Namenode执行文件系统的命名空间操作并确定数据块到具体Datanode节点的映射,Datanode在Namenode的统一调度下负责处理文件系统客户端的读写请求。
    【问题2】
    本问题要求考生认真分析图中给出的DDCP系统架构,依据图中节点之间的数据传
    输关系描述数据传输过程。
    (1)读数据的过程:应用程序将读数据请求发送给客户端后,客户端访问主服务器请求所需数据位置信息,主服务器查询数据分块和地址信息返回给客户端,客户端根据地址信息向块服务器发送读数据请求,块服务器将所请求数据发送给客户端,客户端将数据转发给应用程序。
    (2)写数据的过程:应用程序分别将数据和写数据请求发送给客户端,客户端依次访问主服务器请求所写数据位置信息,主服务器依次查询数据分块和地址信息发送给客户端,客户端将所要写入的数据重新组织,将属于同一个块服务器的数据按照分组报文和分组序列信息发送给块服务器数据缓存( Primary),客户端将所写数据按照分组报文发送给块服务器数据缓存( Secondary),块服务器数据缓存(Primary)按照分组序列将数据写入到块服务器数据块( Primary),块服务器(Primary)将分组序列发送给块服务器(Secondary),块服务器数据缓存(Secondary)按照分组序列将数据写入块服务器数据块( Secondary),块服务器(Secondary)将写入完成信息发送给块服务器(Primary),块服务器数据( Primary)将写数据完成信息发送给客户端。
    【问题3】
    本问题要求应试者掌握单点失效问题产生的原因,并能够结合GFS和HDFS架构的特点进行分析,说明所采用的解决方案。
    参考答案
    【问题1】
    GFS与HDFS相比的相同点是:单一控制机和多台工作机;通过数据分块和复制实现可靠性和高性能;树状文件系统结构。
    GFS与HDFS相比的不同点是:多次写入和多客户端并发增加数据;Master单点失效问题;数据快照的支持;实时性支持。
    针对系统需求,文档协作要求多客户端并发写入文件支持;解决主服务器单点失效问题;系统补偿操作需要数据快照。
    【问题2】
    读数据过程:
    ④应用程序将读数据请求发送给DDCP客户端;
    ②DDCP客户端访问DDCP主服务器请求所需数据位置信息;
    ③DDCP主服务器查询数据分块和地址信息发送给DDCP客户端;
    ④DDCP客户端根据地址信息向DDCP块服务器发送读数据请求;
    ⑤DDCP块服务器将所请求数据发送给DDCP客户端;
    ⑥DDCP客户端将数据转发给应用程序。
    并发写数据过程:
    ①并发写的应用程序分别将数据和写数据请求发送给DDCP客户端;
    ②DDCP客户端依次访问DDCP主服务器请求所写数据位置信息;
    ③DDCP主服务器依次查询数据分块和地址信息发送给DDCP客户端;
    ④DDCP客户端将所要写入的数据重新组织,将属于同一个DDCP块服务器的数
    据按照分组报文和分组序列信息发送给DDCP块服务器数据缓存(Primary);
    ⑤DDCP客户端将所写数据按照分组报文发送给DDCP块服务器数据缓存
    (Secondary);
    ⑥DDCP块服务器数据缓存(Primary)按照分组序列将数据写入到DDCP块服务
    器数据块( Primary);
    ⑦DDCP块服务器(Primary)将分组序列发送给DDCP块服务器(Secondary);
    ⑧DDCP块服务器数据缓存(Secondary)按照分组序列将数据写入DDCP块服务
    器数据块(Secondary);
    ⑨DDCP块服务器(Secondary)将写入完成信息发送给DDCP块服务器(Primary);
    ⑩DDCP块服务器数据(Primary)将写数据完成信息发送给DDCP客户端。
    【问题3】
    GFS中采用主从模式备份Master的系统元数据,当主Master失效时,可以通过分布式选举备机接替主Master继续对外提供服务,而由于复制及主备切换本身有一定的复杂性,HDFS Master的持久化数据只写入到本机(可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害),出现故障时需要人工介入。

  • 第14题:

    谷歌的云计算主要由()组成,它们是谷歌内部云计算基础平台的主要部分。

    • A、MapReduce
    • B、谷歌文件系统
    • C、igTable
    • D、以上三个选项都对

    正确答案:D

  • 第15题:

    随着谷歌()和()的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。

    • A、Map,iGoogle
    • B、Docs,GoogleFileSystem
    • C、YouTube,GooleMobile
    • D、MapReduce,GoogleFileSystem

    正确答案:D

  • 第16题:

    谷歌在()年连续发表了3篇很有影响力的文章,分别阐述了GFS、MapReduce和BigTable的核心思想。

    • A、2003~2006
    • B、2003~2005
    • C、2005~2006
    • D、2006~2007

    正确答案:A

  • 第17题:

    分布式文件系统GFS是()公司在大数据领域的重要贡献。

    • A、百度
    • B、谷歌
    • C、脸谱
    • D、腾讯

    正确答案:B

  • 第18题:

    单选题
    谷歌的云计算主要由()组成,它们是谷歌内部云计算基础平台的主要部分。
    A

    MapReduce

    B

    谷歌文件系统

    C

    igTable

    D

    以上三个选项都对


    正确答案: B
    解析: 暂无解析

  • 第19题:

    问答题
    Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。

    正确答案: (1)Hadoop存在以下缺点:
    ①表达能力有限;②磁盘IO开销大;③延迟高
    (2)Spark主要有如下优点:
    ①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;
    ②Spark提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;
    ③Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
    解析: 暂无解析

  • 第20题:

    多选题
    基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储的组件有?()
    A

    MR

    B

    Spark

    C

    HDFS

    D

    HBase


    正确答案: C,B
    解析: 暂无解析

  • 第21题:

    单选题
    与开源云计算系统Hadoop HDFS对应的商用云计算软件系统是()?
    A

    Google GFS

    B

    Google MapReduce

    C

    Google BigTable

    D

    Google Chubby


    正确答案: C
    解析: 暂无解析

  • 第22题:

    多选题
    Hadoop分布式文件系统(HDFS)具有()的特性。
    A

    适合数据批量处理

    B

    数据处理能力极强

    C

    最大化吞吐率

    D

    允许计算向数据迁移

    E

    适合多线程问题


    正确答案: E,C
    解析: 暂无解析

  • 第23题:

    问答题
    试述hadoop和谷歌的mapreduce、gfs等技术之间的关系

    正确答案: Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
    解析: 暂无解析

  • 第24题:

    问答题
    试述MapReduce和Hadoop的关系。

    正确答案: 谷歌公司最先提出了分布式并行编程模型MapReduce, Hadoop MapReduce是它的开源实现。谷歌的MapReduce运行在分布式文件系统GFS上,与谷歌类似,HadoopMapReduce运行在分布式文件系统HDFS上。相对而言,HadoopMapReduce 要比谷歌MapReduce 的使用门槛低很多,程序员即使没有任何分布式程序开发经验,也可以很轻松地开发出分布式程序并部署到计算机集群中。
    解析: 暂无解析