[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fn6p24B_Viqe2F6m7vggG5P23y8YZPN143cLGzZwpDZA":3},{"answer":4,"createTime":5,"id":6,"options":7,"origin":8,"question":15,"related":16,"source":27,"type":96},[],"2023-06-16 23:51:35",66289934,[],{"count":9,"courseId":10,"courseImg":11,"courseName":12,"workId":13,"workName":14},15,"bc194bb56a5674e93b64f52c0295f658","https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F4ee5514cd4ee403a360e48511bc68fd0.jpg","大数据技术与应用","work_28040646","第10章 Spark作业","试述如下Spark的几个主要概念:RDD、DAG、阶段、分区、窄依赖、宽依赖",[17,29,37,46,55,64,73,82,91,97],{"answer":18,"createTime":19,"id":20,"options":21,"question":26,"source":27,"type":28},[],"2023-06-08 22:54:25",54195873,[22,23,24,25],"Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发","Spark在2014年打破了Hadoop保持的基准排序纪录","Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度","Spark运行模式单一","下列关于Spark的描述,错误的是哪一项","v1",0,{"answer":30,"createTime":19,"id":31,"options":32,"question":26,"source":27,"type":28},[],54195874,[33,34,35,36],"使用DAG执行引擎以支持循环数据流与内存计算析","可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中","支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程","Spark运行模式不是单一的",{"answer":38,"createTime":19,"id":39,"options":40,"question":45,"source":27,"type":28},[],54195875,[41,42,43,44],"Scala语法复杂,但是能提供优雅的API计算","Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统","Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中","Scala是Spark的主要编程语言","下列关于Scala特性的描述,错误的是哪一项",{"answer":47,"createTime":19,"id":48,"options":49,"question":54,"source":27,"type":28},[],54195876,[50,51,52,53],"相对于Spark来说,使用Hadoop进行迭代计算非常耗资源","Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据","Hadoop的设计遵循&quot;一个软件栈满足不同应用场景&quot;的理念","Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案","下列说法哪项有误",{"answer":56,"createTime":19,"id":57,"options":58,"question":63,"source":27,"type":28},[],54195877,[59,60,61,62],"Spark应用在复杂的批量数据处理","Spark SQL是基于历史数据的交互式查询","Spark Streaming是基于历史数据的数据挖掘","GraphX是图结构数据的处理","在Spark生态系统组件的应用场景中,下列哪项说法是错误的",{"answer":65,"createTime":19,"id":66,"options":67,"question":72,"source":27,"type":28},[],54195878,[68,69,70,71],"RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task","Application是用户编写的Spark应用程序","一个Job包含多个RDD及作用于相应RDD上的各种操作","Directed Acyclic Graph反映RDD之间的依赖关系","下列说法错误的是",{"answer":74,"createTime":19,"id":75,"options":76,"question":81,"source":27,"type":28},[],54195879,[77,78,79,80],"一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合","每个RDD可分成多个分区,每个分区就是一个数据集片段","RDD是可以直接修改的","RDD提供了一种高度受限的共享内存模型","下列关于RDD说法,描述有误的是",{"answer":83,"createTime":19,"id":84,"options":85,"question":90,"source":27,"type":28},[],54195880,[86,87,88,89],"基于历史数据的数据挖掘","图结构数据的处理","基于历史数据的交互式查询","基于实时数据流的数据处理","Spark生态系统组件Spark Streaming的应用场景是",{"answer":92,"createTime":5,"id":93,"options":94,"question":95,"source":27,"type":96},[],66289928,[],"Spark是基于内存计算的大数据计算平台,试述Spark的主要特点",4,{"answer":98,"createTime":5,"id":99,"options":100,"question":101,"source":27,"type":96},[],66289929,[],"Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点"]