[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fKeFEYPQl8KbKrhbPq3A04I0pjASPr8preA_Kj2j-O5A":3},{"answer":4,"createTime":5,"id":6,"options":7,"origin":12,"question":16,"related":17,"source":27,"type":28},[],"2023-10-29 11:43:58",102345809,[8,9,10,11],"相对于Spark来说,使用Hadoop进行迭代计算非常耗资源","Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据","Hadoop的设计遵循&quot;一个软件栈满足不同应用场景&quot;的理念","Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案",{"courseId":13,"courseImg":14,"courseName":15},"36bed58c7f33065e3edd8000059915e8","https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F614b78afb48dc1c733ce66e2946bac8e.jpg","云计算与大数据技术","下列说法哪项有误",[18,29,36,45,54,63,72,81,84,93],{"answer":19,"createTime":5,"id":20,"options":21,"question":26,"source":27,"type":28},[],102345797,[22,23,24,25],"基于历史数据的数据挖掘","图结构数据的处理","基于历史数据的交互式查询","基于实时数据流的数据处理","Spark生态系统组件Spark Streaming的应用场景是","v1",0,{"answer":30,"createTime":5,"id":31,"options":32,"question":35,"source":27,"type":28},[],102345798,[23,24,33,34],"复杂的批量数据处理","基于历史数据的数据挖掘多选题","Spark生态系统组件MLlib的应用场景是",{"answer":37,"createTime":5,"id":38,"options":39,"question":44,"source":27,"type":28},[],102345800,[40,41,42,43],"一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合","每个RDD可分成多个分区,每个分区就是一个数据集片段","RDD是可以直接修改的","RDD提供了一种高度受限的共享内存模型","下列关于RDD说法,描述有误的是",{"answer":46,"createTime":5,"id":47,"options":48,"question":53,"source":27,"type":28},[],102345801,[49,50,51,52],"使用DAG执行引擎以支持循环数据流与内存计算","可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中","支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程","Spark提供了完整而强⼤的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以⽆缝整合到同⼀个应⽤中,足以应对复杂的计算","下列关于Spark的描述,错误的是哪一项",{"answer":55,"createTime":5,"id":56,"options":57,"question":62,"source":27,"type":28},[],102345802,[58,59,60,61],"RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task","Application是用户编写的Spark应用程序","一个Job包含多个RDD及作用于相应RDD上的各种操作","Directed Acyclic Graph反映RDD之间的依赖关系","下列说法错误的是",{"answer":64,"createTime":5,"id":65,"options":66,"question":71,"source":27,"type":28},[],102345804,[67,68,69,70],"Spark应用在复杂的批量数据处理","Spark SQL是基于历史数据的交互式查询","Spark Streaming是基于历史数据的数据挖掘","GraphX是图结构数据的处理","在Spark生态系统组件的应用场景中,下列哪项说法是错误的",{"answer":73,"createTime":5,"id":74,"options":75,"question":80,"source":27,"type":28},[],102345805,[76,77,78,79],"Scala语法复杂,但是能提供优雅的API计算","Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统","Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中","Scala是Spark的主要编程语言","下列关于Scala特性的描述,错误的是哪一项",{"answer":82,"createTime":5,"id":6,"options":83,"question":16,"source":27,"type":28},[],[8,9,10,11],{"answer":85,"createTime":5,"id":86,"options":87,"question":92,"source":27,"type":28},[],102345811,[88,89,90,91],"take(n):返回数据集中的第n个元素","count():返回数据集中的元素个数","filter(func):筛选出满足函数func的元素,并返回一个新的数据集","map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集","下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是",{"answer":94,"createTime":5,"id":95,"options":96,"question":53,"source":27,"type":28},[],102345814,[97,98,99,100],"Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发","Spark在2014年打破了Hadoop保持的基准排序纪录","Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度","Spark运行模式单一"]