[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"$fLjh_Lw9wrbYIbqrUyJwdig_mInDZHRKTVqar76GxDJo":3},{"answer":4,"createTime":5,"id":6,"options":7,"origin":12,"question":16,"related":17,"source":27,"type":28},[],"2023-10-29 11:43:58",102345800,[8,9,10,11],"一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合","每个RDD可分成多个分区,每个分区就是一个数据集片段","RDD是可以直接修改的","RDD提供了一种高度受限的共享内存模型",{"courseId":13,"courseImg":14,"courseName":15},"36bed58c7f33065e3edd8000059915e8","https:\u002F\u002Ftihai-oss-cloud.itihey.com\u002Fimg\u002F614b78afb48dc1c733ce66e2946bac8e.jpg","云计算与大数据技术","下列关于RDD说法,描述有误的是",[18,29,36,39,48,57,66,75,84,93],{"answer":19,"createTime":5,"id":20,"options":21,"question":26,"source":27,"type":28},[],102345797,[22,23,24,25],"基于历史数据的数据挖掘","图结构数据的处理","基于历史数据的交互式查询","基于实时数据流的数据处理","Spark生态系统组件Spark Streaming的应用场景是","v1",0,{"answer":30,"createTime":5,"id":31,"options":32,"question":35,"source":27,"type":28},[],102345798,[23,24,33,34],"复杂的批量数据处理","基于历史数据的数据挖掘多选题","Spark生态系统组件MLlib的应用场景是",{"answer":37,"createTime":5,"id":6,"options":38,"question":16,"source":27,"type":28},[],[8,9,10,11],{"answer":40,"createTime":5,"id":41,"options":42,"question":47,"source":27,"type":28},[],102345801,[43,44,45,46],"使用DAG执行引擎以支持循环数据流与内存计算","可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中","支持使用Scala、Java、Python和R语言进行编程,但是不可以通过Spark Shell进行交互式编程","Spark提供了完整而强⼤的技术栈,包括SQL查询、流式计算、机器学习和图算法组件,这些组件可以⽆缝整合到同⼀个应⽤中,足以应对复杂的计算","下列关于Spark的描述,错误的是哪一项",{"answer":49,"createTime":5,"id":50,"options":51,"question":56,"source":27,"type":28},[],102345802,[52,53,54,55],"RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task","Application是用户编写的Spark应用程序","一个Job包含多个RDD及作用于相应RDD上的各种操作","Directed Acyclic Graph反映RDD之间的依赖关系","下列说法错误的是",{"answer":58,"createTime":5,"id":59,"options":60,"question":65,"source":27,"type":28},[],102345804,[61,62,63,64],"Spark应用在复杂的批量数据处理","Spark SQL是基于历史数据的交互式查询","Spark Streaming是基于历史数据的数据挖掘","GraphX是图结构数据的处理","在Spark生态系统组件的应用场景中,下列哪项说法是错误的",{"answer":67,"createTime":5,"id":68,"options":69,"question":74,"source":27,"type":28},[],102345805,[70,71,72,73],"Scala语法复杂,但是能提供优雅的API计算","Scala具备强大的并发性,支持函数式编程,可以更好地支持分布式系统","Scala兼容Java,运行速度快,且能融合到Hadoop生态圈中","Scala是Spark的主要编程语言","下列关于Scala特性的描述,错误的是哪一项",{"answer":76,"createTime":5,"id":77,"options":78,"question":83,"source":27,"type":28},[],102345809,[79,80,81,82],"相对于Spark来说,使用Hadoop进行迭代计算非常耗资源","Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据","Hadoop的设计遵循&quot;一个软件栈满足不同应用场景&quot;的理念","Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案","下列说法哪项有误",{"answer":85,"createTime":5,"id":86,"options":87,"question":92,"source":27,"type":28},[],102345811,[88,89,90,91],"take(n):返回数据集中的第n个元素","count():返回数据集中的元素个数","filter(func):筛选出满足函数func的元素,并返回一个新的数据集","map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集","下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是",{"answer":94,"createTime":5,"id":95,"options":96,"question":47,"source":27,"type":28},[],102345814,[97,98,99,100],"Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发","Spark在2014年打破了Hadoop保持的基准排序纪录","Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度","Spark运行模式单一"]