南开大学20秋学期《大数据开发技术（二）》在线作业-2

南开大学20秋学期《大数据开发技术（二）》在线作业-2
2023-11-19

南开大学20秋学期《大数据开发技术（二）》在线作业-2

1.Spark中DataFrame的()方法是进行排序查询
A.order by B.group by C.select by D.sort by
答案：A

2.var a=10; do{ a+=1;}while(a<20) 共循环了()次
A.9 B.10 C.11 D.12
答案：B

3.GraphX中()是存放着Edg对象的RDD
A.RDD[Edge] B.EdgeRDD C.RDD[(VertexId,VD)] D.VertexRDD
答案：A

4.Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A.print B.saveAsTextFiles C.saveAsObjectFiles D.saveAsHadoopFiles
答案：D

5.Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的Dstream
A.window B.countByWindow C.reduceByWindow D.reduceByKeyAndWindow
答案：C

6.spark-submit配置项中()表示Driver程序使用的内存大小
A.--driver-memory MEM B.--executor-memory MEM C.--total-executor-cores NUM D.--executor-coures NUM
答案：A

7.PairRDD的()方法，可以把两个RDD中键相同的元素组合在一起，合并为一个RDD。
A.join B.union C.substract D.intersection
答案：A

8.Scala 使用()关键字来继承一个类
A.extends B.override C.extend D.overrides
答案：

9.GraphX中graph.edges可以得到()
A.顶点视图 B.边视图 C.顶点与边的三元组整体视图 D.有向图
答案：B

10.图结构中如果任意两个顶点之间都存在边，那么称之为()
A.完全图 B.有向完全图 C.无向图 D.简单图
答案：A

11.Spark中DataFrame的()方法是进行分组查询
A.order by B.group by C.select by D.sort by
答案：B

12.以下哪个函数可以求两个RDD差集()
A.union B.substract C.intersection D.cartesian
答案：

13.()是Spark的数据挖掘算法库
A.Spark Core B.BlinkDB C.GraphX D.Mllib
答案：D

14.Scala列表方法中将函数应用到列表的所有元素的方法是()
A.filter B.foreach C.map D.mkString
答案：B

15.以下哪个函数可以对RDD进行排序()
A.sortBy B.filter C.distinct D.intersection
答案：A

16.GraphX中()方法可以查询边信息
A.numVertices B.numEdges C.vertices D.edges
答案：D

17.Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是()
A.filter B.foreach C.map D.mkString
答案：D

18.Spark中DataFrame的()方法是进行条件查询
A.where B.join C.limit D.apply
答案：A

19.下列Scala代码应输出()：var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) {sum+=a+b;}println(sum);
A.36 B.35 C.11 D.12
答案：D

20.Scala列表方法中返回所有元素，除了最后一个的方法是()
A.drop B.head C.filter D.init
答案：D

21.spark-submit配置项中()表示启动的executor数量
A.--num-executors NUM B.--executor-memory MEM C.--total-executor-cores NUM D.--executor-coures NUM
答案：A

22.图结构中如果任意两个顶点之间都存在有向边，那么称之为()
A.完全图 B.有向完全图 C.无向图 D.简单图
答案：B

23.在图结构中，每个元素都可以有()前驱
A.至少一个 B.零个或多个 C.一个 D.零个
答案：B

24.Spark Streming中()函数可以合并两个DStream，生成一个包含两个DStream中所有元素的新DStream对象
A.map B.flatMap C.filter D.union
答案：D

25.()可以解决图计算问题
A.Spark Core B.BlinkDB C.GraphX D.Mllib
答案：C

26.MLBase包括()
A.Mllib B.MLI C.SparkR D.GraphX
答案：AB

27.MapReudce不适合()任务
A.大数据计算 B.迭代 C.交互式 D.离线分析
答案：BC

28.RDD是一个()的数据结构
A.可读写 B.只读的 C.容错的 D.可进行并行操作的
答案：BCD

29.Spark可以从()分布式文件系统中读取数据
A.HDFS B.Hbase C.Hive D.Tachyon
答案：ABCD

30.以下算法中属于监督学习算法的是()
A.KNN算法 B.逻辑回归 C.随机森林 D.Kmeans
答案：ABC

31.以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()
A.resetpartition B.repartiton C.Partition D.coalesce
答案：BD

32.Spark创建DataFrame对象方式有()
A.结构化数据文件 B.外部数据库 C.RDD D.Hive中的表
答案：ABCD

33.MLlib中用于线性回归算法的包主要有()
A.LinearRegressionWithSGD B.RidgeRegressionWithSGD C.LassoWithSGD D.LeftRegression
答案：ABC

34.以下哪个方法可以从集合中创建RDD()
A.parallelize B.makeRDD C.textFile D.loadFile
答案：AB

35.Mllib实现了一些常见的机器学习算法和应用程序，包括()
A.分类 B.聚类 C.降维 D.回归
答案：ABCD

36.默认情况下，Scala 使用的是可变集合。()
T.对 F.错
答案：F

37.RDD中的collect 函数是一个行动操作，把RDD 所有元素转换成数组并返回到Driver 端，适用于大数据处理后的返回。()
T.对 F.错
答案：F

38.Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。()
T.对 F.错
答案：F

39.RDD的sortBy函数包含参数numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。()
T.对 F.错
答案：T

40.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。()
T.对 F.错
答案：T

41.用户可以在Apache Mesos上运行Spark。()
T.对 F.错
答案：T

42.Scala 列表与数组非常相似，列表的所有元素可具有不同的类型。()
T.对 F.错
答案：F

43.Scala中创建一个方法时经常用void表示该方法无返回值。()
T.对 F.错
答案：F

44.图(Graph)是一种复杂的非线性结构。()
T.对 F.错
答案：T

45.Scala 集合分为可变的和不可变的集合。()
T.对 F.错
答案：T

46.用户可以在Hadoop YARN上运行Spark。()
T.对 F.错
答案：T

47.Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗。()
T.对 F.错
答案：F

48.Scala中高阶函数可以产生新的函数，并将新的函数作为返回值。()
T.对 F.错
答案：T

49.RDD是一个可读写的数据结构。()
T.对 F.错
答案：F

50.RDD的sortBy排序默认是升序。()
T.对 F.错
答案：T

个人学习电脑知识

个人学习电脑知识

南开大学20秋学期《大数据开发技术（二）》在线作业-2
2023-11-19

南开大学20秋学期《大数据开发技术（二）》在线作业-2 2023-11-19

南开大学20秋学期《大数据开发技术（二）》在线作业-2
2023-11-19