个人学习电脑知识

个人学习电脑知识

南开大学20秋学期《大数据开发技术(二)》在线作业-2
2023-11-19

南开大学20秋学期《大数据开发技术(二)》在线作业-2

1.Spark中DataFrame的()方法是进行排序查询
A.order by B.group by C.select by D.sort by
答案:A

2.var a=10; do{ a+=1;}while(a<20) 共循环了()次
A.9 B.10 C.11 D.12
答案:B

3.GraphX中()是存放着Edg对象的RDD
A.RDD[Edge] B.EdgeRDD C.RDD[(VertexId,VD)] D.VertexRDD
答案:A

4.Dstream输出操作中()方法将DStream中的内容按对象序列化并且以SequenceFile的格式保存
A.print B.saveAsTextFiles C.saveAsObjectFiles D.saveAsHadoopFiles
答案:D

5.Dstream窗口操作中()方法基于滑动窗口对源DStream中的元素进行聚合操作,得到一个新的Dstream
A.window B.countByWindow C.reduceByWindow D.reduceByKeyAndWindow
答案:C

6.spark-submit配置项中()表示Driver程序使用的内存大小
A.--driver-memory MEM B.--executor-memory MEM C.--total-executor-cores NUM D.--executor-coures NUM
答案:A

7.PairRDD的()方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。
A.join B.union C.substract D.intersection
答案:A

8.Scala 使用()关键字来继承一个类
A.extends B.override C.extend D.overrides
答案:

A



9.GraphX中graph.edges可以得到()
A.顶点视图 B.边视图 C.顶点与边的三元组整体视图 D.有向图
答案:B

10.图结构中如果任意两个顶点之间都存在边,那么称之为()
A.完全图 B.有向完全图 C.无向图 D.简单图
答案:A

11.Spark中DataFrame的()方法是进行分组查询
A.order by B.group by C.select by D.sort by
答案:B

12.以下哪个函数可以求两个RDD差集()
A.union B.substract C.intersection D.cartesian
答案:

B



13.()是Spark的数据挖掘算法库
A.Spark Core B.BlinkDB C.GraphX D.Mllib
答案:D

14.Scala列表方法中将函数应用到列表的所有元素的方法是()
A.filter B.foreach C.map D.mkString
答案:B

15.以下哪个函数可以对RDD进行排序()
A.sortBy B.filter C.distinct D.intersection
答案:A

16.GraphX中()方法可以查询边信息
A.numVertices B.numEdges C.vertices D.edges
答案:D

17.Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是()
A.filter B.foreach C.map D.mkString
答案:D

18.Spark中DataFrame的()方法是进行条件查询
A.where B.join C.limit D.apply
答案:A

19.下列Scala代码应输出():var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) {sum+=a+b;}println(sum);
A.36 B.35 C.11 D.12
答案:D

20.Scala列表方法中返回所有元素,除了最后一个的方法是()
A.drop B.head C.filter D.init
答案:D

21.spark-submit配置项中()表示启动的executor数量
A.--num-executors NUM B.--executor-memory MEM C.--total-executor-cores NUM D.--executor-coures NUM
答案:A

22.图结构中如果任意两个顶点之间都存在有向边,那么称之为()
A.完全图 B.有向完全图 C.无向图 D.简单图
答案:B

23.在图结构中,每个元素都可以有()前驱
A.至少一个 B.零个或多个 C.一个 D.零个
答案:B

24.Spark Streming中()函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象
A.map B.flatMap C.filter D.union
答案:D

25.()可以解决图计算问题
A.Spark Core B.BlinkDB C.GraphX D.Mllib
答案:C

26.MLBase包括()
A.Mllib B.MLI C.SparkR D.GraphX
答案:AB

27.MapReudce不适合()任务
A.大数据计算 B.迭代 C.交互式 D.离线分析
答案:BC

28.RDD是一个()的数据结构
A.可读写 B.只读的 C.容错的 D.可进行并行操作的
答案:BCD

29.Spark可以从()分布式文件系统中读取数据
A.HDFS B.Hbase C.Hive D.Tachyon
答案:ABCD

30.以下算法中属于监督学习算法的是()
A.KNN算法 B.逻辑回归 C.随机森林 D.Kmeans
答案:ABC

31.以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()
A.resetpartition B.repartiton C.Partition D.coalesce
答案:BD

32.Spark创建DataFrame对象方式有()
A.结构化数据文件 B.外部数据库 C.RDD D.Hive中的表
答案:ABCD

33.MLlib中用于线性回归算法的包主要有()
A.LinearRegressionWithSGD B.RidgeRegressionWithSGD C.LassoWithSGD D.LeftRegression
答案:ABC

34.以下哪个方法可以从集合中创建RDD()
A.parallelize B.makeRDD C.textFile D.loadFile
答案:AB

35.Mllib实现了一些常见的机器学习算法和应用程序,包括()
A.分类 B.聚类 C.降维 D.回归
答案:ABCD

36.默认情况下,Scala 使用的是可变集合。()
T.对 F.错
答案:F

37.RDD中的collect 函数是一个行动操作,把RDD 所有元素转换成数组并返回到Driver 端,适用于大数据处理后的返回。()
T.对 F.错
答案:F

38.Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数。()
T.对 F.错
答案:F

39.RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。()
T.对 F.错
答案:T

40.RDD中zip操作要求两个RDD的partition数量以及元素数量都相同。()
T.对 F.错
答案:T

41.用户可以在Apache Mesos上运行Spark。()
T.对 F.错
答案:T

42.Scala 列表与数组非常相似,列表的所有元素可具有不同的类型。()
T.对 F.错
答案:F

43.Scala中创建一个方法时经常用void表示该方法无返回值。()
T.对 F.错
答案:F

44.图(Graph)是一种复杂的非线性结构。()
T.对 F.错
答案:T

45.Scala 集合分为可变的和不可变的集合。()
T.对 F.错
答案:T

46.用户可以在Hadoop YARN上运行Spark。()
T.对 F.错
答案:T

47.Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗。()
T.对 F.错
答案:F

48.Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。()
T.对 F.错
答案:T

49.RDD是一个可读写的数据结构。()
T.对 F.错
答案:F

50.RDD的sortBy排序默认是升序。()
T.对 F.错
答案:T