ARK主题的文章列表，还有ARK的技术要点_第5页

chrome bookmarks location

.config/google-chrome/Defaultfile: Bookmarks...

代码星球 ·2021-02-21

spark为什么比hadoop的mr要快？

1.前言Spark是基于内存的计算，而Hadoop是基于磁盘的计算；Spark是一种内存计算技术。但是事实上，不光Spark是内存计算，Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题：Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。SparkSQL比Ha...

代码星球 ·2021-02-20

spark-聚合算子aggregatebykey

spark-聚合算子aggregatebykeyAggregatethevaluesofeachkey,usinggivencombinefunctionsandaneutral"zerovalue".Thisfunctioncanreturnadifferentresulttype,U,thanthetypeofth...

代码星球 ·2021-02-20

初识markdown以及markdown的常用语法

一直都听说markdown可以写作变得更加方便，但是总没有去了解一下，今天下载了一个markdown编辑器，感受了一下markdown的魅力，发现对于程序员写博客之类的，markdown带来了很大的便捷性，免得我们一会儿鼠标一会儿键盘的，而且markdown支持html的语法，对于前端工程师来说，这无疑是很便捷的，...

代码星球 ·2021-02-18

spark中reduce和reduceByKey的区别

reduce(binary_function) reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。具体过程，RDD有12345678910个元素， 1+2=3&nb...

代码星球 ·2021-02-18

spark中map和flatmap的区别

1.map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮）={去皮苹果，去皮梨子}其中：“去皮”函数的类型为：A=>B2.flatMap包含两个操作：会将每一个输入对象输入映射为一个新集合，然后把这些新集合连成一个大集合。{苹果，梨子}.flatMap(切碎)={苹果碎片1，苹果碎片2，梨子碎片1，...

代码星球 ·2021-02-18

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

1.安装并配置zk2.安装并配置Kafka3.启动zk4.启动Kafka5.创建topic[root@mini3kafka]#bin/kafka-console-producer.sh--broker-listmini1:9092--topiccyf-test 程序代码packageorg.apache.sp...

代码星球 ·2021-02-17

记一次运行spark程序遇到的权限问题

设置回滚点在本地运行时正常，在集群时就报错，后来是发现ceshi这个目录其他用户没有写的权限，修改其他用户的权限就好了 hdfsdfs-chmod777/ceshi ...

代码星球 ·2021-02-17

spark作业

假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：1、实时统计连续网购时间超过半个小时的女性网民信息。2、周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。数据：log1.txt：周六网民停留日志 LiuYan...

代码星球 ·2021-02-17

大数据学习——spark-steaming学习

官网http://spark.apache.org/docs/latest/streaming-programming-guide.html1.安装并启动生成者首先在一台Linux（ip：192.168.10.101）上用YUM安装nc工具yuminstall-ync 启动一个服务端并监听9999...

代码星球 ·2021-02-17

大数据学习——sparkSql对接hive

1. 安装mysql在随便一台有hadoop环境的机器上上传安装文件su-hadooprz–y解压缩：apache-hive-1.0.1-bin.tar.gztar-zxvf apache-hive-1.0.1-bin.tar.gzmvapache-hive-1.0.1-binhives...

代码星球 ·2021-02-17

大数据学习——sparkSql对接mysql

1上传jar2加载驱动包[root@mini1bin]# ./spark-shell--masterspark://mini1:7077--jarsmysql-connector-java-5.1.32.jar--driver-class-pathmysql-connector-java-5.1.32.jar...

代码星球 ·2021-02-17

大数据学习——sparkSql

官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.htmlvalsc:SparkContext//AnexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)va...

代码星球 ·2021-02-17

大数据学习——spark运营案例

iplocation需求在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。因此，我们需要通过日志信息（运行商或者网站自己生成）和城市ip段信息来判断用户的ip段，统计热点经纬度。练习数据链接：...

代码星球 ·2021-02-17

大数据学习——spark笔记

变量的定义vala:Int=1varb=2方法和函数区别：函数可以作为参数传递给方法方法：deftest(arg:Int):Int=>Int={方法体}valfun=（test_:Int=>(Int=>Int)）=>函数体逻辑执行语句vala=if(条件){执行逻辑返回值}else{执行逻辑}w...

代码星球 ·2021-02-17