#ARK

chrome bookmarks location

.config/google-chrome/Defaultfile: Bookmarks...
代码星球 ·2021-02-21

spark为什么比hadoop的mr要快?

1.前言Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。但是事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。SparkSQL比Ha...

spark-聚合算子aggregatebykey

spark-聚合算子aggregatebykeyAggregatethevaluesofeachkey,usinggivencombinefunctionsandaneutral"zerovalue".Thisfunctioncanreturnadifferentresulttype,U,thanthetypeofth...

初识markdown以及markdown的常用语法

  一直都听说markdown可以写作变得更加方便,但是总没有去了解一下,今天下载了一个markdown编辑器,感受了一下markdown的魅力,发现对于程序员写博客之类的,markdown带来了很大的便捷性,免得我们一会儿鼠标一会儿键盘的,而且markdown支持html的语法,对于前端工程师来说,这无疑是很便捷的,...

spark中reduce和reduceByKey的区别

reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。具体过程,RDD有12345678910个元素, 1+2=3&nb...

spark中map和flatmap的区别

1.map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮)={去皮苹果,去皮梨子}其中:“去皮”函数的类型为:A=>B2.flatMap包含两个操作:会将每一个输入对象输入映射为一个新集合,然后把这些新集合连成一个大集合。{苹果,梨子}.flatMap(切碎)={苹果碎片1,苹果碎片2,梨子碎片1,...
代码星球 ·2021-02-18

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

1.安装并配置zk2.安装并配置Kafka3.启动zk4.启动Kafka5.创建topic[root@mini3kafka]#bin/kafka-console-producer.sh--broker-listmini1:9092--topiccyf-test 程序代码packageorg.apache.sp...

记一次运行spark程序遇到的权限问题

   设置回滚点在本地运行时正常,在集群时就报错,后来是发现ceshi这个目录其他用户没有写的权限,修改其他用户的权限就好了 hdfsdfs-chmod777/ceshi ...

spark作业

假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能:1、实时统计连续网购时间超过半个小时的女性网民信息。2、周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“,”。数据:log1.txt:周六网民停留日志 LiuYan...
代码星球 ·2021-02-17

大数据学习——spark-steaming学习

 官网http://spark.apache.org/docs/latest/streaming-programming-guide.html1.安装并启动生成者首先在一台Linux(ip:192.168.10.101)上用YUM安装nc工具yuminstall-ync 启动一个服务端并监听9999...
代码星球 ·2021-02-17

大数据学习——sparkSql对接hive

1.  安装mysql在随便一台有hadoop环境的机器上上传安装文件su-hadooprz–y解压缩:apache-hive-1.0.1-bin.tar.gztar-zxvf apache-hive-1.0.1-bin.tar.gzmvapache-hive-1.0.1-binhives...

大数据学习——sparkSql对接mysql

1上传jar2加载驱动包[root@mini1bin]# ./spark-shell--masterspark://mini1:7077--jarsmysql-connector-java-5.1.32.jar--driver-class-pathmysql-connector-java-5.1.32.jar...

大数据学习——sparkSql

官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.htmlvalsc:SparkContext//AnexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)va...
代码星球 ·2021-02-17

大数据学习——spark运营案例

iplocation需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。  因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。练习数据 链接:...

大数据学习——spark笔记

变量的定义vala:Int=1varb=2方法和函数区别:函数可以作为参数传递给方法方法:deftest(arg:Int):Int=>Int={方法体}valfun=(test_:Int=>(Int=>Int))=>函数体逻辑执行语句vala=if(条件){执行逻辑返回值}else{执行逻辑}w...
代码星球 ·2021-02-17
首页上一页...34567...下一页尾页