#park

spark作业

假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能:1、实时统计连续网购时间超过半个小时的女性网民信息。2、周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“,”。数据:log1.txt:周六网民停留日志 LiuYan...
代码星球 代码星球·2021-02-17

大数据学习——spark-steaming学习

 官网http://spark.apache.org/docs/latest/streaming-programming-guide.html1.安装并启动生成者首先在一台Linux(ip:192.168.10.101)上用YUM安装nc工具yuminstall-ync 启动一个服务端并监听9999...
代码星球 代码星球·2021-02-17

大数据学习——sparkSql对接hive

1.  安装mysql在随便一台有hadoop环境的机器上上传安装文件su-hadooprz–y解压缩:apache-hive-1.0.1-bin.tar.gztar-zxvf apache-hive-1.0.1-bin.tar.gzmvapache-hive-1.0.1-binhives...

大数据学习——sparkSql对接mysql

1上传jar2加载驱动包[root@mini1bin]# ./spark-shell--masterspark://mini1:7077--jarsmysql-connector-java-5.1.32.jar--driver-class-pathmysql-connector-java-5.1.32.jar...

大数据学习——sparkSql

官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.htmlvalsc:SparkContext//AnexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)va...
代码星球 代码星球·2021-02-17

大数据学习——spark运营案例

iplocation需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。  因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。练习数据 链接:...

大数据学习——spark笔记

变量的定义vala:Int=1varb=2方法和函数区别:函数可以作为参数传递给方法方法:deftest(arg:Int):Int=>Int={方法体}valfun=(test_:Int=>(Int=>Int))=>函数体逻辑执行语句vala=if(条件){执行逻辑返回值}else{执行逻辑}w...
代码星球 代码星球·2021-02-17

大数据学习——sparkRDD

https://www.cnblogs.com/qingyunzong/p/8899715.html练习1:map、filter//通过并行化生成rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))//对rdd1里的每一个元素乘2然后排序valrdd2=rdd1.m...
代码星球 代码星球·2021-02-17

大数据学习——spark学习

计算圆周率[root@mini1bin]#./run-exampleSparkPi   [root@mini1bin]#./run-exampleSparkPi10 [root@mini1bin]#./run-exampleSparkPi1000 运行spark-she...
代码星球 代码星球·2021-02-17

大数据学习——spark安装

 1下载安装包2上传并解压(不需要修改配置文件) tar-zxvfspark-1.6.2-bin-hadoop2.6.tgzmvspark-1.6.2-bin-hadoop2.6spark 3启动进入spark/bin./spark-shell 计算单词出现次数sc.textFi...
代码星球 代码星球·2021-02-17

Hadoop概念学习系列之Hadoop、Spark学习路线(很值得推荐)

说在前面的话  此笔,对于仅对于Hadoop和Spark初中学者。高手请忽略!    1Java基础:   视频方面:     推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,j...

Spark系列:Python版Spark编程指南

目录一、介绍二、连接Spark三、创建RDD四、RDD常用的转换Transformation五、RDD 常用的执行动作Action Spark1.3.0只支持Python2.6或更高的版本(但不支持Python3)。它使用了标准的CPython解释器,所以诸如NumPy一类的C库也是可以使用的。通过...

Windows10搭建Spark+Python开发环境

原文链接:https://mp.weixin.qq.com/s/mUUKO-oCsy_xxi7dQduhwg准备工作查看操作系统的版本信息:计算机>>右键“属性”>>查看版本信息,如Windows10专业版64位。   安装Anaconda 1.1下载注意...

Mac OS下搭建Hadoop + Spark集群

首先注意版本兼容问题!!!本文采用的是Scala2.11.8+Hadoop2.7.5+Spark2.2.0请在下载Spark时务必看清对应的Scala和Hadoop版本!  1.下载jdkhttp://www.oracle.com/technetwork/java/javase/downloads/...

hadoop spark学习笔记

http://www.csdn.net/article/2015-06-08/2824889hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的M...
代码星球 代码星球·2021-02-11
首页上一页12345...下一页尾页