park主题的文章列表，还有park的技术要点_第2页

spark作业

假定用户有某个周末网民网购停留时间的日志文本，基于某些业务要求，要求开发Spark应用程序实现如下功能：1、实时统计连续网购时间超过半个小时的女性网民信息。2、周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。数据：log1.txt：周六网民停留日志 LiuYan...

代码星球 ·2021-02-17

大数据学习——spark-steaming学习

官网http://spark.apache.org/docs/latest/streaming-programming-guide.html1.安装并启动生成者首先在一台Linux（ip：192.168.10.101）上用YUM安装nc工具yuminstall-ync 启动一个服务端并监听9999...

代码星球 ·2021-02-17

大数据学习——sparkSql对接hive

1. 安装mysql在随便一台有hadoop环境的机器上上传安装文件su-hadooprz–y解压缩：apache-hive-1.0.1-bin.tar.gztar-zxvf apache-hive-1.0.1-bin.tar.gzmvapache-hive-1.0.1-binhives...

代码星球 ·2021-02-17

大数据学习——sparkSql对接mysql

1上传jar2加载驱动包[root@mini1bin]# ./spark-shell--masterspark://mini1:7077--jarsmysql-connector-java-5.1.32.jar--driver-class-pathmysql-connector-java-5.1.32.jar...

代码星球 ·2021-02-17

大数据学习——sparkSql

官网http://spark.apache.org/docs/1.6.2/sql-programming-guide.htmlvalsc:SparkContext//AnexistingSparkContext.valsqlContext=neworg.apache.spark.sql.SQLContext(sc)va...

代码星球 ·2021-02-17

大数据学习——spark运营案例

iplocation需求在互联网中，我们经常会见到城市热点图这样的报表数据，例如在百度统计中，会统计今年的热门旅游城市、热门报考学校等，会将这样的信息显示在热点图中。因此，我们需要通过日志信息（运行商或者网站自己生成）和城市ip段信息来判断用户的ip段，统计热点经纬度。练习数据链接：...

代码星球 ·2021-02-17

大数据学习——spark笔记

变量的定义vala:Int=1varb=2方法和函数区别：函数可以作为参数传递给方法方法：deftest(arg:Int):Int=>Int={方法体}valfun=（test_:Int=>(Int=>Int)）=>函数体逻辑执行语句vala=if(条件){执行逻辑返回值}else{执行逻辑}w...

代码星球 ·2021-02-17

大数据学习——sparkRDD

https://www.cnblogs.com/qingyunzong/p/8899715.html练习1：map、filter//通过并行化生成rddvalrdd1=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))//对rdd1里的每一个元素乘2然后排序valrdd2=rdd1.m...

代码星球 ·2021-02-17

大数据学习——spark学习

计算圆周率[root@mini1bin]#./run-exampleSparkPi [root@mini1bin]#./run-exampleSparkPi10 [root@mini1bin]#./run-exampleSparkPi1000 运行spark-she...

代码星球 ·2021-02-17

大数据学习——spark安装

1下载安装包2上传并解压（不需要修改配置文件） tar-zxvfspark-1.6.2-bin-hadoop2.6.tgzmvspark-1.6.2-bin-hadoop2.6spark 3启动进入spark/bin./spark-shell 计算单词出现次数sc.textFi...

代码星球 ·2021-02-17

Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）

说在前面的话　　此笔，对于仅对于Hadoop和Spark初中学者。高手请忽略！ 1Java基础：视频方面：推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入，j...

代码星球 ·2021-02-16

Spark系列：Python版Spark编程指南

目录一、介绍二、连接Spark三、创建RDD四、RDD常用的转换Transformation五、RDD 常用的执行动作Action Spark1.3.0只支持Python2.6或更高的版本（但不支持Python3）。它使用了标准的CPython解释器，所以诸如NumPy一类的C库也是可以使用的。通过...

代码星球 ·2021-02-14

Windows10搭建Spark+Python开发环境

原文链接：https://mp.weixin.qq.com/s/mUUKO-oCsy_xxi7dQduhwg准备工作查看操作系统的版本信息：计算机>>右键“属性”>>查看版本信息，如Windows10专业版64位。安装Anaconda 1.1下载注意...

代码星球 ·2021-02-14

Mac OS下搭建Hadoop + Spark集群

首先注意版本兼容问题！！！本文采用的是Scala2.11.8+Hadoop2.7.5+Spark2.2.0请在下载Spark时务必看清对应的Scala和Hadoop版本！ 1.下载jdkhttp://www.oracle.com/technetwork/java/javase/downloads/...

代码星球 ·2021-02-12

hadoop spark学习笔记

http://www.csdn.net/article/2015-06-08/2824889hive:是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的M...

代码星球 ·2021-02-11