#park

Installing Apache Spark on Ubuntu 16.04

SantoshSrinivason07Nov2016,taggedonApacheSpark,Analytics,DataMinin I'vefinallygottoalongpendingto-do-itemtoplaywithApacheSpark. Thefollowinginstallati...

spark启动后出现“JAVA_HOME not set” 异常和"org.apache.hadoop.security.AccessControlException"异常

 /home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://master01:8080/ 到...

Spark的转化和行动(transformations和action)

 //**********************装换操作*********************1、defmap[U:ClassTag](f:T=>U):RDD[U]  将函数应用于RDD的每一元素,并返回一个新的RDD2、deffilter(f:T=>Boolean):R...

列举spark所有算子

一、RDD概述   1、什么是RDD      RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有...
代码星球 代码星球·2020-11-27

Spark启动报错|java.io.FileNotFoundException: File does not exist: hdfs://hadoop101:9000/directory

atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(FsHistoryProvider.scala:156)atorg.apache.spark.deploy.history.FsHistoryProvider.<init>(Fs...

spark编译

由于我们所有的环境统一使用CDH的软件版本,并且对应的CDH版本是5.14.0这个版本,所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spark对应的5.14.0的CDH版本的软件spark的版本还停留在spark1.x,并且CDH版本的spark不支持sparkSQL的功能(sparkSQL模块...
代码星球 代码星球·2020-11-26

spark在collect收集数据的时候出现outOfMemoryError:java heap space

spark的collect是action算子,所有最后会以数组的形式返回给driver端,当数据太大的时候就会出现堆内存溢出。OutofMemoryError:javaheapspace。在spark中默认的数据的存储是1G的大小,spark.default.memory(default1G)解决方案:以saveAsT...

spark在不同环境下的搭建|安装|local|standalone|yarn|HA|

  常用于本地开发测试,本地还分为local单线程和local-cluster多线程;该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,直接运行在本地,便于调试,通常用来验证开发出来的应用程序逻辑上有没有问题。  其中N代表可以使用N个线程,每个线程拥有一个core。如...

Docker 搭建Spark 依赖singularities/spark:2.2镜像

singularities/spark:2.2版本中Hadoop版本:2.8.2Spark版本:2.2.1Scala版本:2.11.8Java版本:1.8.0_151拉取镜像:[root@localhostdocker-spark-2.1.0]#dockerpullsingularities/spark查看:[root...

Docker 搭建Spark 依赖sequenceiq/spark:1.6镜像

使用Docker-Hub中Spark排行最高的sequenceiq/spark:1.6.0。操作:拉取镜像:[root@localhosthome]#dockerpullsequenceiq/spark:1.6.0Tryingtopullrepositorydocker.io/sequenceiq/spark...启动...

SparkStreaming(三)——自定义数据源

从socketTextStream说起查看socketTextStream源码defsocketTextStream(hostname:String,port:Int,storageLevel:StorageLevel=StorageLevel.MEMORY_AND_DISK_SER_2):ReceiverInputD...

SparkSQL(一)——概述

什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口,而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点,专门用于访问结构化的数据。sql语句在底层转换成RDD,类似于hql语句在底层转换成mr程序,但是sparksql的...
代码星球 代码星球·2020-10-20

SparkStreaming(二)——wordcount

需求:使用netcat工具向9999端口不断的发送数据,通过SparkStreaming读取端口数据并统计不同单词出现的次数 前期准备1)消除idea控制台过多的日志信息1.到spark/conf目录下,将log4j.properties.template文件下载到本地,重命名为log4j.propertie...
代码星球 代码星球·2020-10-20

SparkSQL(六)——案例实战

首先我们的数据源如下: tbDate这张表记录的是时间信息;tbStockDetail这张表记录的订单的详细信息;tbStock这张表将订单与实践和地点两个维度的信息连接在一起。数据属性如下:每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。也就是说:tbStock与tbStockD...
代码星球 代码星球·2020-10-20

SparkStreaming(一)——概述

SparkStreaming是什么?SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而...
代码星球 代码星球·2020-10-20
首页上一页...23456...下一页尾页