51
Dev开发社区
首页
文章
问答
工具
搜索
登录
注册
#ARK
【Spark】Spark必不可少的多种集群环境搭建方法
目录Local模式运行环境搭建小知识搭建步骤一、上传压缩包并解压二、修改Spark配置文件三、启动验证进入Spark-shell四、运行Spark自带的测试jar包standAlone模式运行环境搭建搭建步骤一、修改配置文件三、将配置好的安装包分发到其他机器四、启动Spark程序五、页面访问六、进入Spark-shel...
代码星球
·
2020-08-09
Spark
不可
少的
多种
集群
【Spark】必须要用CDH版本的Spark?那你是不是需要重新编译?
目录为什么要重新编译?步骤一、下载Spark的源码二、准备linux环境,安装必须软件三、解压spark源码,修改配置,准备编译四、开始编译为什么要重新编译?由于我们所有的环境统一使用CDH的软件版本,并且对应的CDH版本是5.14.0这个版本,所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spa...
代码星球
·
2020-08-09
Spark
必须
要用
CDH
版本
【Spark】一起了解一下大数据必不可少的Spark吧!
目录Spark概述官网Spark是什么?特点Spark架构模块主要架构模块SparkCoreSparkSQLSparkStreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark运行模式Spark概述官网ht...
代码星球
·
2020-08-09
Spark
一起
了解
一下
数据
spark dataset写csv的时候将null值写为空字符串
用spark写csv的时候碰见一个问题,join后未匹配的单元应该是null,但是spark写出来全部都为""了F23338994668,F23338994669,F2333899522012,1,11,7,""13,1,16,1,116,1,13,1,15,1,115,1,19,1,14,1,18,1,17,1,11...
代码星球
·
2020-08-08
spark
dataset
csv
时候
null
spark精度丢失,导致列查询为null的解决办法
sparkdecimal列进行计算时,可能丢失精度,在默认情况下[spark.sql.decimalOperations.allowPrecisionLoss]配置为true,会导致精度丢失的列展示为null一般情况下,修改spark配置即可解决: setspark.sql.decimalOperations.all...
代码星球
·
2020-08-08
spark
精度
丢失
导致
查询
SparkSession.read().csv()无法定位本地文件的问题
原因是spark有两个文件头 [file://]代表本地 [hdfs://]代表hdfs路径如果路径没有文件头,spark会将该路径默认添加上"hdfs://"所以如果要访问本地csv文件,需要确保路径前面有"file://"//java代码,告诉spark这是本地文件"file:///"+url ...
代码星球
·
2020-08-08
SparkSession.read
.csv
无法
定位
本地
Spark sql函数api
sparksql也支持函数,但与通常的数据库函数有些区别,附上官方api文档,以作备忘:http://spark.apache.org/docs/latest/api/sql/index.html#acos...
代码星球
·
2020-08-08
Spark
sql
函数
api
spark日志输出
spark默认使用log4j记录日志。目标:将spark日志按照天输出到日志中,并且只保留15天的记录。以下介绍两种办法:1、日志重定向+shell脚本定时删除日志(1)日志重定向:shspark-submit.sh>>log/`date+%Y-%m-%d`.log2>&1&生成形如:...
代码星球
·
2020-08-07
spark
日志
输出
spark并行度加载关系数据库
方法一:针对整形字段ECI进行并行度加载:并行度为31SparkConfsparkConf=newSparkConf();2sparkConf.setAppName("jdbc").setMaster("local[4]");3JavaSparkContextjsc=newJavaSparkContext(sparkC...
代码星球
·
2020-08-07
spark
并行
加载
关系
数据库
spark算法
1packageexamples.wordcount;23importorg.apache.spark.SparkConf;4importorg.apache.spark.api.java.JavaSparkContext;5importorg.apache.spark.api.java.function.Functi...
代码星球
·
2020-08-07
spark
算法
spark1.x和spark2.x兼容Iterable和Iterator问题【未解决】
转载于:https://www.cnblogs.com/huiandong/p/9982516.html本文是转载,但是经过验证,该文中的方法在编译的时候没问题,运行就报版本问题。尚未找到解决方法,仍需手动维护两个版本spark程序。1.spark 1.x升级到spark 2.x对于普通...
代码星球
·
2020-08-07
spark1.x
spark2.x
兼容
Iterable
Iterator
spark调优
博客来源:https://blog.csdn.net/yhb315279058/article/details/50466125解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启...
代码星球
·
2020-08-07
spark
调优
spark-submit参数配置
参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spa...
代码星球
·
2020-08-07
spark-submit
参数
配置
spark遇到的问题(持续更新)
java.util.concurrent.ExecutionException:org.apache.spark.sql.AnalysisException:Unioncanonlybeperformedontableswiththesamenumberofcolumns,butthelefttablehas44col...
代码星球
·
2020-08-07
spark
遇到
问题
持续
更新
Wireshark-抓包工具介绍
https://www.wireshark.org/#download选择对应的版本下载 mac装了Wireshark,一直以来使用都没有遇到问题,电脑系统升级后再次使用时,无论选择有线还是无线网卡,均抓包失败,弹出提示“thecapturesessioncouldnotbeinitiatedon...
代码星球
·
2020-08-07
Wireshark-
抓包
工具
介绍
首页
上一页
...
18
19
20
21
22
...
下一页
尾页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他