#park

【Spark】Spark必不可少的多种集群环境搭建方法

目录Local模式运行环境搭建小知识搭建步骤一、上传压缩包并解压二、修改Spark配置文件三、启动验证进入Spark-shell四、运行Spark自带的测试jar包standAlone模式运行环境搭建搭建步骤一、修改配置文件三、将配置好的安装包分发到其他机器四、启动Spark程序五、页面访问六、进入Spark-shel...

【Spark】必须要用CDH版本的Spark?那你是不是需要重新编译?

目录为什么要重新编译?步骤一、下载Spark的源码二、准备linux环境,安装必须软件三、解压spark源码,修改配置,准备编译四、开始编译为什么要重新编译?由于我们所有的环境统一使用CDH的软件版本,并且对应的CDH版本是5.14.0这个版本,所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spa...

【Spark】一起了解一下大数据必不可少的Spark吧!

目录Spark概述官网Spark是什么?特点Spark架构模块主要架构模块SparkCoreSparkSQLSparkStreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark运行模式Spark概述官网ht...

spark dataset写csv的时候将null值写为空字符串

用spark写csv的时候碰见一个问题,join后未匹配的单元应该是null,但是spark写出来全部都为""了F23338994668,F23338994669,F2333899522012,1,11,7,""13,1,16,1,116,1,13,1,15,1,115,1,19,1,14,1,18,1,17,1,11...

spark精度丢失,导致列查询为null的解决办法

sparkdecimal列进行计算时,可能丢失精度,在默认情况下[spark.sql.decimalOperations.allowPrecisionLoss]配置为true,会导致精度丢失的列展示为null一般情况下,修改spark配置即可解决:  setspark.sql.decimalOperations.all...

SparkSession.read().csv()无法定位本地文件的问题

原因是spark有两个文件头  [file://]代表本地  [hdfs://]代表hdfs路径如果路径没有文件头,spark会将该路径默认添加上"hdfs://"所以如果要访问本地csv文件,需要确保路径前面有"file://"//java代码,告诉spark这是本地文件"file:///"+url ...

Spark sql函数api

sparksql也支持函数,但与通常的数据库函数有些区别,附上官方api文档,以作备忘:http://spark.apache.org/docs/latest/api/sql/index.html#acos...
代码星球 代码星球·2020-08-08

spark日志输出

spark默认使用log4j记录日志。目标:将spark日志按照天输出到日志中,并且只保留15天的记录。以下介绍两种办法:1、日志重定向+shell脚本定时删除日志(1)日志重定向:shspark-submit.sh>>log/`date+%Y-%m-%d`.log2>&1&生成形如:...
代码星球 代码星球·2020-08-07

spark并行度加载关系数据库

方法一:针对整形字段ECI进行并行度加载:并行度为31SparkConfsparkConf=newSparkConf();2sparkConf.setAppName("jdbc").setMaster("local[4]");3JavaSparkContextjsc=newJavaSparkContext(sparkC...

spark算法

1packageexamples.wordcount;23importorg.apache.spark.SparkConf;4importorg.apache.spark.api.java.JavaSparkContext;5importorg.apache.spark.api.java.function.Functi...
代码星球 代码星球·2020-08-07

spark1.x和spark2.x兼容Iterable和Iterator问题【未解决】

 转载于:https://www.cnblogs.com/huiandong/p/9982516.html本文是转载,但是经过验证,该文中的方法在编译的时候没问题,运行就报版本问题。尚未找到解决方法,仍需手动维护两个版本spark程序。1.spark 1.x升级到spark 2.x对于普通...

spark调优

博客来源:https://blog.csdn.net/yhb315279058/article/details/50466125解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启...
代码星球 代码星球·2020-08-07

spark-submit参数配置

参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spa...
代码星球 代码星球·2020-08-07
首页上一页...910111213...下一页尾页