ARK主题的文章列表，还有ARK的技术要点_第20页

【Spark】Spark必不可少的多种集群环境搭建方法

目录Local模式运行环境搭建小知识搭建步骤一、上传压缩包并解压二、修改Spark配置文件三、启动验证进入Spark-shell四、运行Spark自带的测试jar包standAlone模式运行环境搭建搭建步骤一、修改配置文件三、将配置好的安装包分发到其他机器四、启动Spark程序五、页面访问六、进入Spark-shel...

代码星球 ·2020-08-09

【Spark】必须要用CDH版本的Spark？那你是不是需要重新编译？

目录为什么要重新编译？步骤一、下载Spark的源码二、准备linux环境，安装必须软件三、解压spark源码，修改配置，准备编译四、开始编译为什么要重新编译？由于我们所有的环境统一使用CDH的软件版本，并且对应的CDH版本是5.14.0这个版本，所以我们也直接下载使用对应的spark5.14.0版本即可。但是由于spa...

代码星球 ·2020-08-09

【Spark】一起了解一下大数据必不可少的Spark吧！

目录Spark概述官网Spark是什么？特点Spark架构模块主要架构模块SparkCoreSparkSQLSparkStreamingMLlibGraghX集群管理器主要运行角色MasterWorkerExecutorTaskApplicationJobclientDriverSpark运行模式Spark概述官网ht...

代码星球 ·2020-08-09

spark dataset写csv的时候将null值写为空字符串

用spark写csv的时候碰见一个问题，join后未匹配的单元应该是null，但是spark写出来全部都为""了F23338994668,F23338994669,F2333899522012,1,11,7,""13,1,16,1,116,1,13,1,15,1,115,1,19,1,14,1,18,1,17,1,11...

代码星球 ·2020-08-08

spark精度丢失，导致列查询为null的解决办法

sparkdecimal列进行计算时，可能丢失精度，在默认情况下[spark.sql.decimalOperations.allowPrecisionLoss]配置为true，会导致精度丢失的列展示为null一般情况下，修改spark配置即可解决：　　setspark.sql.decimalOperations.all...

代码星球 ·2020-08-08

SparkSession.read().csv()无法定位本地文件的问题

原因是spark有两个文件头　　[file://]代表本地　　[hdfs://]代表hdfs路径如果路径没有文件头，spark会将该路径默认添加上"hdfs://"所以如果要访问本地csv文件，需要确保路径前面有"file://"//java代码，告诉spark这是本地文件"file:///"+url ...

代码星球 ·2020-08-08

Spark sql函数api

sparksql也支持函数，但与通常的数据库函数有些区别，附上官方api文档，以作备忘：http://spark.apache.org/docs/latest/api/sql/index.html#acos...

代码星球 ·2020-08-08

spark日志输出

spark默认使用log4j记录日志。目标：将spark日志按照天输出到日志中，并且只保留15天的记录。以下介绍两种办法：1、日志重定向+shell脚本定时删除日志（1）日志重定向：shspark-submit.sh>>log/`date+%Y-%m-%d`.log2>&1&生成形如：...

代码星球 ·2020-08-07

spark并行度加载关系数据库

方法一：针对整形字段ECI进行并行度加载：并行度为31SparkConfsparkConf=newSparkConf();2sparkConf.setAppName("jdbc").setMaster("local[4]");3JavaSparkContextjsc=newJavaSparkContext(sparkC...

代码星球 ·2020-08-07

spark算法

1packageexamples.wordcount;23importorg.apache.spark.SparkConf;4importorg.apache.spark.api.java.JavaSparkContext;5importorg.apache.spark.api.java.function.Functi...

代码星球 ·2020-08-07

spark1.x和spark2.x兼容Iterable和Iterator问题【未解决】

转载于：https://www.cnblogs.com/huiandong/p/9982516.html本文是转载，但是经过验证，该文中的方法在编译的时候没问题，运行就报版本问题。尚未找到解决方法，仍需手动维护两个版本spark程序。1.spark 1.x升级到spark 2.x对于普通...

代码星球 ·2020-08-07

spark调优

博客来源：https://blog.csdn.net/yhb315279058/article/details/50466125解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。数量太大，造成很多小任务，增加启...

代码星球 ·2020-08-07

spark-submit参数配置

参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你启动少量的Executor进程，此时你的Spa...

代码星球 ·2020-08-07

spark遇到的问题（持续更新）

java.util.concurrent.ExecutionException:org.apache.spark.sql.AnalysisException:Unioncanonlybeperformedontableswiththesamenumberofcolumns,butthelefttablehas44col...

代码星球 ·2020-08-07

Wireshark-抓包工具介绍

https://www.wireshark.org/#download选择对应的版本下载 mac装了Wireshark，一直以来使用都没有遇到问题，电脑系统升级后再次使用时，无论选择有线还是无线网卡，均抓包失败，弹出提示“thecapturesessioncouldnotbeinitiatedon...

代码星球 ·2020-08-07