park主题的文章列表，还有park的技术要点_第12页

spark遇到的问题（持续更新）

java.util.concurrent.ExecutionException:org.apache.spark.sql.AnalysisException:Unioncanonlybeperformedontableswiththesamenumberofcolumns,butthelefttablehas44col...

代码星球·2020-08-07

Spark Streaming读取Kafka数据的两种方式

Kafka在0.8和0.10之间引入了一种新的消费者API,因此,SparkStreaming与Kafka集成,有两种包可以选择: spark-streaming-kafka-0-8与spark-streaming-kafka-0-10。在使用时应注意以下几点:spark-streaming-kafka-0-...

代码星球·2020-08-05

Spark Streaming集成Kafka调优

调优SparkStreaming集成Kafka时，当数据量较小时默认配置一般都能满足我们的需要，但是当数据量大的时候，就需要进行一定的调整和优化。合理的批处理时间（batchDuration）几乎所有的SparkStreaming调优文档都会提及批处理时间的调整，在StreamingContext初始化的时候，有一个参...

代码星球·2020-08-05

spark sql/hive小文件问题

针对hiveonmapreduce1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties1234hive.merge.mapfiles...

代码星球·2020-08-05

CodeForces 516C Drazil and Park 线段树

原文链接http://www.cnblogs.com/zhouzhendong/p/8990745.html　　在一个环上，有$n$棵树。　　给出每一个树的高度$h_i$以及每一个树距离他顺时针方向后一个树的距离$d_i$。　　有$m$次询问，每次，都会有一段连续区间内的树萎掉。请你找两棵树$x,y$，最大化$2(h_...

代码星球·2020-06-27

错误：Caused by:org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow.Available: 0, required: 21. To avoid this,

这个是写入Redis时用的序列化器，然后错误提示是超过了大小限制，把配置调大即可。.set("spark.kryoserializer.buffer.max","128");如果没有配置，那么找一下看下有没有硬编码写了大小的范围导致的。参考：http://blog.csdn.net/keyuquan/art...

代码星球·2020-06-26

spark ML第一篇_hello Vectors

从官网可以知道的是MLib是针对RDD数据集的，而ML是针对Dataframe格式的。ML是对MLib的高级封装，目前来说，MLib已经不再进行功能更新了，好像都不更新了！具体去官网了解。由于官网推荐的是学习和使用sparkdataframe，而且，现实生活中很多数据格式、python库、其它编程语言类库都...

代码星球·2020-06-03

HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)

原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html引言目录一环境选择1集群机器安装图2配置说明3下载地址二集群的相关配置1主机名更改以及主机和IP做相关映射更改主机名做主机和IP的关系映射2ssh免登录3防火墙关闭4时间配置5快捷键设置可选6整体环境变量设...

代码星球·2020-05-26

spark sql correlated scalar subqueries must be aggregated 错误解决

最近在客户中使用sparksql做一些表报处理，但是在做数据关联时，老是遇到“correlatedscalarsubqueriesmustbeaggregated”错误举一个例子，这个sql在oracle或者postgresql都是可以正常运行的，但是在sparksql就会报错&ld...

代码星球·2020-05-23

spark sql 导出数据

如果用户希望在sparksql中，执行某个sql后，将其结果集保存到本地，并且指定csv或者json格式，在beeline中，实现起来很麻烦。通常的做法是将其createtabletempTableas***，通过将结果集写入到新的临时表中，进行保存，然后再通过其他方式export到本地。这种方式，对于HDFS是可行到...

代码星球·2020-05-23

spark sql metastore 配置 mysql

本文主要介绍如何为sparksql的metastore配置成mysql。 spark的版本2.4.0版本hivescript版本为hive1.2.2 mysql为5.7.18 mysql的安装部署就不在这里介绍了。首先为mysql的root用户设置密码mysql-uroot&g...

代码星球·2020-05-23

Spark系列视频

大数据生态圈很大，很多开发者都仅仅接触到某个单一产品。Spark是近年来比较流行的大数据计算框架，系统、平台要想用好Spark这个产品，需要用到很多的产品。本视频系列主要是为准备入坑大数据的童鞋提供一些入门级别的帮助，希望能够降低掉坑里的可能。第一讲：Spark_整体介绍链接:https://pan.bai...

代码星球·2020-05-23

无法加载 DLL“ParkCOM.dll”: 找不到指定的模块。 (异常来自 HRESULT:0x8007007E) 终结者

C#调用利用C++写的dll常遇到的情况是无法加载DLL"***.dll":找不到指定的模块（异常来自HRESULT:0x8007007E）终极解决方法如下：1、产生原因可能存在老版本程序正常，在新的版本中调用异常问题，可能本地电脑系统缺乏相关的支持DLL2、要解决此方法就是用工具软件终极杀手锏，下载安装dependw...

代码星球·2020-05-23

Windows下单机安装Spark开发环境

机器：windows1064位。因Spark支持java、python等语言，所以尝试安装了两种语言环境下的spark开发环境。1、Java下Spark开发环境搭建1.1、jdk安装安装oracle下的jdk，我安装的是jdk1.7，安装完新建系统环境变量JAVA_HOME，变量值为“C:ProgramFi...

代码星球·2020-05-12

SparkIV

SparkIV是知名游戏GTA4的一款游戏资源读取/导入/导出/编辑/修改的修改软件。很多玩家使用SparkIV为GTA4安装车辆MOD,人物MOD，武器MOD等。不过SparkIV的用法也有好多玩家不清楚，下面教大家如何使用。读取目录：Spark...

代码星球·2020-04-21