Park主题的文章列表，还有Park的技术要点_第15页

scala语法在spark withScope上的应用

withSpout在spark中是用来做DAG可视化的，它在代码里的用法如下（以map为例，spark2.0.0版本）defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[U,T](this,(co...

代码星球 ·2020-04-05

Spark操作实战

1.local模式$SPARK_HOME/bin/spark-shell--masterlocalimportorg.apache.log4j.{Level,Logger}//导入javalog4j的日志相关类Logger.getLogger("org.apache.spark").setLevel(Level.WAR...

代码星球 ·2020-04-05

spark使用hadoop native库

默认情况下，hadoop官方发布的二进制包是不包含native库的，native库是用C++实现的，用于进行一些CPU密集型计算，如压缩。比如apachekylin在进行预计算时为了减少预计算的数据占用的磁盘空间，可以配置使用压缩格式。默认情况下，启动spark-shell,会有无法加载native库的警告：19/02...

代码星球 ·2020-04-05

Windows使用Idea编译spark源码

1.环境准备JDK1.8Scala2.11.8Maven3.3+IDEAwithscalaplugin2.下载spark源码下载地址 https://archive.apache.org/dist/spark/spark-2.0.0/spark-2.0.0.tgz将下载好的spark源码解压到c:...

代码星球 ·2020-04-05

spark 2.0.0集群安装与hive on spark配置

1.环境准备:JDK1.8hive2.3.4hadoop2.7.3hbase1.3.3scala2.11.12mysql5.7 2.下载spark2.0.0cd/home/worksapce/softwarewgethttps://archive.apache.org/dist/spark/spa...

代码星球 ·2020-04-05

hive on spark的坑

原文地址:http://www.cnblogs.com/breg/p/5552342.html装了一个多星期的hiveonspark遇到了许多坑。还是写一篇随笔，免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark...

代码星球 ·2020-04-05

Spark2.0.0源码编译

Hive默认使用MapReduce作为执行引擎，即Hiveonmr，Hive还可以使用Tez和Spark作为其执行引擎，分别为HiveonTez和HiveonSpark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。默认情况下，Hi...

代码星球 ·2020-04-05

hive spark版本对应关系

查看hivesource下面的pom.xml，可以找到官方默认发布的hive版本对应的spark版本，在实际部署的时候，最好按照这个版本关系来，这样出现兼容问题的概率相对较小。下面面列出一部分对应关系，在实际部署中可以到github上去查询具体的版本对应关系，地址为https://github.com/apache/h...

代码星球 ·2020-04-05

spark sql 优化心得

本篇文章主要记录最近在使用sparksql时遇到的问题已经使用心得。 1spark2.0.1中，启动thriftserver或者是spark-sql时，如果希望spark-sqlrunonhdfs，那样需要增加参数"--confspark.sql.warehouse.dir=hdfs://HOSTNAME:9...

代码星球 ·2020-04-05

spark sql 的metastore 对接 postgresql

本教程记录spark1.3.1版本的thriftserver的metastore对接postgresql postgresql的编译，参考：http://www.cnblogs.com/chenfool/p/4530925.html 一启动postgresql服务1首先需要将postgresql的l...

代码星球 ·2020-04-05

spark sql 对接 HDFS

上一篇博客我向大家介绍了如何快速地搭建sparkrunonstandalone，下面我将介绍saprksql如何对接hdfs 我们知道，在sparkshell中操作hdfs上的数据是很方便的，但是操作也未免过于繁琐，幸好spark还想用户提供另外两种操作sparksql的方式一spark-sql启动方式也比较...

代码星球 ·2020-04-05

部署spark 1.3.1 standalong模式

之前已经写过很多次部署spark的博客，但是之前部署都是照瓢画葫芦，不得其中的细节，并且以前都是部署sparkonyarn 部署环境scala2.10.2，jdk1.6，spark版本1.3.1下载地址：https://spark.apache.org/downloads.html两台ubuntu14.04x...

代码星球 ·2020-04-05

Spark 学习(三) maven 编译spark 源码

spark源码编译scala版本2.11.4os：ubuntu 14.0464位memery3Gspark：1.1.0下载源码后解压1准备环境，安装jdk和scala，具体参考：http://www.cnblogs.com/chenfool/p/3858930.html2编译其实spark官网上说得挺详细的，...

代码星球 ·2020-04-05

spark 1.1.0 单机与yarn部署

环境：ubuntu14.04,jdk1.6,scala2.11.4,spark1.1.0,hadoop2.5.1 一spark单机模式部分操作参考：http://www.cnblogs.com/chenfool/p/3858930.html，我之前写的spark1.0.1部署1安装scala，具体操作参考我之...

代码星球 ·2020-04-05

Spark 学习(二)

继续学习spark认真查看了一下${SPARK_HOME}/bin/pyspark的脚本，原来开启spark的python交互挺简单的。主要操作exportPYTHONPATH=${SPARK_HOME}/python/:${SPARK_HOME}/python/lib/py4j-0.8.1-src.zip;expor...

代码星球 ·2020-04-05