ARK主题的文章列表，还有ARK的技术要点_第31页

Eclipse MarketPlace 打不开，对话框闪退

原文地址: https://blog.csdn.net/wonder_boy869/article/details/81031222Eclipse的版本更新到了4.8.0（photon版）,点击help-->EclipseMarketPlace 后无任何反应,无报错,打不开解决办法help--...

代码星球 ·2020-04-05

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

第一阶段Java基础Linux基础第二阶段Hadoop第三阶段HBaseHiveSqoopFlumeZooKeeperStormKafkaRedisMongoDB第四阶段ScalaSpark机器学习第五阶段DockerKVM虚拟化OpenStack搜索引擎与爬虫第六阶段综合项目演练...

代码星球 ·2020-04-05

Spark Streaming反压机制

反压(BackPressure)机制主要用来解决流处理系统中，处理速度比摄入速度慢的情况。是控制流处理中批次流量过载的有效手段。SparkStreaming中的反压机制是Spark1.5.0推出的新特性，可以根据处理效率动态调整摄入速率。当批处理时间(BatchProcessingTime)大于批次间隔(BatchIn...

代码星球 ·2020-04-05

spark submit参数及调优

你可以通过spark-submit--help或者spark-shell--help来查看这些参数。使用格式: ./bin/spark-submit--class<main-class>--master<master-url>--deploy-mode<deploy-...

代码星球 ·2020-04-05

scala语法在spark withScope上的应用

withSpout在spark中是用来做DAG可视化的，它在代码里的用法如下（以map为例，spark2.0.0版本）defmap[U:ClassTag](f:T=>U):RDD[U]=withScope{valcleanF=sc.clean(f)newMapPartitionsRDD[U,T](this,(co...

代码星球 ·2020-04-05

Spark操作实战

1.local模式$SPARK_HOME/bin/spark-shell--masterlocalimportorg.apache.log4j.{Level,Logger}//导入javalog4j的日志相关类Logger.getLogger("org.apache.spark").setLevel(Level.WAR...

代码星球 ·2020-04-05

spark使用hadoop native库

默认情况下，hadoop官方发布的二进制包是不包含native库的，native库是用C++实现的，用于进行一些CPU密集型计算，如压缩。比如apachekylin在进行预计算时为了减少预计算的数据占用的磁盘空间，可以配置使用压缩格式。默认情况下，启动spark-shell,会有无法加载native库的警告：19/02...

代码星球 ·2020-04-05

Windows使用Idea编译spark源码

1.环境准备JDK1.8Scala2.11.8Maven3.3+IDEAwithscalaplugin2.下载spark源码下载地址 https://archive.apache.org/dist/spark/spark-2.0.0/spark-2.0.0.tgz将下载好的spark源码解压到c:...

代码星球 ·2020-04-05

spark 2.0.0集群安装与hive on spark配置

1.环境准备:JDK1.8hive2.3.4hadoop2.7.3hbase1.3.3scala2.11.12mysql5.7 2.下载spark2.0.0cd/home/worksapce/softwarewgethttps://archive.apache.org/dist/spark/spa...

代码星球 ·2020-04-05

hive on spark的坑

原文地址:http://www.cnblogs.com/breg/p/5552342.html装了一个多星期的hiveonspark遇到了许多坑。还是写一篇随笔，免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark...

代码星球 ·2020-04-05

Spark2.0.0源码编译

Hive默认使用MapReduce作为执行引擎，即Hiveonmr，Hive还可以使用Tez和Spark作为其执行引擎，分别为HiveonTez和HiveonSpark。由于MapReduce中间计算均需要写入磁盘，而Spark是放在内存中，所以总体来讲Spark比MapReduce快很多。默认情况下，Hi...

代码星球 ·2020-04-05

hive spark版本对应关系

查看hivesource下面的pom.xml，可以找到官方默认发布的hive版本对应的spark版本，在实际部署的时候，最好按照这个版本关系来，这样出现兼容问题的概率相对较小。下面面列出一部分对应关系，在实际部署中可以到github上去查询具体的版本对应关系，地址为https://github.com/apache/h...

代码星球 ·2020-04-05

wireshark基本用法及过虑规则

【转自风吹过的时光】Wireshark基本语法，基本使用方法，及包过虑规则：1.过滤IP，如来源IP或者目标IP等于某个IP 例子:ip.src eq 192.168.1.107 or ip.dst eq 192.168.1.107或者ip.addr...

代码星球 ·2020-04-05

Ubuntu/Linux 笔记应用为知笔记（支持markdown）

发现网易云笔记没有Linux，但是为知笔记有Linux版本，且支持markdown格式sudoadd-apt-repositoryppa:wiznote-teamsudoapt-getupdatesudoapt-getinstallwiznote地址：http://www.wiz.cn/wiznote-linux.ht...

代码星球 ·2020-04-05

spark sql 优化心得

本篇文章主要记录最近在使用sparksql时遇到的问题已经使用心得。 1spark2.0.1中，启动thriftserver或者是spark-sql时，如果希望spark-sqlrunonhdfs，那样需要增加参数"--confspark.sql.warehouse.dir=hdfs://HOSTNAME:9...

代码星球 ·2020-04-05

Eclipse MarketPlace 打不开，对话框闪退

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

Spark Streaming反压机制

spark submit参数及调优

scala语法在spark withScope上的应用

Spark操作实战

spark使用hadoop native库

Windows使用Idea编译spark源码

spark 2.0.0集群安装与hive on spark配置

hive on spark的坑

Spark2.0.0源码编译

hive spark版本对应关系

wireshark基本用法及过虑规则

Ubuntu/Linux 笔记应用 为知笔记（支持markdown）

spark sql 优化心得

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Scala Spark 机器学习 Docker 虚拟化

Ubuntu/Linux 笔记应用为知笔记（支持markdown）