ARK主题的文章列表，还有ARK的技术要点_第11页

wireshark 实用过滤表达式（针对ip、协议、端口、长度和内容

针对wireshark最常用的自然是针对IP地址的过滤。其中有几种情况：（1）对源地址为192.168.0.1的包的过滤，即抓取源地址满足要求的包。表达式为：ip.src==192.168.0.1（2）对目的地址为192.168.0.1的包的过滤，即抓取目的地址满足要求的包。表达式为...

代码星球 ·2020-11-01

wireshark抓包分析工具的使用

#wireshark抓包分析工具的使用##常用抓包指令-`ip.src==192.168.60.26andip.dst==111.7.187.220andtcp.port==80andtcp`抓取指定ip和端口通信的数据包##针对ip地址过滤-源地址包过滤`ip.src==192.168.0.1`-目的地址过滤`ip....

代码星球 ·2020-11-01

解决数据库 Table 'content_tags' is marked as crashed and should be repaired 表损坏问题

今天突然网站TAG页面打不开了，打开debug，发现提示 Table'content_tags'ismarkedascrashedandshouldberepaired 这样的错误出现这个提示，说明‘%s...

代码星球 ·2020-10-21

Docker 搭建Spark 依赖singularities/spark:2.2镜像

singularities/spark:2.2版本中Hadoop版本：2.8.2Spark版本:2.2.1Scala版本：2.11.8Java版本：1.8.0_151拉取镜像：[root@localhostdocker-spark-2.1.0]#dockerpullsingularities/spark查看：[root...

代码星球 ·2020-10-21

Docker 搭建Spark 依赖sequenceiq/spark:1.6镜像

使用Docker-Hub中Spark排行最高的sequenceiq/spark:1.6.0。操作：拉取镜像：[root@localhosthome]#dockerpullsequenceiq/spark:1.6.0Tryingtopullrepositorydocker.io/sequenceiq/spark...启动...

代码星球 ·2020-10-21

SparkStreaming(三)——自定义数据源

从socketTextStream说起查看socketTextStream源码defsocketTextStream(hostname:String,port:Int,storageLevel:StorageLevel=StorageLevel.MEMORY_AND_DISK_SER_2):ReceiverInputD...

代码星球 ·2020-10-20

SparkSQL(一)——概述

什么是sparksql它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口，而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点，专门用于访问结构化的数据。sql语句在底层转换成RDD，类似于hql语句在底层转换成mr程序，但是sparksql的...

代码星球 ·2020-10-20

SparkStreaming(二)——wordcount

需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出现的次数前期准备1）消除idea控制台过多的日志信息1.到spark/conf目录下，将log4j.properties.template文件下载到本地，重命名为log4j.propertie...

代码星球 ·2020-10-20

SparkSQL(六)——案例实战

首先我们的数据源如下： tbDate这张表记录的是时间信息；tbStockDetail这张表记录的订单的详细信息；tbStock这张表将订单与实践和地点两个维度的信息连接在一起。数据属性如下：每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价。也就是说：tbStock与tbStockD...

代码星球 ·2020-10-20

SparkStreaming(一)——概述

SparkStreaming是什么？SparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而...

代码星球 ·2020-10-20

SparkSQL(五)——数据源

通用加载保存方法SparkSQL的默认数据源为Parquet格式。数据源为Parquet文件时，SparkSQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default，可修改默认数据源格式。此时，可以使用spark.read.load和spar.write.save方法，分别从parqu...

代码星球 ·2020-10-20

SparkSQL(四)——用户自定义函数

用户自定义聚合函数强类型的Dataset和弱类型的DataFrame都提供了相关的聚合函数，如 count()，countDistinct()，avg()，max()，min()。除此之外，用户可以设定自己的自定义聚合函数。弱类型用户自定义聚合函数通过继承UserDefinedAggr...

代码星球 ·2020-10-20

SparkSQL(三)——idea开发SparkSQL程序

首先导入maven依赖<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.11</artifactId><version&...

代码星球 ·2020-10-20

SparkSQL(二)——基本操作

SparkSession新的起点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的...

代码星球 ·2020-10-20

spark安装和使用

local模式概述local模式就是在一台计算机上运行spark程序，通常用于在本机上练手和测试，它将线程映射为worker。 1）local:所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;2）local[K]:指定使用几个线程来运行计算，...

代码星球 ·2020-10-20