为您找到搜索结果:4608个
大数据学习——Storm集群搭建
安装storm之前要安装zookeeper一.安装storm步骤1.下载安装包2.解压安装包tar-zxvfapache-storm-0.9.6.tar.gzmvapache-storm-0.9.6storm 3.修改配置文件mv/root/apps/storm/conf/storm.yaml/root/apps/storm/conf/storm.yaml.bakvi/root/apps/storm/conf/storm.yaml 修改环境变量/etc/profileexportSTORM_HOME=/root/apps/stormexportPATH=${STORM_HOME}/bin:$PATH #指定storm使用的zk集群storm.zookeeper.servers:-"mini1"-"mini2"-"mini3"#指定storm集群中的nimbus节点所在的服务器nimbus.host:"mini1"#指定nimbus启动JVM最大可用内存大小nimbus.childopts:"-Xmx1024m"#指定su...
大数据学习——Storm学习单词计数案例
需求:计算单词在文档中出现的次数,每出现一次就累加一次 遇到的问题 这个问题是<scope>provided</scope>作用域问题https://www.cnblogs.com/biehongli/p/8316885.html 这个问题是需要把从文件中读取的内容放入list 代码如下<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.cyf&l...
大数据学习——hbase的shell客户端基本使用
1 基本shell命令1在hbase的bin目录下进入命令行./hbaseshell2查看有哪些表list3创建一个表create't_user_info',{NAME=>'base_info'},{NAME=>'extra_info',VERSIONS=>2};4用list查看5添加数据put't_user_info','liu-20-001','base_info:name','liuyifei'put't_user_info','liu-20-001','base_info:age','20'put't_user_info','liu-20-001','base_info:address','bj'put't_user_info','liu-20-001','extra_info:sanwei','34C-34-38' put't_user_info','liu-20-001','extra_info:boyfriend','song'6查看表数据scan't_user_info'全表扫描类似于select*from t_user_...
大数据学习——hbase数据库
一第一步准备:搭建hadoop集群,搭建zookeeper二第二步:上传安装包解压1tar-zxvf hbase-1.2.1-bin.tar.gz重命名2mvhbase-1.2.1hbase 删除不需要的文件3rm-rfdocs4修改conf的相关配置 hadoop的hdfs-site.xml和core-site.xml放到hbase/conf下cdapps/hadoop/etc/hadoop cphdfs-site.xml/root/apps/hbase/confcpcore-site.xml/root/apps/hbase/conf 5vi hbase-env.sh修改JAVA_HOMEexportJAVA_HOME=/root/apps/jdk1.7.0_80修改exportHBASE_MANAGES_ZK=false 保存6 修改hbase-site.xml <configuration><!--指定hbase在HDFS上存...
大数据学习——sql练习
1、现有如下的建表语句和数据:建表语句createtablestudent(Snoint,Snamestring,Sexstring,Sageint,Sdeptstring)rowformatdelimitedfieldsterminatedby','storedastextfile;createtablecourse(Cnoint,Cnamestring)rowformatdelimitedfieldsterminatedby','storedastextfile;createtablesc(Snoint,Cnoint,Gradeint)rowformatdelimitedfieldsterminatedby','storedastextfile;现有数据表1,如下所示:95021周二男17MA95015王君男18MA95005刘刚男18MA95011包小柏男18MA95004张立男19IS95010孔小涛男19CS95022郑明男20MA95001李勇男20CS95016钱国男21MA95020赵钱男21IS95013冯伟男21CS95006孙庆男23CS95017王风娟女18IS...
大数据学习——hive的sql练习题
ABC三个hive表每个表中都只有一列int类型且列名相同,求三个表中互不重复的数createtablea(ageint)rowformatdelimitedfieldsterminatedby',';createtableb(ageint)rowformatdelimitedfieldsterminatedby',';createtablec(ageint)rowformatdelimitedfieldsterminatedby',';a.txt123456789b.txt2311121415161835678c.txt123115678203040sql:select*from(selecta.*fromafullouterjoinbona.age=b.agefullouterjoincona.age=c.agewhere(a.ageisnotnullandb.ageisnullandc.ageisnull)or(b.ageisnotnullanda.ageisnullandc.ageisnull)or(c.ageisnotnullanda.ageisnullandb.ageisn...
大数据学习——Hbase
1、简介hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(rowkey)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。 主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单,不支持join等复杂操作,不支持复杂的事务(行级的事务)Hbase中支持的数据类型:byte[] 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。 HBase中的表一般有这样的特点:² 大:一个表可以有上十亿行,上百万列² 面向列:面向列(族)的存储和权限控制,列(族)独立检索。² 稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 2、表结构逻辑视图HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(columnfamily) 3、Row...
大数据学习——azkaban工作流调度系统
azkaban的安装部署 在/root/apps1目录下新建azkaban文件夹上传安装包到azkaban2解压tar-zxvfazkaban-web-server-2.5.0.tar.gz3删掉安装包[root@mini1azkaban]#rm-rfazkaban-executor-server-2.5.0.tar.gz[root@mini1azkaban]#rm-rfazkaban-sql-script-2.5.0.tar.gz[root@mini1azkaban]#rm-rfazkaban-web-server-2.5.0.tar.gz4重命名mvazkaban-web-2.5.0servermv azkaban-executor-2.5.0executor5修改配置文件登录mysql数据库[root@mini1~]#mysql-uroot-pEnterpassword:创建azkaban数据库;dropdatabaseazkaban;createdatabaseazkaban; useazkaban; 修改conf下的azkaban.pr...
大数据学习——sqoop导出数据
把数据从hadoop导出到关系型数据库 将数据从HDFS导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。u 默认操作是从将文件中的数据使用INSERT语句插入到表中u 更新模式下,是生成UPDATE语句更新表数据语法以下是export命令语法。$sqoopexport(generic-args)(export-args) 示例数据是在HDFS中“EMP/”目录的emp_data文件中。所述emp_data如下:1201,gopal, manager,50000,TP1202,manisha, preader,50000,TP1203,kalil, phpdev,30000,AC1204,prasanth, phpdev,30000,AC1205,kranthi, admin, 20000,TP1206,satishp, grpdes,20000,G...
大数据学习——sqoop导入数据
把数据从关系型数据库导入到hadoop启动sqoop 导入表表数据到HDFS下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。sqoopimport--connectjdbc:mysql://mini1:3306/userdb--usernameroot--password123456--tableemp--m1 在/root/sqoop下执行命令,导入emp表到hdfs./sqoopimport--connectjdbc:mysql://mini1:3306/userdb--usernameroot--password123456--tableemp--m1注意执行上边的命令可能会遇到这个问题https://www.cnblogs.com/feifeicui/p/10311076.html查看执行结果hdfsdfs-ls/user/root在/root/sqoop下执行命令,导入emp_add表到hdfs ./sqoopimport--connectjdbc:mysql://mini1:3306/userdb--usernameroot--...
大数据学习——sqoop安装
1上传 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2解压 tar-zxvfsqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz3重命名mvsqoop-1.4.6.bin__hadoop-2.0.4-alphasqoop设置环境变量expertSQOOP_HOME=/root/apps/sqoop source/etc/profile 4修改配置文件visqoop-env.sh 5上传mysql驱动包到/root/apps/sqoop/lib目录下 6启动sqoop./sqoop-version 启动完成...
大数据学习——sqoop入门
下载地址https://pan.baidu.com/s/1qWDl29L9I_KVU54c0ioNfQ fvfhsqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputformat和outputformat进行定制3.3.1sqoop安装安装sqoop的前提是已经具备java和hadoop的环境1、下载并解压最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/2、修改配置文件$cd$SQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行:exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHA...
大数据学习——flume日志分类采集汇总
A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求: 把A、B机器中的access.log、nginx.log、web.log采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为: /source/logs/access/20160101/**/source/logs/nginx/20160101/**/source/logs/web/20160101/**4. 实现服务器A对应的IP为192.168.200.102服务器B对应的IP为192.168.200.103服务器C对应的IP为192.168.200.101① 在服务器A和服务器B上的$FLUME_HOME/conf创建配置文件exec_source_avro_sink.conf文件内容为exec_source_avro_sink.conf文件内容为#Namethecomponentsonthisagenta1.sources=r1r2r3a1.sinks=k1a1.channels=c1#Describe/configu...
大数据学习——高可用配置案例
(一)、failover故障转移在完成单点的FlumeNG搭建后,下面我们搭建一个高可用的FlumeNG集群,架构图如下所示:(1)节点分配Flume的Agent和Collector分布如下表所示:名称Ip地址 Host角色Agent1192.168.200.101Itcast01 WebServerCollector1192.168.200.102Itcast02AgentMstr1Collector2192.168.200.103Itcast03AgentMstr2Agent1数据分别流入到Collector1和Collector2,FlumeNG本身提供了Failover机制,可以自动切换和恢复。下面我们开发配置FlumeNG集群。(2)配置在下面单点Flume中,基本配置都完成了,我们只需要新添加两个配置文件,它们是flume-client.conf和flume-server.conf,其配置内容如下所示: 1、itcast01上的flume-clien...
大数据学习——实现多agent的串联,收集数据到HDFS中
采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求,首先定义以下3大要素第一台flumeagentl 采集源,即source——监控文件内容更新: exec ‘tail-Ffile’l 下沉目标,即sink——数据的发送者,实现序列化 : avrosinkl Source和sink之间的传递通道——channel,可用filechannel也可以用内存channel第二台flumeagentl 采集源,即source——接受数据。并实现反序列化:avrosourcel 下沉目标,即sink——HDFS文件系统: HDFSsinkl Source和sink之间的传递通道——channel,可用filechannel也可以用内存channel配置文件编写:在mini1的conf下viexecsource-avrosink....