#数据集

大数据集群运维(28) Kylin 配置使用 flink 构建 Cube

Kylinv3.1引入了Flinkcubeengine,在buildcube步骤中使用ApacheFlink代替MapReduce;您可以查看 KYLIN-3758 了解具体信息。当前的文档使用样例cube对如何尝试newengine进行了演示。您需要一个安装了Kylinv3.1.0及以上版本的Ha...

大数据集群运维(31)Spark提交任务时报beyond virtual memory limits错误

以Spark-Client模式运行,Spark-Submit时出现了下面的错误:User:hadoopName:SparkPiApplicationType:SPARKApplicationTags:YarnApplicationState:FAILEDFinalStatusReportedbyAM:FAILEDSta...

大数据集群运维(30)spark安装与使用(入门)

一:在linux下安装java环境(自行安装jdk)二:安装Scala2.9.3$tar-zxfscala-2.9.3.tgz$sudomvscala-2.9.3/usr/lib$sudovim/etc/profile#addthefollowinglinesattheendexportSCALA_HOME=/usr/...

大数据集群运维(29)Zeppelin-在flink和spark集群的安装

该教程主要面向Zeppelin的入门者。不需要太多的关于Linux,git,或其它工具的基础知识。如果你按照这里的方法逐项执行,就可以将Zeppelin正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户有一个新的机器环境(物理机或 virtual 均可,最小安装&nbs...

大数据集群运维(27)Kylin 配置使用 Spark 构建 Cube

HDP版本:2.6.4.0Kylin版本:2.5.1机器:三台CentOS-7,8G内存Kylin的计算引擎除了MapReduce,还有速度更快的Spark,本文就以Kylin自带的示例kylinsalescube来测试一下Spark构建Cube的速度。一、配置Kylin的相关Spark参数在运行Sparkcubing...

大数据集群运维(26)Apache Kylin 2.5.0安装和使用

ApacheKylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。ApacheKylin官网:http://kylin.apache.org/Kylin的官网上每个版本的都提供...

大数据集群运维(25)CDH安装

市场上免费大数据框架主要有三个版本,原生的Apache版本,Cloudera(https://www.cloudera.com/)公司研发的(ClouderaDistributionHadoop,简称“CDH”)CDH版本,也是市场上使用最多的,Hortonworks版本(Hortonworks...

大数据集群运维(24)kylin 系列(一)安装部署

1.1版本选择cdh版本下载地址:http://archive.cloudera.com/cdh5/cdh/5/软件名称版本JDK1.8HADOOPHadoop2.6.0-cdh5.10ZOOKEERER3.4.5HBASEHbase1.2.0-cdh5.10HIVEHive1.2.0-cdh5.10KAFKAKafk...

大数据集群运维(23)Flink on yarn 常见错误

Flinkonyarn依赖hadoop集群,在没有启动hadoop之前,直接执行Flink启动命令./bin/yarn-session.sh-n1-jm1024-tm4096结果就是flink连不上ResourceManager,脚本一直卡在着进行重试2018-05-1914:36:08,062INFOorg.apac...

大数据集群运维(22)搭建Spark所遇过的坑

一.经验1.SparkStreaming包含三种计算模式:nonstate.stateful.window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目标服务器上编译打包。5.kafka的...

Python机器学习(二十七)Sklearn 数据集基本信息

前面章节中,我们加载了SciKit-Learn自带的数据集digits,可以通过以下语句查看数据集中包含哪些主要内容:digits.keys()输出dict_keys(['data','target','target_names','images','DESCR'])data 样本数据target ...

Python机器学习(二十六)Sklearn 加载数据集

机器学习是计算机科学的一个分支,研究的是无需人类干预,能够自己学习的算法。与TensorFlow不同,Scikit-learn(sklearn)的定位是通用机器学习库,而TensorFlow(tf)的定位主要是深度学习库。数据科学中的第一步通常都是加载数据,我们首先学习怎么使用SciKit-Learn来加载数据集。数据...

Python机器学习(八十六)Pandas 数据集信息

使用.info方法,可以查看数据集的基本信息:movies_df.info()输出<class'pandas.core.frame.DataFrame'>Index:1000entries,GuardiansoftheGalaxytoNineLivesDatacolumns(total11columns):...

Python机器学习(七十三)Keras 加载MNIST数据集

MNIST是一个经典的深度学习和计算机视觉的数据集,里面包含了0-9的手写数字图片,开发人员可使用此数据集来训练和测试神经网络,训练后的神经网络可以识别手写数字。Keras库已经包含了这个数据集,可以从Keras库中加载:fromkeras.datasetsimportmnist#将预打乱的MNIST数据加载到训练和测...

大数据集群运维(1)Hadoop + Hive + HBase + Kylin伪分布式安装

问题导读1. Centos7如何安装配置?2. linux网络配置如何进行?3. linux环境下java 如何安装?4. linux环境下SSH免密码登录如何配置?5. linux环境下Hadoop2.7 如何安装?6. linux环境下...
首页上一页12345...下一页尾页