数据集主题的文章列表，还有数据集的技术要点_第3页

大数据集群运维（28） Kylin 配置使用 flink 构建 Cube

Kylinv3.1引入了Flinkcubeengine，在buildcube步骤中使用ApacheFlink代替MapReduce；您可以查看 KYLIN-3758 了解具体信息。当前的文档使用样例cube对如何尝试newengine进行了演示。您需要一个安装了Kylinv3.1.0及以上版本的Ha...

代码星球 ·2020-09-20

大数据集群运维（31）Spark提交任务时报beyond virtual memory limits错误

以Spark-Client模式运行，Spark-Submit时出现了下面的错误：User:hadoopName:SparkPiApplicationType:SPARKApplicationTags:YarnApplicationState:FAILEDFinalStatusReportedbyAM:FAILEDSta...

代码星球 ·2020-09-20

大数据集群运维（30）spark安装与使用（入门）

一：在linux下安装java环境（自行安装jdk）二：安装Scala2.9.3$tar-zxfscala-2.9.3.tgz$sudomvscala-2.9.3/usr/lib$sudovim/etc/profile#addthefollowinglinesattheendexportSCALA_HOME=/usr/...

代码星球 ·2020-09-20

大数据集群运维（29）Zeppelin-在flink和spark集群的安装

该教程主要面向Zeppelin的入门者。不需要太多的关于Linux,git,或其它工具的基础知识。如果你按照这里的方法逐项执行，就可以将Zeppelin正常运行起来。安装Zeppelin为Flink/Spark集群模式本教程假定用户有一个新的机器环境(物理机或 virtual 均可,最小安装&nbs...

代码星球 ·2020-09-20

大数据集群运维（27）Kylin 配置使用 Spark 构建 Cube

HDP版本：2.6.4.0Kylin版本：2.5.1机器：三台CentOS-7，8G内存Kylin的计算引擎除了MapReduce，还有速度更快的Spark，本文就以Kylin自带的示例kylinsalescube来测试一下Spark构建Cube的速度。一、配置Kylin的相关Spark参数在运行Sparkcubing...

代码星球 ·2020-09-20

大数据集群运维（26）Apache Kylin 2.5.0安装和使用

ApacheKylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。ApacheKylin官网：http://kylin.apache.org/Kylin的官网上每个版本的都提供...

代码星球 ·2020-09-20

大数据集群运维（25）CDH安装

市场上免费大数据框架主要有三个版本，原生的Apache版本，Cloudera(https://www.cloudera.com/)公司研发的（ClouderaDistributionHadoop，简称“CDH”）CDH版本，也是市场上使用最多的，Hortonworks版本（Hortonworks...

代码星球 ·2020-09-20

大数据集群运维（24）kylin 系列（一）安装部署

1.1版本选择cdh版本下载地址：http://archive.cloudera.com/cdh5/cdh/5/软件名称版本JDK1.8HADOOPHadoop2.6.0-cdh5.10ZOOKEERER3.4.5HBASEHbase1.2.0-cdh5.10HIVEHive1.2.0-cdh5.10KAFKAKafk...

代码星球 ·2020-09-20

大数据集群运维（23）Flink on yarn 常见错误

Flinkonyarn依赖hadoop集群，在没有启动hadoop之前，直接执行Flink启动命令./bin/yarn-session.sh-n1-jm1024-tm4096结果就是flink连不上ResourceManager，脚本一直卡在着进行重试2018-05-1914:36:08,062INFOorg.apac...

代码星球 ·2020-09-20

大数据集群运维（22）搭建Spark所遇过的坑

一.经验1.SparkStreaming包含三种计算模式：nonstate.stateful.window2.kafka可通过配置文件使用自带的zookeeper集群3.Spark一切操作归根结底是对RDD的操作4.部署Spark任务，不用拷贝整个架包，只需拷贝被修改的文件，然后在目标服务器上编译打包。5.kafka的...

代码星球 ·2020-09-20

Python机器学习（二十七）Sklearn 数据集基本信息

前面章节中，我们加载了SciKit-Learn自带的数据集digits，可以通过以下语句查看数据集中包含哪些主要内容：digits.keys()输出dict_keys(['data','target','target_names','images','DESCR']）data 样本数据target ...

代码星球 ·2020-09-20

Python机器学习（二十六）Sklearn 加载数据集

机器学习是计算机科学的一个分支，研究的是无需人类干预，能够自己学习的算法。与TensorFlow不同，Scikit-learn(sklearn)的定位是通用机器学习库，而TensorFlow(tf)的定位主要是深度学习库。数据科学中的第一步通常都是加载数据，我们首先学习怎么使用SciKit-Learn来加载数据集。数据...

代码星球 ·2020-09-20

Python机器学习（八十六）Pandas 数据集信息

使用.info方法，可以查看数据集的基本信息：movies_df.info()输出<class'pandas.core.frame.DataFrame'>Index:1000entries,GuardiansoftheGalaxytoNineLivesDatacolumns(total11columns):...

代码星球 ·2020-09-19

Python机器学习（七十三）Keras 加载MNIST数据集

MNIST是一个经典的深度学习和计算机视觉的数据集，里面包含了0-9的手写数字图片，开发人员可使用此数据集来训练和测试神经网络，训练后的神经网络可以识别手写数字。Keras库已经包含了这个数据集，可以从Keras库中加载:fromkeras.datasetsimportmnist#将预打乱的MNIST数据加载到训练和测...

代码星球 ·2020-09-19

大数据集群运维（1）Hadoop + Hive + HBase + Kylin伪分布式安装

问题导读1. Centos7如何安装配置？2. linux网络配置如何进行？3. linux环境下java 如何安装？4. linux环境下SSH免密码登录如何配置？5. linux环境下Hadoop2.7 如何安装？6. linux环境下...

代码星球 ·2020-09-19