51dev.com IT技术开发者社区

51dev.com 技术开发者社区

如何准确又通俗易懂地解释大数据及其应用价值?

如何准确又通俗易懂地解释大数据及其应用价值?

大数据的概念,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,是存储在各种存储介质中的海量的各种形态数据,具有5V特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值密度)、Veracity(真实性)。 大数据概念的产...

常用大数据技术名词通俗解释

常用大数据技术名词通俗解释

Hadoop:最早出现的大数据的概念就是体现在Hadoop上面,简单理解就是虚拟了一个存储系统,一个文件在多台机器上保存多份,丢失几率很小。由于机器集群可以横向扩充,因此能保存理论上无穷多的文件,因此称为大数据平台。 MapReduce:在Hadoop存文件的基础上,MapReduce担任...

港中文开源基于PyTorch的多任务人脸识别框架

港中文开源基于PyTorch的多任务人脸识别框架

今天跟大家分享一款新晋开源的出自香港中文大学MMLab实验室的人脸识别库,其最大特点是支持人脸多任务训练,方便使用PyTorch进行人脸识别的训练、评估、特征提取。代码链接:https://github.com/XiaohangZhan/face_recognition_framework该库本来是...

大数据在保险行业的应用

大数据在保险行业的应用

如今“大数据”已不再是单纯描述数据特征的词汇,而是一个多学科交融的热点研究领域,其背后有着复杂和深刻的新理念。 带大家从“技术、工程、科学和应用”这四个维度分析大数据的研究现状与挑战,探讨未来研究的侧重点和发展趋势,如图3: 1、纵...

结构化数据、非结构化数据、数据清洗等概念

结构化数据、非结构化数据、数据清洗等概念

(1)结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。(2)非结构化数据库是指其字段长度可变,并且每个...

如何学习大数据

如何学习大数据

前言一、背景介绍本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。二、大数据介绍大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量...

大数据时代下的用户洞察:用户画像建立(ppt版)

大数据时代下的用户洞察:用户画像建立(ppt版)

大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动。网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映。数据是无缝连接网络世界与物理世界的DNA。发现数据DNA、重组数据DNA是人类不断认识、探索、实践大数据的持续过程。图1大数据发展路径陈新河把网络画像分为行为画像、健康画像、企...

通过数据可视化来分析分类问题

通过数据可视化来分析分类问题

 刚开始面对数据的时候,我们需要考虑数据的一些特性。通过熟悉数据集的特性,有利于方便和确定后续的模型训练和开发,通过这篇文章你能够学习到:1、如何来检查数据2、异常值的检测3、使用平行坐标图来寻找重要属性4、通过可视化来寻找属性之间以及属性与标签之间的关系数据集使用的是UCI提供的一个岩石...

白话大数据——用实例告诉你什么是大数据

白话大数据——用实例告诉你什么是大数据

大数据(bigdata)目前已然成为IT行业中最时髦的词汇,然而真正了解大数据的人却不多。大数据的含义可不是仅仅数据量大,很多人对大数据的概念有所误解,想要从概念上把大数据讲清楚就得从理论上讲大数据的特征,比如4V(数据体量巨大Volume、数据类型繁多Variety、价值密度低Value、处理速度...

让大数据运转更快:MemSQL推出完全免费的社区版

让大数据运转更快:MemSQL推出完全免费的社区版

MemSQL社区版支持无限量的容量规模、完整事务、以及分析功能,这意味着任何人都可以访问MemSQL并获得实时处理和分析数据所需的速度和可扩展性。MemSQL4带来了核心引擎方面的创新、管理和监控功能、以及生态系统的集成,其亮点包括地理空间功能、支持高级分析(增强了优化器并扩展了SQL功能)、以及对...

做Data Mining,其实大部分时间都花在清洗数据

做Data Mining,其实大部分时间都花在清洗数据

前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理。往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗。可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑。说明:这篇文章很早就想写了,但是切入点一直拿捏不准,要讲的内容比较大众化,却...

调试支付宝接口时遇到的 TRADE_TOTALFEE_NOT_MATCH 问题

调试支付宝接口时遇到的 TRADE_TOTALFEE_NOT_MATCH 问题

今天在调试和测试支付宝支付的时候,遇到一个有趣的问题,记下来留个底儿,也拿出来给大家分享一下。对于一个正在运行的网站,如果增加或改动了和支付相关的功能,当然要经过调试和测试。为了测试,自然会再搭一个测试的网站,与正式运行的网站完全无关。今天遇到的问题是,在测试网站上,每次点击了支付按钮以后,本来应该...

海量数据处理算法总结

海量数据处理算法总结

【BloomFilter】BloomFilter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。BloomFilter有可能会出现错误判断,但不会漏掉判断。也就是BloomFilter判断元素...

“大数据风控”混战, Fintech公司是最后的王者?

“大数据风控”混战, Fintech公司是最后的王者?

据最新发布的《中国消费金融创新报告》(以下简称《报告》)显示,我国当前消费金融市场规模估计接近6万亿元,如果按照20%的增速预测,我国消费信贷的规模到2020年可超过12万亿元。在互联网巨头企业看来,消费金融产品的涌现,有效释放了消费潜力、促进了产业升级,但应认识到只有基于大数据驱动下的优质风险防控...

Hadoop 面试中 6 个常见的问题及答案

Hadoop 面试中 6 个常见的问题及答案

你准备好面试了吗?呀,需要Hadoop的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。Hadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:HDFS(HadoopDistribut...