海量数据主题的文章列表，还有海量数据的技术要点_第1页

c++ 面试题(海量数据篇)

1，在海量数据中找中位数：题目如下：　　只有2G内存的pc机，在一个存有10G个整数的文件，从中找到中位数，写一个算法。　　解答：http://www.cnblogs.com/youxin/archive/2013/08/26/3281775.html2，...

代码星球 ·2021-01-09

html页面加载海量数据的实现

10w条记录的数组，一次性渲染到页面上，如何处理可以不冻结UI？页面上有个空的无序列表节点ul，其id为list-with-big-data，现需要往列表插入10w个li，每个列表项的文本内容可自行定义，且要求当每个li被单击时，通过alert显示列表项内的文本内容。<!DOCTYPEht...

代码星球 ·2020-12-24

我的收藏：第三章：海量数据和高并发解决方案

给上博客链接：https://blog.csdn.net/xlgen157387/article/details/53230138 ...

代码星球 ·2020-09-09

sparkcore入门到实战之（13）在Spark上通过BulkLoad快速将海量数据导入到Hbase

本文将介绍如何在Spark上使用Scala编写快速导入数据到Hbase中的方法。这里将介绍两种方式：第一种使用Put普通的方法来倒数；第二种使用BulkLoadAPI。使用 org.apache.hadoop.hbase.client.Put 将数据一条一条写入Hbase中，...

代码星球 ·2020-09-05

POI 海量数据/大数据文件生成SXSSFWorkbook使用简介

　　在之前我们知道处理xls的excel用的workbook是HSSFWorkbook，处理xlsx的excel用的是XSSFWorkbook。　　上面两个类导出excel的时候数据会驻留在内存中，所以当数据量大的时候容易造成内存溢出。SXSSFWorkbook是用来生成海量excel数据文件,主要原理是借助临时存储空...

代码星球 ·2020-08-27

海量数据处理-BitMap算法

一、概述本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景，例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的使用性。二、Bit-Map算法先看看这样的一个场景：给一台普通PC，2G内存，要求处理一个包含40亿个不重复并且没有排过...

代码星球 ·2020-08-09

索引：如何在海量数据中快速查找某个数据？

转自：https://blog.csdn.net/every__day/article/details/90763607《数据结构与算法之美》前面讲过MySQL数据库索引实现原理，底层是依赖B+树这种数据结构来实现的。那类似Redisp这要的Key-Value数据库中的索引，又是怎么实现的呢?底层依赖的又是什么数据结构...

代码星球 ·2020-08-09

社会化海量数据采集爬虫框架搭建

随着BIGDATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏览器，输入网址url访...

代码星球 ·2020-06-17

海量数据处理：十道面试题与十个海量数据处理方法总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件...

代码星球 ·2020-06-17

c语言海量数据处理

http://wenku.baidu.com/view/4546d06ca45177232f60a276.html http://www.doc88.com/p-992527311423.html...

代码星球 ·2020-06-17

教你如何迅速秒杀掉：99%的海量数据处理面试题（转）

教你如何迅速秒杀掉：99%的海量数据处理面试题作者：July出处：结构之法算法之道blog 前言一般而言，标题含有“秒杀”，“99%”，“史上最全/最强”等词汇的往往都脱不了哗众...

代码星球 ·2020-06-17

十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件...

代码星球 ·2020-06-17

oracle海量数据中提升创建索引的速度

基本信息情况：数据库版本：OracleDatabase11gEnterpriseEditionRelease11.2.0.1.0-64bitProduction操作系统版本：CentOSrelease5.6加快创建索引速度主要从一下角度考虑：使用nologging参数使用parallel并行参数在session级别使用...

代码星球 ·2020-05-23

大规模分布式应用之海量数据和高并发解决方案总结

开发一个网站的应用程序，当用户规模比较小的时候，使用简单的：一台应用服务器+一台数据库服务器+一台文件服务器，这样的话完全可以解决一部分问题，也可以通过堆硬件的方式来提高网站应用的访问性能，当然，也要考虑成本的问题。当问题的规模在经济条件下通过堆硬件的方式解决不了的时候，我们应该通过其他的思路去解决问题，互联网发展至今...

代码星球 ·2020-05-21

观察者模式和海量数据处理

观察者模式观察者模式：也叫订阅模式或发布模式，使得对象间相互对话。假设用户界面是观察者，业务数据是被观察者，当数据变化时会通知界面， &nbs...

代码星球 ·2020-05-19