#数据清洗

PB 级数据处理挑战,Kubernetes如何助力基因分析?

/摘要: 一家大型基因测序功能公司每日会产生10TB到100TB的下机数据,大数据生信分析平台需要达到PB级别的数据处理能力。这背后是生物科技和计算机科技的双向支撑:测序应用从科研逐步走向临床应用,计算模式从离线向在线演进,交付效率越来越重要。作者李鹏,原文首发于InfoQ,《容器混合云,Kubernetes...

一条SQL完成跨数据库实例Join查询

背景随着业务复杂程度的提高、数据规模的增长,越来越多的公司选择对其在线业务数据库进行垂直或水平拆分,甚至选择不同的数据库类型以满足其业务需求。原本在同一数据库实例里就能实现的SQL查询,现在需要跨多个数据库实例才能完成。业务的数据被“散落”在各个地方,如何方便地对这些数据进行汇总关联查询,已经成为困扰用户的一大难题。针...

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks归档日志服务数据至MaxCompute官方指导文档:https://help.aliyun.com/document_detail/68322.html但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:创建数据源:步骤1、进入数据集成,点击作业数据源,进...

信用算力基于 RocketMQ 实现金融级数据服务的实践

导读:微服务架构已成为了互联网的热门话题之一,而这也是互联网技术发展的必然阶段。然而,微服务概念的提出者MartinFowler却强调:分布式调用的第一原则就是不要分布式。纵观微服务实施过程中的弊端,可以推断出作者的意图,就是希望系统架构者能够谨慎地对待分布式调用,这是分布式系统自身存在的缺陷所致。但无论是RPC框架,...

云数据库将进入企业级百万IOPS时代

IOPS(Input/OutputOperationsPerSecond),即每秒进行读写(I/O)操作的次数,以衡量存储每秒可接受多少次主机发出的访问。数据库,特别是关系型数据库由于需要处理实时业务,因此几乎所有变化的数据都必须完成落盘写入,以实现ACID的各项要求,特别针对持久性。因此更高的IOPS对于数据库整体性...

为数据计算提供强力引擎,阿里云文件存储HDFS v1.0公测发布

在2019年3月的北京云栖峰会上,阿里云正式推出全球首个云原生HDFS存储服务—文件存储HDFS,为数据分析业务在云上提供可线性扩展的吞吐能力和免运维的快速弹性伸缩能力,降低用户TCO。阿里云文件存储HDFS的发布真正解决了HDFS文件系统不适应云上场景的缺陷问题,用户无须花费精力维护和优化底层存储。云时代,通过借助虚...

企业级性能、安全可靠 阿里云发布企业级大数据平台开发者版

/摘要: 作为可以承载EB级的数据存储能力,百PB级的单日计算能力的企业级计算平台,积极的在“智能+”重要战略中,释放技术红利,普惠大数据生态,帮助企业和个人开发者深化大数据、人工智能等研发应用,拓展“智能+”为更多开发者提供资源并进行赋能。3月20日,阿里云宣布推出企业级大数据计算平台MaxCompute开...

MaxCompute推出面向开发者的专属版本,普惠大数据开发者

3月20号,阿里云正式对外宣布推出MaxCompute产品的新规格-开发者版。MaxCompute开发者版是阿里云大数据计算服务发布的开发者专属版本。区别于原有的按量付费、按CU预付费规格,开发者版是面向开发者群体的优惠套餐,为开发版项目免费提供500GB的存储空间和每月100元的免费计算费用。开发者版作为MaxCom...

Amazon Redshift数据迁移到MaxCompute

AmazonRedshift数据迁移到MaxComputeAmazonRedshift中的数据迁移到MaxCompute中经常需要先卸载到S3中,再到阿里云对象存储OSS中,大数据计算服务MaxCompute然后再通过外部表的方式直接读取OSS中的数据。如下示意图:前提条件本文以SQLWorkbench/J工具来连接R...

云计算、大数据、编程语言学习指南下载,100+技术课程免费学!这份诚意满满的新年技术大礼包,你Get了吗?

开发者认证、云学院、技术社群,更多精彩,尽在开发者会场近年来,新技术发展迅速。互联网行业持续高速增长,平均薪资水平持续提升,互联网技术学习已俨然成为学生、在职人员都感兴趣的“业余项目”。阿里云大学作为阿里云泛云生态人才培养的平台,精选100余门囊括云计算、大数据、编程语言和物联网(IoT)的行业热点技术课程,打造此套入...

本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛

/摘要: 本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ将就上述问题对阿里云智能通用计算平台负责人关涛进行了专访。一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资...

基于 DataLakeAnalytics 的数据湖实践

随着软硬件各方面条件的成熟,数据湖(DataLake)已经越来越受到各大企业的青睐,与传统的数仓实践不一样的是,数据湖不需要专门的“入仓”的过程,数据在哪里,我们就从哪里读取数据进行分析。这样的好处在于:一来数据可以保存在很便宜的存储上面(比如阿里云的OSS 上面),给企业节省预算,而需要分析的时候又可以分析...

NoSQL最新现状和趋势:云NoSQL数据库将成重要增长引擎

NoSQL最早起源于1998年,但从2009年开始,NoSQL真正开始逐渐兴起和发展。回望历史应该说NoSQL数据库的兴起,完全是十年来伴随互联网技术,大数据数据的兴起和发展,NoSQL在面临大数据场景下相对于关系型数据库运用,这一概念无疑是一种全新思维的注入。接下来本文重点梳理下NoSQL领域最新发展趋势以及阿里云N...

表格存储TableStore2.0重磅发布,提供更强大数据管理能力

表格存储TableStore是阿里云自研的面向海量结构化和半结构化数据存储的ServerlessNoSQL多模型数据库,被广泛用于社交、物联网、人工智能、元数据和大数据等业务场景。表格存储TableStore采用与GoogleBigtable类似的宽表模型,天然的分布式架构,能支撑高吞吐的数据写入以及PB级数据存储。原...

Watchdogs利用Redis实施大规模挖矿,常见数据库蠕虫如何破?

背景2月20日17时许,阿里云安全监测到一起大规模挖矿事件,判断为Watchdogs蠕虫导致,并在第一时间进行了应急处置。该蠕虫短时间内即造成大量Linux主机沦陷,一方面是利用Redis未授权访问和弱密码这两种常见的配置问题进行传播,另一方面从known_hosts文件读取ip列表,用于登录信任该主机的其他主机。这两...
首页上一页...1617181920...下一页尾页