NoSQL数据库Hive，Spark和流式计算

发布时间：2021-05-12 12:33:09 所属栏目：云计算来源：互联网

导读：在随后的几年中，Hadoop相关的大数据处理技术继续得到增强。Facebook开源的Hive分析工具用更高层和抽象的语言来描述算法和数据处理流程，能够用SQL语句进行大数据分析，这大大降低了使用者门槛，也提升了大数据技术的应用效率。不要小看这项改进，它让全世界

在随后的几年中，Hadoop相关的大数据处理技术继续得到增强。Facebook开源的Hive分析工具用更高层和抽象的语言来描述算法和数据处理流程，能够用SQL语句进行大数据分析，这大大降低了使用者门槛，也提升了大数据技术的应用效率。不要小看这项改进，它让全世界大多数现有的数据分析人员可以轻易掌握大数据技术。

2009年，加州大学伯克利分校的AMP实验室开发了Spark开源集群计算框架，通过完善API和库，提供更完善的能力和通用性。而且Spark的特色是能够将数据存储在内存中，所以数据处理和查询效率要比利用硬盘存储的MapReduce框架快百倍。目前，Spark已经加入Apache Software Foundation，成为Apache开源项目中的明星项目，被大数据技术领域作为最重要的工具框架。

至此为止的技术栈基本解决了针对海量数据批量进行处理和分析的需求。比如零售业企业如果需要研究顾客和交易数据，从而对顾客群进行特征细分，这些技术就足够了。但是，数字化技术的发展总是会刺激出更高级的需求。比如，在线上零售中，商品和顾客的行为数据是永续不断在发生的，我们希望在数据发生的时刻就立即进行计算，及时地给顾客推送一张个性化的优惠券，而不是定时进行某种批量计算，这时候就需要大数据技术的一个分支—流式计算。

流式计算的常用框架包括Storm和Spark Stream和Flink，他们在零售和电子商务行业中的交易分析、金融风控、物联网中的态势监控、车联网中的自动驾驶等领域都被广泛应用。2019年，阿里巴巴用1亿美元收购了Flink，是因为我们用的淘宝天猫中的搜索、商品推荐，包括双11的实时监控大屏数据都是由Flink来驱动的。Flink用几乎无延迟的速度截获双十一最后一秒钟结束后的GMV数值，可见它在实时处理数据方面的性能。

与大数据技术同步发展的还包括NoSQL(非关系型)数据库市场。在上个世纪，大多数商业数据库都是关系数据库，通过SQL语言进行数据处理和查询。当大数据技术发展起来后，技术专家们发现数据库完全可以用不同的形态来存储数据，这样可以大幅减少数据分析过程中的预处理工作量。所以，从2009前后开始，各种NoSQL数据库开始进入市场。

（编辑：文章分享网_茂名站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

企业需如何无缝保护其	元宇宙热度不减云计算
基于K8S 云原生架构的	快速上手Zalando Post