为什么Flink会成为下一代大数据处理框架的标准？

发布时间：2019-05-24 22:28:00 所属栏目：教程来源：张利兵

导读：副标题#e# 01 什么是Flink? 在当前数据量激增传统的时代，不同的业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效地处理，成为当下大多数公司所面临的问题。随着雅虎对Hadoop的开源，越来越多的大数据处理技术开始涌入人们的视线

副标题[/!--empirenews.page--]

01 什么是Flink?

在当前数据量激增传统的时代，不同的业务场景都有大量的业务数据产生，对于这些不断产生的数据应该如何进行有效地处理，成为当下大多数公司所面临的问题。

随着雅虎对Hadoop的开源，越来越多的大数据处理技术开始涌入人们的视线，例如目前比较流行大数据处理引擎Apache Spark，基本上已经取代了MapReduce成为当前大数据处理的标准。

但随着数据的不断增长，新技术的不断发展，人们逐渐意识到对实时数据处理的重要性，企业需要能够同时支持高吞吐、低延迟、高性能的流处理技术来处理日益增长的数据。

为什么Flink会成为下一代大数据处理框架的标准？

相对于传统的数据处理模式，流式数据处理则有着更高的处理效率和成本控制。Apache Flink就是近年来在开源社区发展不断发展的能够支持同时支持高吞吐、低延迟、高性能分布式处理框架。

在2010至2014年间，由柏林工业大学，柏林洪堡大学和哈索普拉特纳研究所联合发起名为“Stratosphere: Information Management on the Cloud”研究项目，该项目在当时的社区逐渐具有一定社区知名度，2014年4月，Stratosphere代码被贡献给Apache 软件基金会，成为Apache基金会孵化器项目。

期初参与该项目的核心成员均来自Stratosphere原来的核心成员，之后团队的大部分创始成员离开学校，共同创办了一家名叫Data Artisans的公司，其主要业务便是将Stratosphere，也就是之后的Flink实现商业化。在项目孵化期间，项目Stratosphere改名为Flink。

Flink在德语中是快速和灵敏的意思，用来体现流式数据处理器的速度快和灵活性强等特点，同时使用棕红色松鼠图案作为Flink项目的Logo，也是主要借助于松鼠灵活快速的特点，由此Flink开始正式地进入社区开发者的视线。

02 为什么Flink会成为下一代大数据处理框架的标准?

在2014年12月，该项目成为Apache 软件基金会顶级项目，从2015年09月发布第一个稳定版本0.9，到2019年4月已经发布到1.8的版本，更多的社区开发成员也逐步地加入，现在Flink在全球范围内拥有350多位的开发人员，不断有新的特性被发布。

同时在全球范围内，越来越多的公司开始使用Flink，在国内比较出名的互联网公司如Alibaba，美团，滴滴等，都在大规模的使用Flink作为企业的分布式大数据处理引擎。

Flink在近年来逐步被人们所熟知和使用，其主要原因不仅因为提供同时支持高吞吐、低延迟和exactly-once语义的实时计算能力，同时Flink还提供了基于流式计算引擎处理批量数据的计算能力，真正意义实现了批流统一，同时随着Alibaba对Blink的开源，极大地增强了Flink对批计算领域的支持。

众多优秀的特性，使得Flink成为开源大数据数据处理框架中的一颗新星，随着国内社区不断推动，越来越多的国内公司开始选择使用Flink作为实时数据处理的技术，在将来不久的时间内，Flink也将会成为企业内部主流的数据处理框架，最终成为下一代大数据数据处理框架的标准。

03 Flink的重要特性及优势

有状态流计算将会随着技术的发展，逐步成为企业作为构建数据平台的架构模式，而这种技术实现的开源方案目前从社区来看，能够满足的就是Apache Flink。Flink通过实现Google Dataflow流式计算模型实现了高吞吐，低延迟，高性能兼具实时流式计算框架。

为什么Flink会成为下一代大数据处理框架的标准？

▲有状态计算架构

同时Flink支持高效容错的状态管理，Flink能够将其状态维护在内存或RockDB数据库中，为了防止状态在计算过程中因为系统异常而出现丢失，Flink周期性的通过分布式快照技术CheckPoints实现状态的持久化维护，使得在系统即使在停机或者异常的情况下都能正确的进行状态恢复，从而保证在任何时间都能计算出正确的结果。

数据架构的演变过程，伴随着技术的不断迭代更新，Flink具有先进的架构理念，以及诸多的优秀特性，以及完善的编程接口，而Flink也在每一次的Release版本中，不断推出新的特性。

例如Queryable State功能的提出，将直接容许用户通过远程的方式直接获取流式计算任务的状态信息，也就是说数据不需要落地数据库就能直接从流式应用中直接查询出，对于实时交互式的查询业务可以直接从Flink的状态中查询最新的结果，当然这个功能目前还属于Beta版本，但是相信在不久的未来，会变得越来越完善，那时Flink将不仅作为实时流式处理的框架，更多的可能会成为一套实时的存储引擎，会让更多的用户从有状态计算的技术中获取收益。

为什么Flink会成为下一代大数据处理框架的标准？

同时支持高吞吐、低延迟、高性能

Flink是一套集高吞吐，低延迟，高性能三者于一身的分布式流式数据处理框架。

非常成熟的计算框架Apache Spark也只能兼顾高吞吐和高性能特性，在Spark Streaming流式计算中无法做到低延迟保障;而Apache Storm只能支持低延迟和高性能特性，但是无法满足高吞吐的要求。而对于满足高吞吐，低延迟，高性能这三个目标对分布式流式计算框架是非常重要的。

支持事件时间(Event Time)概念

在流式计算领域中，窗口计算的地位举足轻重，但目前大多数计算框架窗口计算所采用的都是系统时间(Process Time)，也是事件传输到计算框架处理时，系统主机的当前时间，Flink能够支持基于事件时间(Event Time)语义的进行窗口计算，就是使用事件产生的时间，这种时间机制使得事件即使无序到达甚至延迟到达，数据流都能够计算出精确的结果，同时保持了事件原本产生时的在时间维度的特点，而不受网络传输或者计算框架的影响。

支持有状态计算

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

笔记本电脑卡,教您笔记	amr文件用什么打开,教
桌面图标有蓝底,教您桌	无线网卡驱动怎么安装