092 | Data Artisans：浴火重生的新一代大数据计算引擎Flink

2014年，数据库领域的顶级会议VLDB在杭州召开。柏林理工大学的教授沃克尔·马尔科（Volker Markl）做了一场关于大数据计算平台的专题报告，这场报告讲的是一个叫做Flink的系统。

沃克尔和他的团队从事大数据研究已经很多年了，他们最初开始做的是一个叫做Stratosphere的项目。这个系统并不出名，既无Hadoop的声势浩大，也没有Spark的迅速扩张。

后来，沃克尔吸取了早年Stratosphere系统的教训，并调研了市场上现存的系统不足，经过了重新设计，才制作出了这个叫Flink的新系统。

Flink以非常先进的流计算引擎思想为基本，同时还结合了传统大数据和数据库的优点。于是，这个系统一进入Apache软件基金会以后，就迅速火爆了，甚至连Capital One和国内的阿里巴巴集团银行都开始相继使用。

Flink从一出现就获得了很多的关注，这是自Spark项目出现以来，所有Apache项目里面最受关注的一个。最主要的原因就是Flink的理念非常先进，而且Flink是基于流模型的一个计算平台，它所使用的流计算模型，又是目前市面上所有开源项目里最为先进的。“先进”“实时”“流计算”，这些词语被放在一起，就给Flink带来了无限的光辉。

Flink一时风头无两，网上很快出现了Spark是不是会被Flink取代的言论。在美版知乎Quora和程序员非常喜欢的Stack Overflow上面，这个问题屡次被提出来讨论。

实际上这个问题却没有一个定论，业内大部分的人都觉得Spark和Flink的竞争中，前者很成熟，商业化也不错；后者的理念先进，也有一定的支持，究竟谁能胜出，还是要看后续的发展。

介绍完了Flink的概况，我们再来聊聊它背后的公司。和加州大学伯克利学院对待Spark一样，柏林理工Flink的主要开发者们，也为Flink成立了一家大数据公司Data Artisans，它的总部位于欧洲柏林，在硅谷设有分公司。

从某种程度上，Data Artisans和Databricks很像，区别只是前者的主打项目是Flink，后者是Spark而已。

Data Artisans的运营模式和盈利模式和Databricks也很像，他们也提供一个基于Flink的云计算平台，叫做dA Platform。这个平台有开源的Flink，还有不开源的应用管理器，平台不开源的部分就是他们的增值服务。此外，公司同时提供了对Flink的培训和咨询服务。

如果我们把Flink换成Spark，忽略主打项目的不同，那么我们几乎可以看到两家公司几乎一样的商业运营模式。而这两个公司唯一的区别是：Data Artisans目前不做认证服务。

那么说，两个极其相似的产品之间，后来者Data Artisans是不是会有一些不利之处呢。

首先，它的竞争对手Databricks已经运营很久了。何况Databricks的前身，加州大学伯克利分校的AMP实验室也已经和工业界有非常紧密的联系，更不要说，Spark在整个社区里已经建立非常强劲的生态环境。

其次，Flink作为一个新产品，又出自一个远离湾区的德国柏林的公司，它的境遇自然就要差一些了。先不去谈时间上的短板，仅仅因为它是欧洲公司出品的产品，就可以令它在湾区的使用率被打一个折扣。所以对于Flink，很多公司一直都是站着看戏的态度。这让Flink在号称互联网中心的北美地区推广并不顺利。

最后，虽然Flink的产品在理念上很先进，但是理念从来都不是一切，理念之外，还需要有这个产品的实现。这方面，后来的Data Artisans比起Databricks要差了不少，所以Flink实现起来，Bug会多一些，代码对于大规模的并行处理效率也要更低，有很多的瓶颈等等。

不过，虽然Flink有诸多不利之处，但是它先进的流计算引擎思想，代表着比Spark更光明的未来。这不妨碍一些公司，尤其是自身学术能力不一定强，但是有着强大工程开发能力和开发资源的公司去支持Flink。

Data Artisans的第一个强大的“后盾”就是阿里巴巴。阿里巴巴集团内部组建了一支自己的队伍，在数据库专家蒋晓伟的带领下，对Flink的代码进行了大量的改动，这些改动在工程实现上让Flink有了一个质的飞跃。这款克隆版的Flink就是我们在前面文章中讲到过的Blink。

我们之前也讲到过，Flink社区和阿里巴巴的Blink团队的合作非常紧密。阿里巴巴把很多自己做的改动都重新贡献回Flink，这让Flink的发展迅速地走向了康庄大道。到今天为止，阿里巴巴是世界上对Flink贡献代码第二多的公司，仅次于Data Artisans。

Data Artisans和阿里巴巴的结合，让我们对Flink的未来多了很多信心。

另外，在北美也有一家公司在支持着Data Artisans，它就是Capital One公司。Capital One公司也是Flink目前在北美的最大使用者，它对Flink的表现还是相当满意的。

此外，公开支持Flink的还有谷歌。支持Flink的原因是谷歌开源了它的数据流定义平台Apache Beam，而在开源这一平台的过程中，谷歌表示只有Flink这个引擎具备了Beam需要的所有特性，其他引擎，包括Spark在内，都还是差了那么一点。

这些都让Flink赢得了一些关注，但是不管怎么样，Flink在北美的发展，总体上仍然举步维艰。

我们常常说“成就都是站在巨人的肩膀上取得的”，我们还常常会说“失败是成功之母”。Flink在某种程度上是这两句话的完美体现。

Flink很晚才被开发出来，所以一方面，它继承了一个失败项目的优点，并规避了缺点。另外一方面，它参考了市场上已有的引擎，学习它们的长处与不足。简而言之，Flink的起点很高。

但是晚出来的产品也有坏处。如果之前有一个很好的产品基本上已经占据了市场，那么晚出的产品想要得到市场的认可，不但需要技术要非常强大，还需要看自身的运气。而它的前辈Spark，的确是一个非常厉害的产品。

所以说，Flink能不能够抢占一整块市场，这一点不太好说。至于它能不能彻底把Spark取代了，那更是痴人说梦。只要Databricks自己不犯错，Data Artisans要想取得胜利，实在是一件不容易的事情。但是我想，市场那么大，Data Artisans应该也能分得自己的一块蛋糕。

你又是怎么看待站在巨人的肩上这个问题呢？你可以给我留言，我们一起讨论。

大师兄

092 | Data Artisans：浴火重生的新一代大数据计算引擎Flink