大师兄

089 | Powerset:HBase的老东家

谷歌的“三驾马车”,即谷歌文件系统、MapReduce、BigTable,被誉为计算机科学进入大数据时代的标志。

作为开源大数据的标杆:Hadoop,它的开发者道格·卡丁(Doug Cutting),最初在实现自己的爬虫Nutch的时候,只实现了Hadoop文件系统和Hadoop MapReduce,并未实现BigTable。所以在很长一段时间里,BigTable在Hadoop的生态圈里是缺失的。

对于这种缺失,我们也可以理解为:无论是在爬虫还是当时Hadoop的几大生态圈里,大家对BigTable的需求并没有另外“两驾马车”那样强烈。

真正在Hadoop的生态圈里实现BigTable的开源版的,是一家叫做Powerset的公司推出的HBase项目。HBase代码量大,架构复杂,但是很多代码都写得非常优雅。与Hadoop文件系统和Hadoop MapReduce的快、糙、猛相比,HBase的出现无疑让人眼前一亮。

曾经的Powerset也是十分著名的创业公司,它创业的领域是下一代搜索引擎:自然语言搜索引擎。在今天,它却没有了当初的名气,为什么这么说呢,接下来我就会说到。

那么,这个曾经开发了HBase的创业公司,现在又是怎样的情况呢?今天我们就一起来了解一下。

2004年,谷歌成功上市,它是2000年的互联网泡沫后,第一家上市的超大型互联网公司。作为搜索巨人的谷歌,已经渐渐取代门户网站,成为互联网新的入口。与此同时,它的股票增值速度也像坐上了火箭,一路攀升。

那个时候移动互联网尚在萌芽,社交网络也没有占据主流地位;“搜索引擎”因为谷歌的成功,成为了创业者和投资人的关注热点。

在这样的大背景下,一个以投资者和创业者的信息为主的网站VentureBeat发出了不同的声音,它的主编马特·马绍尔(Matt Marshall)发表了一篇文章,标题是这样的:“不可忽视的创业公司Powerset,即将筹集1000万美元去打败谷歌。”(Bold start-up,Powerset,about to raise $10M to take on Google)

这篇文章画出了三个重点:有一个新的高科技创业公司Powerset,它的创始人是人工智能和自然语言处理技术专家巴尼·佩尔(Barney Pell),这家公司将会以新的技术打败谷歌。

在这篇文章发表之后,Powerset的创始人,号称“人工智能和自然语言处理专家”的巴尼,也亲自撰写了一篇文章,告诉大家自己正在创办一家搜索公司。

巴尼还举了一个例子,如果搜索 “Book by children”,谷歌会自动忽略掉“by”,导致搜索引擎不能明白这句话到底是什么意思。但是,自己创立的公司Powerset则不会有这个问题。因为后者可以理解自然语言,而前者只是做关键词匹配,所以高频介词“by”被忽略掉了,造成了语义不正确。

即使到了今天,谷歌的搜索引擎在很大程度上还是对单词进行匹配,于是基于语义的搜索,对2006年的谷歌而言,毋庸置疑是个问题,而Powerset是基于自然语言的,想来技术上应该相当厉害。

但事实上是,Powerset在公司还没有任何产品的时候,就开始大肆炒作。这靠不靠谱就不好说了。后来公布出来的信息让人大跌眼镜,Powerset所使用的自然语言分析技术,是从施乐公司的帕洛阿尔托研究中心(Palo Alto Research Center)授权得来的。

一个自然语言搜索的公司,它的核心技术不是由自己开发的,而是授权过来的。这就更让人怀疑Powerset到底靠不靠谱了。所以Powerset一边在聚光灯下备受瞩目,一边又被大家不断质疑。

众人盼星星盼月亮地等待Powerset发布跨时代的产品,然而这一等就是两年。到了2008年5月的时候,Powerset终于发布了它们的第一个基于自然语言的搜索引擎,但是这个引擎只能搜索维基百科上面的一部分文章,并不能处理维基百科以外的任何互联网内容搜索问题。

不过,在Powerset的搜索结果页面上,确实包括了一些和谷歌不一样的东西,它们主要是下面的内容。

  1. 资料(Factz) :当用户输入一个搜索主题,Powerset会从维基百科(Wikipedia)中总结出一些相关资料。
  2. 主题档案(Dossiers) :Powerset会对主题做一个总结。
  3. 答案集(Answers) :对很多问题,Powerset会自动生成一个答案表。
  4. 语意高亮(Semantic Highlighting) :与用户问题语意相关的搜索结果,会高亮显示。
  5. 微浏览器(MiniBrowser) : 搜索结果会以大纲形式显示。
  6. 专题条(Article Outline) :一个导航工具条,会随时漂浮在搜索结果旁边,来帮助用户快速进入文章的某个章节。
  7. 资料概要(Summary of Factz) : 会自动生成文章的内容总结。
  8. 相关资料(Explore Factz) : 可以生成相关主题文章的链接。

这些东西和谷歌比起来,自然是有令人耳目一新的成分;但是这样的搜索引擎是不是比谷歌的更强大好用,那就见仁见智了。

有人问Powerset,为什么不提供整个互联网的索引?Powerset的回答是:它们作为一个创业公司,没有足够的机器存储整个互联网的内容,但它们的技术对整个互联网都是适用的;只要有足够多的财力、物力,Powerset分分钟就可以把自己变成一个能够搜索整个互联网的搜索引擎。

这个回答,当然不会让所有人十分满意。有些人相信Powerset有这样的能力,还有人觉得Powerset是在吹牛。

毕竟维基百科有相对工整的数据,工整的数据在语义上就会相对简单,建立知识库也不是那么复杂;而对于整个互联网来说,数据不仅仅没有这样工整,很可能也是不正确的,面对这样的数据,Powerset的表现很可能是一塌糊涂。

之后发生的事情就十分有趣了。谷歌有钱以后就开始挑衅微软,开始了在西雅图建办公室、挖微软的墙角、推出Google Docs进军微软的办公软件市场等一系列行径。

这导致当时微软的CEO史蒂夫·鲍尔默(Steve Ballmer),决定大举进军搜索市场,做“必应搜索引擎”和谷歌正面对抗。

于是,在Powerset公布它们基于维基百科的新一代搜索引擎以后没多久,也就是2008年7月,Powerset就被微软收购了,收购价是1亿美金,实际上,收购价其实算不得很高。

而收购了Powerset的微软,既没有终止HBase的开发,也没有把HBase当作自己重要的资产对待。一直到萨提亚(Satya)上台以后,微软开始向“云”转移,HBase的重要性才体现了出来。

但是在那个时候,在微软收购Powerset时加入的那批HBase开发人员,却早已经纷纷跳槽离开了。

所以,微软曾经有一次绝佳的机会,可以对Hadoop生态圈形成巨大的影响,但自己却轻易地放过去了。这或许是微软一时之失,或许是它当时过于自以为是,但历史就是历史,我们也不好过多评判。

我们无从验证Powerset是否真的那么牛,但是起码有一点,微软的必应搜索引擎自从收购了Powerset的技术以后,再也没有呈现出超越谷歌的趋势。

不过不可否认,Powerset也是做出了一定的贡献。它在开发语义搜索系统的过程中,需要用到类似于谷歌BigTable的系统,但是当时开源的Hadoop生态圈却没有,所以Powerset自己开发了HBase。

单纯从这一点来讲,Powerset就有点让我刮目相看了。HBase并非是一个简单的系统,最初Powerset投进去的人虽然只是个位数,但是它的质量在开源社区里是非常不错的。

所以,如果我们中肯地去评论Powerset,它做出了HBase,并且对Hadoop生态圈和大数据开源的贡献依然是极为巨大的。所以,无论如何,我们都还是要感谢Powerset,毕竟,它还是给我们留下了HBase,这个优质的开源产品。