當前位置:首頁 > 軟件與服務 >

大數據軟件遇到一坎 應用井噴下哪種技術路線能邁過去成為引領者?

發布時間:2019-06-27 09:02:56 來源:中國軟件網 作者:劉學習
[摘要]在全球大數據軟件分工越來越專業、競爭越來越有序的環境下,大數據應用對大數據基礎軟件提出了更高的要求,在大數據核心軟件眾多發展路線中,誰會邁過這道坎,引領發展呢?
本文作者│劉學習Fiyinghare

歷經十多年發展,大數據應用井噴式涌現,不但讓商業和企業的先行者利用了數據的價值,獲得商業成功,而且改變了當前全球企業業務發展的驅動力,由原來的流程等驅動,發展到現在的數據驅動。

另一個變化就是在企業級市場,大數據核心軟件主要由國外企業把持的市場格局開始松動,中國大數據核心軟件迅速成長,在一些方面實現了超越。

在全球大數據軟件分工越來越專業、競爭越來越有序的環境下,大數據應用對大數據基礎軟件提出了更高的要求,在大數據核心軟件眾多發展路線中,誰會邁過這道坎,引領發展呢?

 

1. 技術路線之爭延綿十余年

在大數據基礎軟件發展中,技術路線發展演繹精彩紛呈,令人目不暇接。不過,經過多方采訪,記者發現目前大數據軟件的技術路線基本可以分為四大類:

第一條技術路線就是Hadoop

提起大數據,依然不能不提Hadoop。因為Hadoop讓海量的數據能分布存儲,并能分布的存取與處理。過去Hadoop幾乎成了大數據的代名詞。在大數據發展中,開源大數據平臺Hadoop占據至關重要的地位。Cloudera、Hortonworks、MapR是Hadoop的三駕馬車。

提到Hadoop,就不能不提Cloudera。雖然Cloudera也發布商業化工具產品,但以提供Hadoop發行版為主。產品分為免費版和企業版,只有企業版的核心組件不對外開放,其他技術均提供給社區。

Hortonworks就是通過Hadoop框架搭建其產品的最大的一家公司,將自己的技術完全貢獻給社區,不靠產品獲利,而是靠向企業客戶提供支持服務和后期維護盈利。

MapR以發布商業化工具產品為主,同時提供Hadoop發行版。基于開源技術,提高穩定性,同時強化了一些高級功能,定制化程度較高,核心技術是不公開的,營收主要來自軟件收入。MapR的企業級產品的優勢是更好地管理和確保數據在Hadoop中的可恢復性和可靠性,以及多租戶和高可用性功能提供了工具。

專家認為,作為大數據基礎軟件的一大技術路線,基于開源Hadoop發展的最大優勢就是可處理的數據量龐大且運行穩定。在節點資源不增加的情況下,運行速度雖然不占優勢,但卻十分穩定。既是優勢也是劣勢,Hadoop在批處理方面的強大無法掩蓋其在交互式分析和流處理方面的缺憾。

第二條技術路線就是Spark。

Gartner連續多年唱衰Hadoop,并認為,盡管對的需求不斷增長,但對Hadoop的需求沒有像預期那樣加速。同時,25%的Spark已經開始脫離Hadoop單獨運行。

一位業界專家介紹非常形象:如果說Hadoop是一家大型包工隊,Hadoop是人工的搬磚蓋房子,所以慢,但是穩妥;Spark是用機器搬磚蓋房子,可以很快很靈活,缺點就是更容易出機械故障。

Hadoop開始升級,指定調度專家YARN調度工人,其MapReduce也可以支持Mesos;Spark從多個倉庫(HDFS、Cassandra、S3、HBase)搬磚,還允許不同專家如YARN/ MESOS對人員和任務進行調度。

其實,這兩者并不是水火不容。Spark經常和Hadoop團隊合作,讓問題變得更加復雜。不管怎么說,Spark和Hadoop都是兩個獨立的包工隊,都有著各自的優缺點和特定的業務用例。

Spark技術的代表企業是Databricks。Databricks公司是由加州大學伯克利分校負責開發流行的開源Apache Spark數據處理框架的團隊創建的。該公司幫助大企業快速處理、整合和分析大量數據。它的統一分析平臺旨在孤立的數據存儲系統之間建立數字管道,并幫助工程師和數據科學家更好地溝通。

Spark的優勢是在內存中運行速度比Hadoop快100倍,在磁盤上運行速度快10倍。此外,Spark在機器學習應用中的速度同樣更快,如Naive Bayes和k-means。

所以說大數據應用基礎平臺并不是固定的,也是需要優化的,優化后的性能表現會有出色的表現。

第三條技術路線就是以星環科技為代表的自主開發。

中國獨特的國情帶來的大數據量,國外的技術在處理本土業時經常會水土不服:中國用戶需要處理的數據量遠超過之前在其他國家的需求。同時中國用戶在應用場景方面有著非常強的創新意識,需要處理的場景復雜度也超過了其他國家用戶。星環科技就是專注解決用戶難點,不盲從社區或其他路線的代表,走出了一條獨特的自主研發技術創新之路。星環的產品體系已經從最早的分析型數據庫擴展至閃存加速分析型數據庫、實時計算、全文檢索數據庫、圖數據庫、Bigtable數據庫、交易數據庫、基于容器技術的數據云等,從底層資源調度到上面的計算引擎,形成了一條有別于Hadoop或Spark、而具有星環特色的技術路線,實現了多個領域的技術突破。例如分析型數據庫ArgoDB采用了星環統一的計算引擎以及統一的存儲管理系統,同時針對閃存設計的存儲格式,取代了傳統的Hadoop+MPP的結構,同時對比MPP和Hadoop平臺在數據量較大時都有性能上的優勢。

在實時流處理領域,星環自主的Slipstream不僅僅支持SQL的實時數據庫,搭載了一個自主研發的規則引擎和復雜事件處理引擎,用戶可以直接在對業務所需要用的計算方式進行直接的編寫,還可以對開發的結果進行一站式的部署調試,極大的方便了業務的開發人員。

第四條其他技術路線。

其中最重要的一條就是上一代MPP架構的繼續沿用。早在大數據廣為人知之前,大規模并行處理MPP架構就已誕生。其設計理念是對傳統關系型數據庫進行分布式化,是對以往數據庫擴展性差的改良。Teradata、Greenplum、Vertica、Netezza等大家早已熟知企業都是基于此架構來完成解決方案。不過由于其根源仍是對舊技術的修修補補,不支持非結構化數據存儲分析,擴展上限仍不足夠,硬件設備昂貴等特性隨著時間逐漸暴露出來。

除此之外,還有部分專屬領域的技術活躍在市場上,例如應用于網站數據存儲的文檔數據庫MongDB,專注于滿足各類復雜搜索需求的ElasticSearch,常被應用于會話緩存的高速NoSQL數據庫Redis,圖數據庫Neo4J,以及由實時計算引擎正蔓延成為通用大數據引擎的Flink等。這些技術有幾大特點:一是大多是開源系統;二是應用面相對較窄,影響范圍有限。

2.四條技術路線開始出現分化

伴隨著技術的興起到發展成熟,技術路線也從百花齊放到部分技術路線消亡或者合并。任何技術的發展最終只會有兩三條路線沉淀下來。實踐證明,大數據基礎平臺是不可或缺的。但是隨著應用的深入,要想利用開源通過服務或者訂閱賺錢的難度卻越來越大了,要把它做成生意的門檻越來越高了。近年來,大數據基礎軟件典型的四條技術路線開始出現分化。

首先 Hadoop 商業化最典型的公司就是Hadoop的三駕馬車——Hortonworks、Cloudera和MapR。2014年,Hortonworks成功在納斯達克上市。該公司以每股16美元的價格發行625萬股股票,募集1億美元資金,開盤首日上漲幅度達到60%,市值接近11億美元。

2017年4月底,Cloudera以每股15美元的定價在紐約證券交易所上市,股價一日上漲超20%至18.09美元。這一價格也超出了此前公司12到14美元的預期范圍。Cloudera市值約為23億美元,遠低于2014年英特爾給出的41億美元估值。

2018年,大數據領域的兩大巨頭公司Cloudera和Hortonworks因為連連虧損,宣布平等合并,Cloudera以股票方式收購Hortonworks,Cloudera股東最終獲得合并公司60%的股份。這筆交易意味著Hadoop市場再也無法維持兩大競爭對手對峙的狀態了。但合并后公司股價繼續下跌,在過去的七個月市值減半。

MapR于2009年成立,曾在五輪風險投資里拿到1.14億美元。公司的風投支持者通常希望看到兩個結果,其一是上市,另一個是被收購。但是公司MapR的首席執行官米爾斯表示,"我想上市,但我也想尊重上市的步驟。"

遺憾的是,MapR于近期宣布,如果無法獲得額外的資金,可能削減122個工作崗位,并關閉其位于美國加利福尼亞州的總部。關閉總部意味著什么?是企業關門大吉,還是不要行政總部,繼續發展開源系統,幾乎無人可以確認。

其次,Spark技術的代表企業Databricks公司2018年的經常性收入達到1億美元,訂閱收入增加了兩倍。但是其業務方向已經轉移到"大數據分析和人工智能解決方案"。行業內更多的將其看成一家AI公司。

第三, 星環科技堅持走自己的技術路線,堅持自主研發和技術創新,成果豐碩。

星環科技的產品連續兩年入選工信部"星河獎"最佳大數據產品獎。知名咨詢機構wikibon在2018年的《大數據市場分析報告》中,星環科技作為唯一進入報告的中國廠商,被評價為"產品策略對西方供應商非常具有指導意義,因為它解決了許多同行的開源版本的限制"。因為超前的技術眼光和產品發展路線,星環科技行業技術引領者的地位獲得了初步認可。

另外,Elasticsearch則轉為實時分布式搜索和分析引擎,可以應用在任何實時檢索的場景中。基于此技術的公司Elastic一手抓住搜索,一手專注開源,利用創新的搜索引擎技術和開源的軟件,成為大數據搜索和數據實時處理領域的頭部企業。公司成功在紐約證券交易所上市。

3.誰能邁過這道坎,成為引領者?

那么,哪條大數據軟件技術發展路線能成為領導者呢?筆者認為,主要看四個方面:

首先,適應性,能否適應云計算發展大勢。企業向公有云的轉變,各種規模的公司都在增加對AWS、Azure、阿里云、Google Cloud等云服務的采用。如果企業正在轉向云計算,那么選擇將大數據視為其中一部分的云平臺既省時又省力。利用云計算的資源池化,利用容器技術統一管理和調度,支持單行擴展,按需使用,按需付費,讓業務人員隨時使用數據分析平臺成為一個發展方向。

第二,獨特性。軟件產品自主可控固然重要,但是獨特性則是市場競爭致勝的法寶。星環科技CEO孫元浩說,我們發展新技術最看重獨特性、領先性。

第三,豐富性。目前來看,單有大數據平臺還不夠,應該與人工智能、云計算融合發展,提供一體化平臺,彈性資源策略讓服務隨處可見。另外,全棧自主開發也成為一道風景。

第四,生態體系與用戶成功實踐經驗。大數據和云計算的基礎軟件,需要一個強大的生態才能夠形成一定的規模。覆蓋的行業廣泛性、用戶應用成功經驗等也都是非常重要的因素。

提供基于私有云服務的云上大數據廠商BlueData在去年將服務延伸至人工智能和分析服務,今年被HP收購,以提升HP為客戶提供的服務全棧性,彌補HP的短板。而另外一家公司Qubole則是選擇了在各個公有云上提供數據分析與機器學習平臺,其口號是"讓你的數據湖變成利潤中心"。

星環科技于2018年在行業首先推出了數據云平臺Transwarp Data Cloud,這一云原生平臺采用容器技術,以數據為中心,通過提供完整的數據、應用和智能的開發工具,實現數據和應用互通互聯。今年5月推出的TDC 2.0與上一版本相比,能更全面地滿足不用業務、不同角色的工作需求。經過近4年的發展,星環形成了有突出的技術優勢的PaaS產品——星環數據云。

有趣的是,2018年Cloudera和Hortonworks宣布合并時也創建其首個企業數據云。除了主打是100%開源外,能夠同時兼容混合云、多云部署應用情境,提供企業用戶足夠的搬遷、部署彈性,避免被特定廠商綁定。

僅在公有云上提供DB-PaaS的公司Snowflake去年估值已達35億美金,而業績不到1億美金,估值倍數超過了其他同類公司。星環的數據云TDC除了提供與Snowflake類似服務外,還可以支持 DB-PaaS、Application PaaS和Analytic PaaS三個核心模塊,并能支持公有云-公有云、公有云-私有云之間互操作,有效的融合了數據、應用和智能,異構云的互通擴大了產品應用范圍。

隨著大數據技術的不斷發展,預計在未來三到五年內,會發展為僅剩一到兩條技術路線。誰能成為大數據技術引領者,我們將拭目以待!

【返回首頁】

淘宝快3玩法