&

當前位置 : 首頁 > 資訊中心 > 【杭州網站建設】海量數據戰(zhàn)爭——誰能贏得未來？

【杭州網站建設】海量數據戰(zhàn)爭——誰能贏得未來？

分享 2011.03.29 瀏覽次數：8154次

【杭州網站建設】海量數據戰(zhàn)爭——誰能贏得未來？

時至今日，海量數據時代的來臨已經毋庸置疑，尤其是在互聯網、電信、金融等行業(yè)，幾乎已經到了“數據就是業(yè)務本身”的地步。在這其中，還挾裹著一個更為重要的趨勢，即數據的社會化，這也是我們通常所說的非結構化數據。

以往人們認為，把企業(yè)自有的運營數據進行深度分析后，自然會有所得。但在今天看來，這種做法的一大缺陷就是，數據不夠全面、及時。從理論上講，誰掌握的數據越全面，得出的結論就越趨向于合理。企業(yè)只有構建一個容納了足夠多關鍵信息的“深水池”，才更有可能做出正確的決策。

這種趨勢已經讓很多相信數據之力量的企業(yè)做出改變，隨之而來的，則是企業(yè)在IT架構上的改變，這也意味著，海量數據市場，正孕育著一個前景無法限量的巨大商機。

海量數據市場爭奪——對IT大佬們而言，這也是一場誰也輸不起的“戰(zhàn)爭”。

Hadoop的神話

從Yahoo的 Web搜索研究，到Facebook的數據分析，再到百度的搜索日志分析、淘寶的數據魔方服務，以及中移動推出了 “大云”(BigCloud)系統(tǒng)，Hadoop的身影都已經到處閃現。簡單來講，社會化數據時代的企業(yè)需要像八爪魚一樣，能夠發(fā)現并拿到他需要的數據，而Hadoop技術的好處就是，不但可以方便地嵌入到各種實際應用中以實現全文搜索/索引，而且可以進行數據抓取。比如雅虎，通過應用這一技術，幾乎可以實時分析每一個頁面點擊并優(yōu)化內容的排名，每7分鐘就能更新一次結果。

以Hadoop為代表的海量數據處理開源工具無疑是吸引人的，“開源工具可以查看代碼，這樣開發(fā)者可以找到他們整合時里面是什么。在幾乎所有的案例中，開源分析都更具性價比和靈活性。”Revolution Analytics的Minelli表示。

數據量在持續(xù)的增長，公司將被迫增加基礎設施的部署。專利費用將一直增加，而開源技術，則省了這筆一直持續(xù)的專利費。Twitter選擇Hadoop，其中重要的原因是專有工具的費用太高。

Hadoop之所以能夠風靡一時，在筆者看來，除了其在海量數據處理上的方式，最重要的因素關鍵在于它是免費的。

更長遠的來看，開源工具使企業(yè)創(chuàng)建新的分析技術，更好的處理非結構化的語言，比如圖片等。而不能寄托于傳統(tǒng)廠商發(fā)展新的分析技術。開源工具給了企業(yè)創(chuàng)新的機會。

但是Hadoop也并不能代表一切，Hadoop的MapReduce在性能上的確是有局限性的：比如MapReduce沒有索引，只有靠強大的運算能力來處理；此外，MapReduce本身存在一些lower-level實現的問題, 特別是skew和數據交換等等。

Cloudscale創(chuàng)始人和首席執(zhí)行官Bill McColl曾指出，從性能上而言，下一代的架構需要在MapReduce/Hadoop的基礎上有10——10000倍的性能提高。正因如此，我們看到，針對Hadoop遭遇到的性能瓶頸，Yahoo正準備開始對Hadoop進行重構。

與此同時，Hadoop的競爭對手們，比如Cloudera、Mapr們，正緊鑼密鼓地推出更具競爭力的產品和技術，而最新的產品無疑是Mapr，Marp是一個比現有Hadoop分布式文件系統(tǒng)還要快三倍的產品，并且也是開源的。Mapr配備了快照，并號稱不會出現SPOF單節(jié)點故障，且被認為是與現有HDFS的API兼容。因此非常容易替換原有的系統(tǒng)。

總之，Hadoop并不一定適合所有的案例。比如海量數據的捕捉、存儲、分析，依靠特殊的應用的特性，等等，這些都非Hadoop所長。相比較Hadoop的處理能力，一些SQL架構依然呈現數量級的優(yōu)勢。從某種意義上而言，在采用scale-out網絡連接方式的EMC Isilon或IBM的SONAS，可能對于使用非結構化的數據比如圖片、視頻會更好。

因此，海量數據競爭的另外一個領域就是開源與專有工具的混合使用，這也是傳統(tǒng)的IT大佬們正在努力的方向。

IT大佬們的海量數據算盤

如果你認為IBM、EMC、Oracle、微軟這些傳統(tǒng)的數據技術大佬們對海量數據這個市場視而不見，那么你就錯了。IBM、EMC、甚至包括微軟，他們與開源項目的合作一直都非常緊密。

IBM

實際上，IBM早已擁有了Hadoop項目，并推出了在Hadoop架構上建立作為群集運行DB2或Oracle數據庫的集群系統(tǒng)，根據IBM的測試數據顯示，在IBM一個擁有40個節(jié)點的文件系統(tǒng)將有12GB/sec吞吐量，并與400個節(jié)點的系統(tǒng)可以達到120GB/sec吞吐量。

如果再深究的話，你可以發(fā)現，在海量數據上，IBM其實主打的是小型機的并行運算，這一點，從其前不久推出的Watson就能看出，由90臺Power組成的Watson是一個非常典型的BI實例，從數據存儲、到數據分析與挖掘，Watson體現的是IBM對于未來海量數據的實現原理，Watson存儲了海量的百科全書、論文文獻等等以文章方式存儲的資料，它們之中也會有相關的信息。但由于這些資料是非結構化的，所以watson必須通過非常費力的文本搜索來取得信息。而這個過程中又會用到前面用過的提取專有名詞、詞性、文本結構等方式。

從架構上可以看到，Watson所使用的軟件實質是建立在IBM開源的UIMA體系結構之上。UIMA是一個用于非結構化信息管理應用的平臺，提供了一個可使問題處理模塊獨立工作的框架，能夠對結果進行篩選得出最佳答案。而Apache項目則開發(fā)了當前的UIMA版本以及一些通用模塊，而Watson在電視節(jié)目中使用的模塊只是其中的一部分。

EMC

2010年7月，當EMC宣布以現金方式收購私有數據存儲公司Greenplum后，迅速以Greenplum為基礎，在信息基礎架構業(yè)務部門之下組成一個新的部門——數據計算產品部。而在完成了Isilon的收購后，EMC也完全具備了進軍海量數據市場的一切產品和技術。

根據EMC的Isilon橫向擴展NAS架構（使用其OneFS操作系統(tǒng)）可以看到，其可在單一文件系統(tǒng)中擴展至10PB以上，并支持每秒50GB的吞吐量。然而，大數據應用可能會更注重某方面或其其他相關數據。因此，Isilon中的S產品系列主要針對于高事務處理和IOPS密集的應用，比如基因組研究；而X系列解決方案主要針對容量密集型應用，諸如醫(yī)療圖像這樣的需要高并發(fā)處理和順序吞吐的應用。

而Greenplum則專注于應對大數據所帶來的分析挑戰(zhàn)。其產品套件支持分析密集型的大數據集，最終幫助終端用戶大數據中挖掘突出價值。這通常需要復雜分析，比如特定的互動分析，而非簡單的結構報告。分析速度尤其重要，特別是在需要頻繁執(zhí)行時以及數據分析結果有助于決策時。此外，為滿足更大規(guī)模的數據應用需求，Greenplum還開發(fā)了大規(guī)模并行處理（MPP）系統(tǒng)，其關鍵要素在于性能和可擴展性。

微軟

應該說，在非結構化數據市場，微軟一直都在對這個市場持續(xù)認真地投入，并于去年年底發(fā)布了公測版Dryad平臺，其實，Dryad也并非微軟的新產品，Dryad和DryadLINQ其實早在微軟收購Powerset之前就已經存在，目前推出的，只不過是商業(yè)版。微軟于2007年首度揭曉了關于技術的研究成果，并于2009年向學術界推出了非商業(yè)版Dryad和DryadLINQ。

值得注意的是，2008年，微軟曾收購了Powerset，并將Powerset基于Hadoop的技術應用于其（bing）搜索引擎之上。而微軟當時甚至答應Powerset員工繼續(xù)向Hadoop貢獻源代碼，Powerset也由此建立了Hadoop的姊妹項目——HBase，模擬Google的BigTable數據庫。

與MapReduce不同的是，Dryad是針對運行Windows HPC Server的集群計算設計的，而非Linux——這恐怕是Dryad容易被人所詬病的一點。由于Hadoop是基于Java編寫的，因此這些程序恐怕并不太適合跑在微軟的Windows平臺或者.NET之上；另外，微軟是在2005年進入到高性能計算市場的，目前而言，這個市場是被Linux所占領的。而目前Apache的Hadoop環(huán)境是只支持Linux的，Windows還在不斷開發(fā)中。

不僅如此，微軟還在近日發(fā)布了其圖數據庫系統(tǒng)Trinity。Trinity是一個基于內存的數據存儲與運算系統(tǒng)，目前在微軟為Probase和AEther這兩個產品服務。

專有工具、開源工具你選誰？

海量數據正在不斷生成，對于急需改變自己傳統(tǒng)IT架構的企業(yè)而言，傳統(tǒng)的結構化數據與非結構化數據的融合，成了所有人的心病，憑心而論，在Google公開其Megastore之前，類似象金融、電信這樣的客戶，很少敢于將自己的數據系統(tǒng)做全面的遷移，而這對于傳統(tǒng)的結構化數據廠商來說，無疑是給了一個喘息的機會。

短期來講，開源分析將越來越廣泛的使用，并且增長迅速。長期來看，混合技術的應用將在高度競爭的市場上出現，兩者將同樣有巨大的需求。

提供了處理大數據分析能力的專有軟件包括AsterData；IBM的專有軟件Netezza、Datameer, 建立在Apache的Hadoop上的專有軟件以及Paraccel。

此外，Oracle 的Exadata以及EMC的Greenplum也是處理大數據量的專有工具。EMC引入了Greenplum數據庫的免費社區(qū)版本，該社區(qū)版本只是軟件。Greenplum社區(qū)報表包括3個協(xié)作模塊Greenplum DB, MADlib, 和Alpine Miner。

處理大數據量的開源工具包括Hadoop、Map/Reduce，以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具，提供了報告、分析、ETLETL (解壓、轉換、加載) ，針對大量的并行分析數據庫，包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報告，通過Hadoop和各種類型的NoSQL數據庫包括MongoDB, Riak, CouchDB and Infinispan的開源連接。

返回頭部

隨機新聞

新聞新動態(tài)，您需要的新聞管家

【杭州網站設計】全世界正步入互聯網創(chuàng)業(yè)時代
日期：2011-07-06瀏覽次數：7258次
手機app定制開發(fā)，到底有什么商業(yè)價值？
日期：2020-07-06瀏覽次數：4696次
杭州營銷推廣型網站頁面設計有哪些妙招
日期：2021-04-21瀏覽次數：4491次
快遞類杭州小程序開發(fā)，哪些功能是必要的？
日期：2021-08-24瀏覽次數：4355次
網站導航的位置有多重要？杭州網站制作公司非常在意的一個細節(jié)
日期：2024-04-26瀏覽次數：2253次

免費獲取網站建設與網絡推廣方案報價

關于我們

杭州帷拓科技有限公司，是一家新型的全案網絡開發(fā)公司，作為以互聯網高端網站建設、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網絡技術服務供應商，帷拓科技致力于全面分析市場環(huán)境、衡量與預測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢，結合品牌理念深度挖掘項目優(yōu)勢和產品價值，提升客戶品牌認知、認可度。
我們的客戶

帷拓科技歷經十年沉淀，與國內外上千家客戶達成合作關系，其中穩(wěn)定合作的公司有：浙江華為、浙江移動、浙江5G產業(yè)聯盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學校、健康中國杭州峰會、科雷機電等，帷拓科技始終堅持“帷有專業(yè)，才能拓展無限”的服務理念，堅持“認真堅持細節(jié)”的優(yōu)質服務理念，不斷完善自身，成就企業(yè)，最終實現共贏。
我們的業(yè)務

帷拓科技主營業(yè)務范圍包含互聯網高端網站建設、APP開發(fā)、小程序開發(fā)、商城網站建設、公眾號運營以及數字營銷等，涵蓋了服務、房產、數碼、服裝、物流貿易等行業(yè)，根據品牌現狀，為每個客戶量身定制項目整體服務方案，以敏銳的市場洞察力、創(chuàng)新的市場策劃能力，全面把握市場變化，為客戶實現從企業(yè)到消費者的價值轉換。

集團網站建設

企業(yè)網站建設

響應式網站建設

手機網站建設

手機微商城建設

商城網站建設

營銷型網站建設

集群網站建設

行業(yè)門戶平臺建設

品牌網站建設

外貿網站建設

多語言網站建設

APP定制開發(fā)

安卓應用開發(fā)

IOS應用開發(fā)

微信小程序開發(fā)

百度小程序開發(fā)

抖音小程序開發(fā)

關于我們

人才招聘

付款方式

資訊中心

【杭州網站建設】海量數據戰(zhàn)爭——誰能贏得未來？

分享 2011.03.29 瀏覽次數：8154次

相關新聞

最新新聞

隨機新聞

免費獲取網站建設與網絡推廣方案報價

關于我們

我們的客戶

我們的業(yè)務

立即與帷拓項目顧問通話

86-571-88023217

您也可以咨詢我們的預約資深顧問（微信號:182-5841-0071）

【杭州網站建設】海量數據戰(zhàn)爭——誰能贏得未來？