【杭州網(wǎng)站設(shè)計(jì)】直擊HadoopSummit 2011:迎接海量數(shù)據(jù)挑戰(zhàn)
分享 2011.07.01 瀏覽次數(shù):7812次
海量數(shù)據(jù)正在不斷生成,對(duì)于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,面對(duì)海量數(shù)據(jù),如何分析并有效利用其價(jià)值,同時(shí)優(yōu)化企業(yè)業(yè)務(wù)已成為現(xiàn)代企業(yè)轉(zhuǎn)型過(guò)程中不可避免的問(wèn)題。
作為海量數(shù)據(jù)處理的一個(gè)重要工具——Hadoop也開(kāi)始受到了越來(lái)越多人的關(guān)注。第四屆Hadoop大會(huì)——Hadoop Summit 2011大會(huì)6月29日在Santa Clara舉行了,備受關(guān)注的Yahoo新成立的子公司——Hortonworks在此次大會(huì)上亮相,號(hào)稱(chēng)比Hadoop快三倍的MapR也亮相了、同時(shí)一些新的項(xiàng)目比如HCatalog等也受到了技術(shù)人員的關(guān)注。我們將此次會(huì)議的一些重要信息整理如下,提供給Hadoop的從業(yè)者們參考。
三大Hadoop支持商爭(zhēng)奇斗艷
Hortonworks——小象變成了大象
Eric Baldeschwieler做了主題演講,他也是Hortonworks(Yahoo剝離出的專(zhuān)門(mén)運(yùn)營(yíng)Hadoop的新公司)未來(lái)的CEO。Hortonworks公司將專(zhuān)門(mén)負(fù)責(zé)Hadoop的開(kāi)發(fā)和運(yùn)維。他表示新公司的目標(biāo)是提供商業(yè)上的支持,并為客戶(hù)提供完整的Apache Hadoop平臺(tái)。他還表示Cloudera是他們的競(jìng)爭(zhēng)對(duì)手,并且表示兩家公司非常相似。(Eric并未提及MapR,也許在他看來(lái),由EMC贊助的MapR至少在開(kāi)放性上還很難與Hortonworks和cloudera相比較,不過(guò)在對(duì)Hadoop的支持上,Cloudera、MapR和Hortonworks將是最有力的三個(gè)貢獻(xiàn)者,從LOGO即可看出,Hadoop已經(jīng)從小象變成了三只大象)。Cloudera提供他們自己的Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu),類(lèi)似于Apache發(fā)布的版本,Hortonworks的目標(biāo)是提供類(lèi)似的服務(wù)。
此外,Sanjay Radia也談到了Hadoop對(duì)企業(yè)的影響,Hortonworks在工作安全性(防止用戶(hù)數(shù)據(jù)被別人刪除)、服務(wù)水平協(xié)議(SLA)、可預(yù)測(cè)性和資源共享調(diào)度等方面進(jìn)行了改善。
MapR——最大處理1010EB數(shù)據(jù)
MapR——MC Srivas介紹了MapR的算法,以及和Apache Hadoop的不同。MapR的Hadoop Distribution對(duì)Hadoop的可靠性、性能和易用方面都做了大量的提升。HDFS可以處理10-50PB的數(shù)據(jù),而MapR則可以處理1010EB數(shù)據(jù)!(什么概念??。〩DFS的瓶頸是2000節(jié)點(diǎn)的集群,而MapR的的處理能力則是10000個(gè)節(jié)點(diǎn)以上的集群。
在NameNode HA方面,MapR把元數(shù)據(jù)放在了所有的節(jié)點(diǎn),這樣不僅可以scale還可以實(shí)現(xiàn)HA,由于元數(shù)據(jù)很少檢索,因此有更多的內(nèi)存可用于MapReduce處理。另外,MapR與Pig和Oozie兼容,HDFS也完全兼容了NFS協(xié)議,支持隨機(jī)讀寫(xiě)功能。
此外,MapR還配備了快照,并號(hào)稱(chēng)不會(huì)出現(xiàn)SPOF單節(jié)點(diǎn)故障,且與現(xiàn)有HDFS的API兼容,因此非常容易替換原有的系統(tǒng)。
目前,MapR M3 Free版本已經(jīng)提供下載。
Cloudera——3.5版本發(fā)布
CLoudera新發(fā)布的Enterprise 3.5是此次大會(huì)的亮點(diǎn)之一。產(chǎn)品副總裁Charles Zedlewski表示,“最大的變化在于能夠讓用戶(hù)在一兩分鐘內(nèi)就可以安裝和配置Google-like這樣的架構(gòu)”。
據(jù)了解,3.5版本能夠自動(dòng)配置、重啟服務(wù)器、添加刪除硬件。另外還有一個(gè)活動(dòng)監(jiān)視器,整合各組件的用戶(hù)行為,并提供實(shí)時(shí)查看活動(dòng)、活動(dòng)歷史以及工作;同時(shí)它還提高了資源和授權(quán)的管理,并改善LDAP(Lightweight Directory Access Protocol)系統(tǒng)安全。
Cloudera 3.5提供了10個(gè)組件。Charles Zedlewski還表示將進(jìn)一步增加3到4個(gè)CDH的組件,例如壓縮算法,利用Google的Snappy加快數(shù)據(jù)的導(dǎo)入和導(dǎo)出。
免費(fèi)的Express版已經(jīng)可以下載,這個(gè)版本可自動(dòng)安裝和配置50個(gè)節(jié)點(diǎn)。
Kafka、Haystack、HCatalog——海量數(shù)據(jù)處理的未來(lái)
Linkedln——只有7000行代碼的Kafka
Linkedln作為最近最熱的社交網(wǎng)站,受到了與會(huì)者們的重點(diǎn)關(guān)注。開(kāi)源的Kafka是Linkedln的開(kāi)源消息隊(duì)列——包括數(shù)據(jù)跟蹤、記錄、指標(biāo)、消息和隊(duì)列。僅僅由7000行Scala編寫(xiě),據(jù)了解,Kafka每秒可以生產(chǎn)約25萬(wàn)消息(50 MB),每秒處理55萬(wàn)消息(110 MB)。
在kafka的核心思路中,不需要在內(nèi)存里緩存數(shù)據(jù),因?yàn)椴僮飨到y(tǒng)的文件緩存已經(jīng)足夠完善和強(qiáng)大,只要不做隨機(jī)寫(xiě),順序讀寫(xiě)的性能是非常高效的。kafka的數(shù)據(jù)只會(huì)順序append,數(shù)據(jù)的刪除策略是累積到一定程度或者超過(guò)一定時(shí)間再刪除。Kafka另一個(gè)獨(dú)特的地方是將消費(fèi)者信息保存在客戶(hù)端而不是MQ服務(wù)器,這樣服務(wù)器就不用記錄消息的投遞過(guò)程,每個(gè)客戶(hù)端都自己知道自己下一次應(yīng)該從什么地方什么位置讀取消息,消息的投遞過(guò)程也是采用客戶(hù)端主動(dòng)pull的模型,這樣大大減輕了服務(wù)器的負(fù)擔(dān)。Kafka還強(qiáng)調(diào)減少數(shù)據(jù)的序列化和拷貝開(kāi)銷(xiāo),它會(huì)將一些消息組織成Message Set做批量存儲(chǔ)和發(fā)送,并且客戶(hù)端在pull數(shù)據(jù)的時(shí)候,盡量以zero-copy的方式傳輸,利用sendfile(對(duì)應(yīng)java里的FileChannel.transferTo/transferFrom)這樣的高級(jí)IO函數(shù)來(lái)減少拷貝開(kāi)銷(xiāo)。可見(jiàn),kafka是一個(gè)精心設(shè)計(jì),特定于某些應(yīng)用的MQ系統(tǒng),這種偏向特定領(lǐng)域的MQ系統(tǒng)我估計(jì)會(huì)越來(lái)越多,垂直化的產(chǎn)品策略值的考慮。
Facebook的Haystack
在Karthic Ranganathan的演講中,F(xiàn)aceBook每月有150億條信息,但不包括短信和電子郵件,大約有14TB的數(shù)據(jù)。此外還有1200億聊天數(shù)據(jù),大約有25TB,每月總計(jì)會(huì)有300TB的數(shù)據(jù)生成。Facebook使用HBase滿(mǎn)足他們的在小消息(small message)、元數(shù)據(jù)、和搜索引擎的需求。
據(jù)了解,F(xiàn)acebook使用HBase是因?yàn)樗母咄掏铝繉?xiě)入簡(jiǎn)單并具有橫向擴(kuò)展的能力。Facebook使用被稱(chēng)之為“Haystack”的系統(tǒng)存儲(chǔ)照片、大型郵件和附件,而“Haystack”的配置是16個(gè)內(nèi)核,12個(gè)1TB硬盤(pán)和48GB內(nèi)存(HBase占用24GB)。
此外Fackbook正在提高NameNode的高可用性和使用第二個(gè)NameNode,并使用閃存來(lái)提高性能。
IBM的Watson
Anant Jhingran是IBM的CTO,他重點(diǎn)介紹了IBM的Watson的分布式計(jì)算原理,實(shí)際上,盡管MapReduce被應(yīng)用到了Watson之中,但I(xiàn)BM并未對(duì)此進(jìn)行大規(guī)模的宣傳。(據(jù)現(xiàn)場(chǎng)目擊者描述,IBM只是介紹了Watson到底有多么強(qiáng)大,但到底是如何強(qiáng)大,IBM并未做出太多的描述)據(jù)了解,Watson的知識(shí)是來(lái)源于200萬(wàn)個(gè)網(wǎng)頁(yè)數(shù)據(jù),總共2-5TB的數(shù)據(jù)量(即時(shí)性),而這一切,base在使用3000-4000瓦電量的基礎(chǔ)上(節(jié)能性)。他還指出,用戶(hù)界面和人工智能對(duì)于應(yīng)用程序來(lái)說(shuō)同樣重要。
HCatalog——解決HDFS存儲(chǔ)瓶頸
HCatalog是Apache新的一個(gè)開(kāi)源項(xiàng)目,由Yahoo剛成立的Hortonworks提交。HCatalog主要用于解決數(shù)據(jù)存儲(chǔ)、元數(shù)據(jù)的問(wèn)題。(主要解決HDFS的瓶頸),它提供了一個(gè)地方來(lái)存儲(chǔ)數(shù)據(jù)的狀態(tài)信息,這使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。
HCatalog值得期待,因?yàn)橛脩?hù)不再再需要擔(dān)心文件和目錄的問(wèn)題。HCatalog還允許數(shù)據(jù)生產(chǎn)者改變寫(xiě)數(shù)據(jù)操作,同時(shí)還支持舊格式數(shù)據(jù),對(duì)開(kāi)發(fā)人員而言,HCatalog目前提供了一個(gè)API,用于幫助數(shù)據(jù)存儲(chǔ)開(kāi)發(fā)人員讀取和寫(xiě)入不同的格式數(shù)據(jù)。
從公布的信息來(lái)看,Pig和Hive已經(jīng)開(kāi)始集成HCatalog,而Hortonworks正打算增加HCatalog對(duì)HBase的支持。
Giraph——大規(guī)模圖像處理
大規(guī)模圖形算法——Giraph。大規(guī)模的圖形算法是本次會(huì)議的一個(gè)熱點(diǎn),Avery Ching談到了Giraph——基于Hadoop的大規(guī)模圖像處理。Yahoo過(guò)去使用MPI處理圖形,可惜MPI沒(méi)有容錯(cuò)功能,而作為一個(gè)迭代的圖形處理庫(kù),Giraph具有容錯(cuò)和動(dòng)態(tài)調(diào)節(jié)的功能。
實(shí)際上,雅虎的Webmap是一個(gè)用來(lái)計(jì)算網(wǎng)頁(yè)間鏈接關(guān)系,和基于鏈接關(guān)系的feature的算法。最主要的部分是link inversion和類(lèi)似page rank的迭代算法,Giraph主要是webmap中相關(guān)算法的系統(tǒng)化框架化。
Hadoop in CBSi
令人驚訝的是,作為一個(gè)媒體集團(tuán),CBSi居然也擁有自己的MapReduce技術(shù),并支持Chukwa、Pig、Hive、HBase、Cascading、Sqoop、Oozie等等。CBSi用了100個(gè)節(jié)點(diǎn)、500TB磁盤(pán)來(lái)處理2.35億個(gè)媒體文件。CBSi的Hadoop平臺(tái)主要功能是數(shù)據(jù)挖掘、實(shí)驗(yàn)和對(duì)廣告系統(tǒng)優(yōu)化。而它正希望添加Oozie、Azkaban、HCatalog以及Hama(graph processing)到它的Hadoop平臺(tái)之上。
CSDN 分布式計(jì)算/hadoop討論版塊已經(jīng)開(kāi)通,有興趣的同學(xué),可以就所關(guān)注的話題繼續(xù)討論。
杭州網(wǎng)站設(shè)計(jì)公司 杭州網(wǎng)站建設(shè)公司 杭州網(wǎng)站制作公司 杭州網(wǎng)站設(shè)計(jì) 杭州網(wǎng)站建設(shè) 杭州網(wǎng)站制作 杭州精品網(wǎng)站制作 杭州精典網(wǎng)站制作
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開(kāi)發(fā)助力企業(yè)成長(zhǎng)
日期:2024-12-20瀏覽次數(shù):271次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):368次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):385次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):622次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫(kù)在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):603次
相關(guān)新聞
整合同類(lèi)新聞,相關(guān)新聞一手掌握
-
七臺(tái)河企業(yè),如何做一個(gè)美觀的網(wǎng)站
日期:2023-02-21瀏覽次數(shù):1459次
-
七臺(tái)河做網(wǎng)站的核心是什么?
日期:2023-02-21瀏覽次數(shù):1475次
-
如何進(jìn)行系統(tǒng)的七臺(tái)河網(wǎng)頁(yè)設(shè)計(jì)?
日期:2023-02-21瀏覽次數(shù):1521次
-
七臺(tái)河全網(wǎng)營(yíng)銷(xiāo)的具體方式有哪些?
日期:2023-02-21瀏覽次數(shù):1418次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
杭州帷拓科技與杭州信衡房地產(chǎn)估價(jià)有限公司達(dá)成合作關(guān)系
日期:2019-11-16瀏覽次數(shù):6029次
-
華為折疊屏MateXs今天國(guó)內(nèi)首賣(mài) 海外版搭載HMS
日期:2020-03-05瀏覽次數(shù):6885次
-
如何開(kāi)展杭州網(wǎng)站營(yíng)銷(xiāo)推廣工作?
日期:2021-01-06瀏覽次數(shù):3878次
-
杭州小程序開(kāi)發(fā)通常需要多少錢(qián)?
日期:2021-01-29瀏覽次數(shù):4759次
-
杭州網(wǎng)站設(shè)計(jì),如何設(shè)計(jì)出令人驚艷的網(wǎng)站?
日期:2021-09-03瀏覽次數(shù):3598次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場(chǎng)趨勢(shì)演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開(kāi)發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開(kāi)發(fā)、小程序開(kāi)發(fā)為核心的專(zhuān)業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場(chǎng)環(huán)境、衡量與預(yù)測(cè)市場(chǎng)需求、整合區(qū)別于行業(yè)競(jìng)爭(zhēng)對(duì)手的絕對(duì)優(yōu)勢(shì),結(jié)合品牌理念深度挖掘項(xiàng)目?jī)?yōu)勢(shì)和產(chǎn)品價(jià)值,提升客戶(hù)品牌認(rèn)知、認(rèn)可度。
-
我們的客戶(hù)
帷拓科技?xì)v經(jīng)十年沉淀,與國(guó)內(nèi)外上千家客戶(hù)達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂(lè)部、娃哈哈雙語(yǔ)學(xué)校、健康中國(guó)杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專(zhuān)業(yè),才能拓展無(wú)限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營(yíng)業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開(kāi)發(fā)、小程序開(kāi)發(fā)、商城網(wǎng)站建設(shè)、公眾號(hào)運(yùn)營(yíng)以及數(shù)字營(yíng)銷(xiāo)等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶(hù)量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場(chǎng)洞察力、創(chuàng)新的市場(chǎng)策劃能力,全面把握市場(chǎng)變化,為客戶(hù)實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。