【杭州網(wǎng)站設(shè)計】直擊HadoopSummit 2011:迎接海量數(shù)據(jù)挑戰(zhàn)
分享 2011.07.01 瀏覽次數(shù):7818次
海量數(shù)據(jù)正在不斷生成,對于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,面對海量數(shù)據(jù),如何分析并有效利用其價值,同時優(yōu)化企業(yè)業(yè)務(wù)已成為現(xiàn)代企業(yè)轉(zhuǎn)型過程中不可避免的問題。
作為海量數(shù)據(jù)處理的一個重要工具——Hadoop也開始受到了越來越多人的關(guān)注。第四屆Hadoop大會——Hadoop Summit 2011大會6月29日在Santa Clara舉行了,備受關(guān)注的Yahoo新成立的子公司——Hortonworks在此次大會上亮相,號稱比Hadoop快三倍的MapR也亮相了、同時一些新的項目比如HCatalog等也受到了技術(shù)人員的關(guān)注。我們將此次會議的一些重要信息整理如下,提供給Hadoop的從業(yè)者們參考。
三大Hadoop支持商爭奇斗艷
Hortonworks——小象變成了大象
Eric Baldeschwieler做了主題演講,他也是Hortonworks(Yahoo剝離出的專門運營Hadoop的新公司)未來的CEO。Hortonworks公司將專門負(fù)責(zé)Hadoop的開發(fā)和運維。他表示新公司的目標(biāo)是提供商業(yè)上的支持,并為客戶提供完整的Apache Hadoop平臺。他還表示Cloudera是他們的競爭對手,并且表示兩家公司非常相似。(Eric并未提及MapR,也許在他看來,由EMC贊助的MapR至少在開放性上還很難與Hortonworks和cloudera相比較,不過在對Hadoop的支持上,Cloudera、MapR和Hortonworks將是最有力的三個貢獻(xiàn)者,從LOGO即可看出,Hadoop已經(jīng)從小象變成了三只大象)。Cloudera提供他們自己的Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu),類似于Apache發(fā)布的版本,Hortonworks的目標(biāo)是提供類似的服務(wù)。
此外,Sanjay Radia也談到了Hadoop對企業(yè)的影響,Hortonworks在工作安全性(防止用戶數(shù)據(jù)被別人刪除)、服務(wù)水平協(xié)議(SLA)、可預(yù)測性和資源共享調(diào)度等方面進(jìn)行了改善。
MapR——最大處理1010EB數(shù)據(jù)
MapR——MC Srivas介紹了MapR的算法,以及和Apache Hadoop的不同。MapR的Hadoop Distribution對Hadoop的可靠性、性能和易用方面都做了大量的提升。HDFS可以處理10-50PB的數(shù)據(jù),而MapR則可以處理1010EB數(shù)據(jù)!(什么概念?!)HDFS的瓶頸是2000節(jié)點的集群,而MapR的的處理能力則是10000個節(jié)點以上的集群。
在NameNode HA方面,MapR把元數(shù)據(jù)放在了所有的節(jié)點,這樣不僅可以scale還可以實現(xiàn)HA,由于元數(shù)據(jù)很少檢索,因此有更多的內(nèi)存可用于MapReduce處理。另外,MapR與Pig和Oozie兼容,HDFS也完全兼容了NFS協(xié)議,支持隨機(jī)讀寫功能。
此外,MapR還配備了快照,并號稱不會出現(xiàn)SPOF單節(jié)點故障,且與現(xiàn)有HDFS的API兼容,因此非常容易替換原有的系統(tǒng)。
目前,MapR M3 Free版本已經(jīng)提供下載。
Cloudera——3.5版本發(fā)布
CLoudera新發(fā)布的Enterprise 3.5是此次大會的亮點之一。產(chǎn)品副總裁Charles Zedlewski表示,“最大的變化在于能夠讓用戶在一兩分鐘內(nèi)就可以安裝和配置Google-like這樣的架構(gòu)”。
據(jù)了解,3.5版本能夠自動配置、重啟服務(wù)器、添加刪除硬件。另外還有一個活動監(jiān)視器,整合各組件的用戶行為,并提供實時查看活動、活動歷史以及工作;同時它還提高了資源和授權(quán)的管理,并改善LDAP(Lightweight Directory Access Protocol)系統(tǒng)安全。
Cloudera 3.5提供了10個組件。Charles Zedlewski還表示將進(jìn)一步增加3到4個CDH的組件,例如壓縮算法,利用Google的Snappy加快數(shù)據(jù)的導(dǎo)入和導(dǎo)出。
免費的Express版已經(jīng)可以下載,這個版本可自動安裝和配置50個節(jié)點。
Kafka、Haystack、HCatalog——海量數(shù)據(jù)處理的未來
Linkedln——只有7000行代碼的Kafka
Linkedln作為最近最熱的社交網(wǎng)站,受到了與會者們的重點關(guān)注。開源的Kafka是Linkedln的開源消息隊列——包括數(shù)據(jù)跟蹤、記錄、指標(biāo)、消息和隊列。僅僅由7000行Scala編寫,據(jù)了解,Kafka每秒可以生產(chǎn)約25萬消息(50 MB),每秒處理55萬消息(110 MB)。
在kafka的核心思路中,不需要在內(nèi)存里緩存數(shù)據(jù),因為操作系統(tǒng)的文件緩存已經(jīng)足夠完善和強(qiáng)大,只要不做隨機(jī)寫,順序讀寫的性能是非常高效的。kafka的數(shù)據(jù)只會順序append,數(shù)據(jù)的刪除策略是累積到一定程度或者超過一定時間再刪除。Kafka另一個獨特的地方是將消費者信息保存在客戶端而不是MQ服務(wù)器,這樣服務(wù)器就不用記錄消息的投遞過程,每個客戶端都自己知道自己下一次應(yīng)該從什么地方什么位置讀取消息,消息的投遞過程也是采用客戶端主動pull的模型,這樣大大減輕了服務(wù)器的負(fù)擔(dān)。Kafka還強(qiáng)調(diào)減少數(shù)據(jù)的序列化和拷貝開銷,它會將一些消息組織成Message Set做批量存儲和發(fā)送,并且客戶端在pull數(shù)據(jù)的時候,盡量以zero-copy的方式傳輸,利用sendfile(對應(yīng)java里的FileChannel.transferTo/transferFrom)這樣的高級IO函數(shù)來減少拷貝開銷??梢姡琸afka是一個精心設(shè)計,特定于某些應(yīng)用的MQ系統(tǒng),這種偏向特定領(lǐng)域的MQ系統(tǒng)我估計會越來越多,垂直化的產(chǎn)品策略值的考慮。
Facebook的Haystack
在Karthic Ranganathan的演講中,F(xiàn)aceBook每月有150億條信息,但不包括短信和電子郵件,大約有14TB的數(shù)據(jù)。此外還有1200億聊天數(shù)據(jù),大約有25TB,每月總計會有300TB的數(shù)據(jù)生成。Facebook使用HBase滿足他們的在小消息(small message)、元數(shù)據(jù)、和搜索引擎的需求。
據(jù)了解,F(xiàn)acebook使用HBase是因為它的高吞吐量寫入簡單并具有橫向擴(kuò)展的能力。Facebook使用被稱之為“Haystack”的系統(tǒng)存儲照片、大型郵件和附件,而“Haystack”的配置是16個內(nèi)核,12個1TB硬盤和48GB內(nèi)存(HBase占用24GB)。
此外Fackbook正在提高NameNode的高可用性和使用第二個NameNode,并使用閃存來提高性能。
IBM的Watson
Anant Jhingran是IBM的CTO,他重點介紹了IBM的Watson的分布式計算原理,實際上,盡管MapReduce被應(yīng)用到了Watson之中,但I(xiàn)BM并未對此進(jìn)行大規(guī)模的宣傳。(據(jù)現(xiàn)場目擊者描述,IBM只是介紹了Watson到底有多么強(qiáng)大,但到底是如何強(qiáng)大,IBM并未做出太多的描述)據(jù)了解,Watson的知識是來源于200萬個網(wǎng)頁數(shù)據(jù),總共2-5TB的數(shù)據(jù)量(即時性),而這一切,base在使用3000-4000瓦電量的基礎(chǔ)上(節(jié)能性)。他還指出,用戶界面和人工智能對于應(yīng)用程序來說同樣重要。
HCatalog——解決HDFS存儲瓶頸
HCatalog是Apache新的一個開源項目,由Yahoo剛成立的Hortonworks提交。HCatalog主要用于解決數(shù)據(jù)存儲、元數(shù)據(jù)的問題。(主要解決HDFS的瓶頸),它提供了一個地方來存儲數(shù)據(jù)的狀態(tài)信息,這使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。
HCatalog值得期待,因為用戶不再再需要擔(dān)心文件和目錄的問題。HCatalog還允許數(shù)據(jù)生產(chǎn)者改變寫數(shù)據(jù)操作,同時還支持舊格式數(shù)據(jù),對開發(fā)人員而言,HCatalog目前提供了一個API,用于幫助數(shù)據(jù)存儲開發(fā)人員讀取和寫入不同的格式數(shù)據(jù)。
從公布的信息來看,Pig和Hive已經(jīng)開始集成HCatalog,而Hortonworks正打算增加HCatalog對HBase的支持。
Giraph——大規(guī)模圖像處理
大規(guī)模圖形算法——Giraph。大規(guī)模的圖形算法是本次會議的一個熱點,Avery Ching談到了Giraph——基于Hadoop的大規(guī)模圖像處理。Yahoo過去使用MPI處理圖形,可惜MPI沒有容錯功能,而作為一個迭代的圖形處理庫,Giraph具有容錯和動態(tài)調(diào)節(jié)的功能。
實際上,雅虎的Webmap是一個用來計算網(wǎng)頁間鏈接關(guān)系,和基于鏈接關(guān)系的feature的算法。最主要的部分是link inversion和類似page rank的迭代算法,Giraph主要是webmap中相關(guān)算法的系統(tǒng)化框架化。
Hadoop in CBSi
令人驚訝的是,作為一個媒體集團(tuán),CBSi居然也擁有自己的MapReduce技術(shù),并支持Chukwa、Pig、Hive、HBase、Cascading、Sqoop、Oozie等等。CBSi用了100個節(jié)點、500TB磁盤來處理2.35億個媒體文件。CBSi的Hadoop平臺主要功能是數(shù)據(jù)挖掘、實驗和對廣告系統(tǒng)優(yōu)化。而它正希望添加Oozie、Azkaban、HCatalog以及Hama(graph processing)到它的Hadoop平臺之上。
CSDN 分布式計算/hadoop討論版塊已經(jīng)開通,有興趣的同學(xué),可以就所關(guān)注的話題繼續(xù)討論。
杭州網(wǎng)站設(shè)計公司 杭州網(wǎng)站建設(shè)公司 杭州網(wǎng)站制作公司 杭州網(wǎng)站設(shè)計 杭州網(wǎng)站建設(shè) 杭州網(wǎng)站制作 杭州精品網(wǎng)站制作 杭州精典網(wǎng)站制作
-
杭州網(wǎng)站設(shè)計公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):333次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):433次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):442次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):690次
-
杭州網(wǎng)站設(shè)計公司:數(shù)據(jù)庫在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):660次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
營口網(wǎng)站設(shè)計:網(wǎng)站設(shè)計的重要意義是什么?
日期:2020-11-11瀏覽次數(shù):1855次
-
營口網(wǎng)站建設(shè):企業(yè)網(wǎng)站建設(shè)的基本費用有哪些?
日期:2020-11-11瀏覽次數(shù):1783次
-
營口網(wǎng)站設(shè)計:網(wǎng)站設(shè)計頁面有哪些布局技巧
日期:2020-10-22瀏覽次數(shù):1897次
-
營口網(wǎng)站建設(shè):網(wǎng)站主頁的設(shè)計要素
日期:2020-10-22瀏覽次數(shù):1953次
最新新聞
與互聯(lián)網(wǎng)同行,實時掌握網(wǎng)建行業(yè)最新動態(tài)
-
在這大數(shù)據(jù)時代,我們?nèi)绾喂?jié)約存儲成本呢?
日期:2011-11-08瀏覽次數(shù):7625次
-
專業(yè)的網(wǎng)站建設(shè)公司應(yīng)該具備哪些要素
日期:2020-01-13瀏覽次數(shù):4546次
-
詳解網(wǎng)站建設(shè)與維護(hù)的安全升級策略
日期:2020-04-01瀏覽次數(shù):2042次
-
電子商城杭州網(wǎng)站制作的幾個要點
日期:2021-08-09瀏覽次數(shù):4075次
-
在商丘,做企業(yè)網(wǎng)站建設(shè)如何用網(wǎng)頁解決用戶的第一印象
日期:2023-02-13瀏覽次數(shù):1810次
隨機(jī)新聞
新聞新動態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會
免費獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報價
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場環(huán)境、衡量與預(yù)測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結(jié)合品牌理念深度挖掘項目優(yōu)勢和產(chǎn)品價值,提升客戶品牌認(rèn)知、認(rèn)可度。
-
我們的客戶
帷拓科技?xì)v經(jīng)十年沉淀,與國內(nèi)外上千家客戶達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學(xué)校、健康中國杭州峰會、科雷機(jī)電等,帷拓科技始終堅持“帷有專業(yè),才能拓展無限”的服務(wù)理念,堅持“認(rèn)真堅持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設(shè)、公眾號運營以及數(shù)字營銷等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個客戶量身定制項目整體服務(wù)方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實現(xiàn)從企業(yè)到消費者的價值轉(zhuǎn)換。