【杭州網站設計】直擊HadoopSummit 2011:迎接海量數據挑戰(zhàn)
分享 2011.07.01 瀏覽次數:7826次
海量數據正在不斷生成,對于急需改變自己傳統IT架構的企業(yè)而言,面對海量數據,如何分析并有效利用其價值,同時優(yōu)化企業(yè)業(yè)務已成為現代企業(yè)轉型過程中不可避免的問題。
作為海量數據處理的一個重要工具——Hadoop也開始受到了越來越多人的關注。第四屆Hadoop大會——Hadoop Summit 2011大會6月29日在Santa Clara舉行了,備受關注的Yahoo新成立的子公司——Hortonworks在此次大會上亮相,號稱比Hadoop快三倍的MapR也亮相了、同時一些新的項目比如HCatalog等也受到了技術人員的關注。我們將此次會議的一些重要信息整理如下,提供給Hadoop的從業(yè)者們參考。
三大Hadoop支持商爭奇斗艷
Hortonworks——小象變成了大象
Eric Baldeschwieler做了主題演講,他也是Hortonworks(Yahoo剝離出的專門運營Hadoop的新公司)未來的CEO。Hortonworks公司將專門負責Hadoop的開發(fā)和運維。他表示新公司的目標是提供商業(yè)上的支持,并為客戶提供完整的Apache Hadoop平臺。他還表示Cloudera是他們的競爭對手,并且表示兩家公司非常相似。(Eric并未提及MapR,也許在他看來,由EMC贊助的MapR至少在開放性上還很難與Hortonworks和cloudera相比較,不過在對Hadoop的支持上,Cloudera、MapR和Hortonworks將是最有力的三個貢獻者,從LOGO即可看出,Hadoop已經從小象變成了三只大象)。Cloudera提供他們自己的Hadoop分布式系統基礎架構,類似于Apache發(fā)布的版本,Hortonworks的目標是提供類似的服務。
此外,Sanjay Radia也談到了Hadoop對企業(yè)的影響,Hortonworks在工作安全性(防止用戶數據被別人刪除)、服務水平協議(SLA)、可預測性和資源共享調度等方面進行了改善。
MapR——最大處理1010EB數據
MapR——MC Srivas介紹了MapR的算法,以及和Apache Hadoop的不同。MapR的Hadoop Distribution對Hadoop的可靠性、性能和易用方面都做了大量的提升。HDFS可以處理10-50PB的數據,而MapR則可以處理1010EB數據!(什么概念??。〩DFS的瓶頸是2000節(jié)點的集群,而MapR的的處理能力則是10000個節(jié)點以上的集群。
在NameNode HA方面,MapR把元數據放在了所有的節(jié)點,這樣不僅可以scale還可以實現HA,由于元數據很少檢索,因此有更多的內存可用于MapReduce處理。另外,MapR與Pig和Oozie兼容,HDFS也完全兼容了NFS協議,支持隨機讀寫功能。
此外,MapR還配備了快照,并號稱不會出現SPOF單節(jié)點故障,且與現有HDFS的API兼容,因此非常容易替換原有的系統。
目前,MapR M3 Free版本已經提供下載。
Cloudera——3.5版本發(fā)布
CLoudera新發(fā)布的Enterprise 3.5是此次大會的亮點之一。產品副總裁Charles Zedlewski表示,“最大的變化在于能夠讓用戶在一兩分鐘內就可以安裝和配置Google-like這樣的架構”。
據了解,3.5版本能夠自動配置、重啟服務器、添加刪除硬件。另外還有一個活動監(jiān)視器,整合各組件的用戶行為,并提供實時查看活動、活動歷史以及工作;同時它還提高了資源和授權的管理,并改善LDAP(Lightweight Directory Access Protocol)系統安全。
Cloudera 3.5提供了10個組件。Charles Zedlewski還表示將進一步增加3到4個CDH的組件,例如壓縮算法,利用Google的Snappy加快數據的導入和導出。
免費的Express版已經可以下載,這個版本可自動安裝和配置50個節(jié)點。
Kafka、Haystack、HCatalog——海量數據處理的未來
Linkedln——只有7000行代碼的Kafka
Linkedln作為最近最熱的社交網站,受到了與會者們的重點關注。開源的Kafka是Linkedln的開源消息隊列——包括數據跟蹤、記錄、指標、消息和隊列。僅僅由7000行Scala編寫,據了解,Kafka每秒可以生產約25萬消息(50 MB),每秒處理55萬消息(110 MB)。
在kafka的核心思路中,不需要在內存里緩存數據,因為操作系統的文件緩存已經足夠完善和強大,只要不做隨機寫,順序讀寫的性能是非常高效的。kafka的數據只會順序append,數據的刪除策略是累積到一定程度或者超過一定時間再刪除。Kafka另一個獨特的地方是將消費者信息保存在客戶端而不是MQ服務器,這樣服務器就不用記錄消息的投遞過程,每個客戶端都自己知道自己下一次應該從什么地方什么位置讀取消息,消息的投遞過程也是采用客戶端主動pull的模型,這樣大大減輕了服務器的負擔。Kafka還強調減少數據的序列化和拷貝開銷,它會將一些消息組織成Message Set做批量存儲和發(fā)送,并且客戶端在pull數據的時候,盡量以zero-copy的方式傳輸,利用sendfile(對應java里的FileChannel.transferTo/transferFrom)這樣的高級IO函數來減少拷貝開銷??梢姡琸afka是一個精心設計,特定于某些應用的MQ系統,這種偏向特定領域的MQ系統我估計會越來越多,垂直化的產品策略值的考慮。
Facebook的Haystack
在Karthic Ranganathan的演講中,FaceBook每月有150億條信息,但不包括短信和電子郵件,大約有14TB的數據。此外還有1200億聊天數據,大約有25TB,每月總計會有300TB的數據生成。Facebook使用HBase滿足他們的在小消息(small message)、元數據、和搜索引擎的需求。
據了解,Facebook使用HBase是因為它的高吞吐量寫入簡單并具有橫向擴展的能力。Facebook使用被稱之為“Haystack”的系統存儲照片、大型郵件和附件,而“Haystack”的配置是16個內核,12個1TB硬盤和48GB內存(HBase占用24GB)。
此外Fackbook正在提高NameNode的高可用性和使用第二個NameNode,并使用閃存來提高性能。
IBM的Watson
Anant Jhingran是IBM的CTO,他重點介紹了IBM的Watson的分布式計算原理,實際上,盡管MapReduce被應用到了Watson之中,但IBM并未對此進行大規(guī)模的宣傳。(據現場目擊者描述,IBM只是介紹了Watson到底有多么強大,但到底是如何強大,IBM并未做出太多的描述)據了解,Watson的知識是來源于200萬個網頁數據,總共2-5TB的數據量(即時性),而這一切,base在使用3000-4000瓦電量的基礎上(節(jié)能性)。他還指出,用戶界面和人工智能對于應用程序來說同樣重要。
HCatalog——解決HDFS存儲瓶頸
HCatalog是Apache新的一個開源項目,由Yahoo剛成立的Hortonworks提交。HCatalog主要用于解決數據存儲、元數據的問題。(主要解決HDFS的瓶頸),它提供了一個地方來存儲數據的狀態(tài)信息,這使得數據清理和歸檔工具可以很容易的進行處理。
HCatalog值得期待,因為用戶不再再需要擔心文件和目錄的問題。HCatalog還允許數據生產者改變寫數據操作,同時還支持舊格式數據,對開發(fā)人員而言,HCatalog目前提供了一個API,用于幫助數據存儲開發(fā)人員讀取和寫入不同的格式數據。
從公布的信息來看,Pig和Hive已經開始集成HCatalog,而Hortonworks正打算增加HCatalog對HBase的支持。
Giraph——大規(guī)模圖像處理
大規(guī)模圖形算法——Giraph。大規(guī)模的圖形算法是本次會議的一個熱點,Avery Ching談到了Giraph——基于Hadoop的大規(guī)模圖像處理。Yahoo過去使用MPI處理圖形,可惜MPI沒有容錯功能,而作為一個迭代的圖形處理庫,Giraph具有容錯和動態(tài)調節(jié)的功能。
實際上,雅虎的Webmap是一個用來計算網頁間鏈接關系,和基于鏈接關系的feature的算法。最主要的部分是link inversion和類似page rank的迭代算法,Giraph主要是webmap中相關算法的系統化框架化。
Hadoop in CBSi
令人驚訝的是,作為一個媒體集團,CBSi居然也擁有自己的MapReduce技術,并支持Chukwa、Pig、Hive、HBase、Cascading、Sqoop、Oozie等等。CBSi用了100個節(jié)點、500TB磁盤來處理2.35億個媒體文件。CBSi的Hadoop平臺主要功能是數據挖掘、實驗和對廣告系統優(yōu)化。而它正希望添加Oozie、Azkaban、HCatalog以及Hama(graph processing)到它的Hadoop平臺之上。
CSDN 分布式計算/hadoop討論版塊已經開通,有興趣的同學,可以就所關注的話題繼續(xù)討論。
杭州網站設計公司 杭州網站建設公司 杭州網站制作公司 杭州網站設計 杭州網站建設 杭州網站制作 杭州精品網站制作 杭州精典網站制作
-
杭州網站設計公司:品牌網站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數:344次
-
杭州網站建設公司:商城網站建設的六大關鍵步驟
日期:2024-12-18瀏覽次數:439次
-
杭州網站制作:醫(yī)院網站設計與域名備案的復雜性探討
日期:2024-12-18瀏覽次數:451次
-
杭州網站制作公司:打造安全可靠的醫(yī)院網站
日期:2024-12-11瀏覽次數:696次
-
杭州網站設計公司:數據庫在高端網站制作中的關鍵作用
日期:2024-12-11瀏覽次數:668次
相關新聞
整合同類新聞,相關新聞一手掌握
-
酒店賓館APP開發(fā)功能方案
日期:2021-03-30瀏覽次數:1768次
-
酒店賓館APP開發(fā)功能
日期:2021-03-12瀏覽次數:1817次
-
賓館小程序開發(fā)功能分析
日期:2021-02-06瀏覽次數:1835次
最新新聞
與互聯網同行,實時掌握網建行業(yè)最新動態(tài)
-
seo超鏈接分析專家“李彥宏”
日期:2017-12-19瀏覽次數:5141次
-
洛陽網站設計,“顏值”十分重要
日期:2021-03-08瀏覽次數:1755次
-
杭州營銷推廣,要抓住內容和渠道的本質
日期:2021-10-29瀏覽次數:3306次
-
裝修公司推廣網站的營銷型策略
日期:2023-02-07瀏覽次數:2103次
-
杭州餐飲商家的預約小程序制作步驟
日期:2023-05-29瀏覽次數:2919次
隨機新聞
新聞新動態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會
免費獲取網站建設與網絡推廣方案報價
-
關于我們
杭州帷拓科技有限公司,是一家新型的全案網絡開發(fā)公司,作為以互聯網高端網站建設、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網絡技術服務供應商,帷拓科技致力于全面分析市場環(huán)境、衡量與預測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結合品牌理念深度挖掘項目優(yōu)勢和產品價值,提升客戶品牌認知、認可度。
-
我們的客戶
帷拓科技歷經十年沉淀,與國內外上千家客戶達成合作關系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動、浙江5G產業(yè)聯盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學校、健康中國杭州峰會、科雷機電等,帷拓科技始終堅持“帷有專業(yè),才能拓展無限”的服務理念,堅持“認真堅持細節(jié)”的優(yōu)質服務理念,不斷完善自身,成就企業(yè),最終實現共贏。
-
我們的業(yè)務
帷拓科技主營業(yè)務范圍包含互聯網高端網站建設、APP開發(fā)、小程序開發(fā)、商城網站建設、公眾號運營以及數字營銷等,涵蓋了服務、房產、數碼、服裝、物流貿易等行業(yè),根據品牌現狀,為每個客戶量身定制項目整體服務方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實現從企業(yè)到消費者的價值轉換。