【杭州網(wǎng)站設(shè)計(jì)】Hadoop是最完美的數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)嗎?
分享 2011.06.10 瀏覽次數(shù):7557次
從Yahoo的 Web搜索研究,到Facebook的數(shù)據(jù)分析,再到百度的搜索日志分析、淘寶的數(shù)據(jù)魔方服務(wù),Hadoop的身影都已經(jīng)到處閃現(xiàn)。簡(jiǎn)單來(lái)講,社會(huì)化數(shù)據(jù)時(shí)代的企業(yè)需要像八爪魚(yú)一樣,能夠發(fā)現(xiàn)并拿到他需要的數(shù)據(jù),而Hadoop技術(shù)的好處就是,不但可以方便地嵌入到各種實(shí)際應(yīng)用中以實(shí)現(xiàn)全文搜索/索引,而且可以進(jìn)行數(shù)據(jù)抓取。比如雅虎,通過(guò)應(yīng)用這一技術(shù),幾乎可以實(shí)時(shí)分析每一個(gè)頁(yè)面點(diǎn)擊并優(yōu)化內(nèi)容的排名,每7分鐘就能更新一次結(jié)果。
“PB級(jí)別的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)可以大規(guī)模并行處理數(shù)據(jù)并且可以對(duì)海量數(shù)據(jù)的分析數(shù)據(jù)進(jìn)行高效的管理”,F(xiàn)orrester的分析師James Kobielus表示。
以Hadoop為代表的海量數(shù)據(jù)處理開(kāi)源工具無(wú)疑是吸引人的,“開(kāi)源工具可以查看代碼,這樣開(kāi)發(fā)者可以找到他們整合時(shí)里面是什么。在幾乎所有的案例中,開(kāi)源分析都更具性?xún)r(jià)比和靈活性。”Revolution Analytics的Minelli表示。
毫無(wú)疑問(wèn),Hadoop在企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用上有許多優(yōu)勢(shì),比如:
Hadoop是開(kāi)源的。它能帶來(lái)較低的成本,無(wú)需支付高昂的授權(quán)許可費(fèi)。
其次是其靈活性,允許用戶(hù)自己修改代碼。
最后是可以獲得具有領(lǐng)先且創(chuàng)新性的Hadoop社區(qū)的支持。
更長(zhǎng)遠(yuǎn)的來(lái)看,開(kāi)源Hadoop使企業(yè)有了新的分析技術(shù),能夠更好的處理非結(jié)構(gòu)化的語(yǔ)言,比如圖片等。而不需要完全寄托于傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)廠(chǎng)商的分析技術(shù),開(kāi)源的Hadoop給了企業(yè)創(chuàng)新的機(jī)會(huì)。
Kobielus指出,Hadoop核心之所以成為企業(yè)數(shù)據(jù)倉(cāng)庫(kù)最佳解決方案,原因在于其數(shù)據(jù)庫(kù)分析方式與供應(yīng)商無(wú)關(guān)。再加上MapReduce框架的強(qiáng)大支持,將使其成為完美的企業(yè)級(jí)云數(shù)據(jù)倉(cāng)庫(kù)。
Hadoop最佳實(shí)踐案例
企業(yè)使用Hadoop在云計(jì)算中能夠做什么?Kobielus列舉出三個(gè)受歡迎的案例。
1、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)
現(xiàn)在我們?cè)诼?tīng)到海量數(shù)據(jù)的時(shí)候,主要的關(guān)注點(diǎn)通常會(huì)在一些互聯(lián)網(wǎng)巨頭上,像谷歌和Twitter都在使用,但互聯(lián)網(wǎng)其實(shí)并沒(méi)有創(chuàng)造大數(shù)據(jù),也不會(huì)僅僅因?yàn)镠adoop就得到廣泛應(yīng)用。
在CSDN之前對(duì)1446個(gè)數(shù)據(jù)庫(kù)管理人員的調(diào)查中,有78%的被調(diào)查者表示,非結(jié)構(gòu)化數(shù)據(jù)是他們當(dāng)前面臨的最大問(wèn)題,超過(guò)一半的人認(rèn)為,在未來(lái)的三年中,非結(jié)構(gòu)化數(shù)據(jù)將超過(guò)過(guò)去10年的結(jié)構(gòu)化數(shù)據(jù)總和。
實(shí)際上,金融服務(wù)企業(yè)已經(jīng)處理大型數(shù)據(jù)負(fù)載相當(dāng)長(zhǎng)的時(shí)間了,盡管到目前為止,其數(shù)據(jù)處理的效果不一定是最杰出的。企業(yè)最初時(shí)常創(chuàng)建并得到少量松散的數(shù)據(jù)。現(xiàn)在他們開(kāi)始通過(guò)私有云進(jìn)行試驗(yàn),而且通過(guò)Hadoop和MapReduce技術(shù)關(guān)聯(lián)數(shù)據(jù)方法,通過(guò)計(jì)算集群完成高速數(shù)據(jù)分析。
2、通過(guò)Hadoop日志對(duì)事件進(jìn)行分析,主要應(yīng)用是Web搜索
Hadoop的最常見(jiàn)用法之一是Web搜索。雖然它不是惟一的軟件框架應(yīng)用程序,但作為一個(gè)并行數(shù)據(jù)處理引擎,它的表現(xiàn)非常突出。Hadoop最有趣的方面之一是Map and Reduce流程,它受到Google開(kāi)發(fā)的啟發(fā)。這個(gè)流程稱(chēng)為創(chuàng)建索引,它將Web爬行器檢索到的文本W(wǎng)eb頁(yè)面作為輸入,并且將這些頁(yè)面上的單詞的頻率報(bào)告作為結(jié)果。然后可以在整個(gè)Web搜索過(guò)程中使用這個(gè)結(jié)果從已定義的搜索參數(shù)中識(shí)別內(nèi)容。
3、內(nèi)容層分析
借助Hadoop,我們可以線(xiàn)性擴(kuò)展運(yùn)行在硬件上的集群來(lái)集成更大更豐富的數(shù)據(jù)集。能夠在之前沒(méi)有整合的異構(gòu)數(shù)據(jù)源上運(yùn)行分析,然后在同樣的數(shù)據(jù)上有規(guī)模地運(yùn)行分析。
實(shí)際上,對(duì)于專(zhuān)業(yè)的數(shù)據(jù)分析人員而言,這個(gè)功能無(wú)疑會(huì)讓他們喜歡,因?yàn)榛贛apreduce建模的Hadoop所提供的數(shù)據(jù)挖掘功能,這極大他們了解到客戶(hù)的最新行為分析。如Flip Kromer(InfoChimps 創(chuàng)辦人之一)所描述的:“web從一個(gè)對(duì)每件事都了解一點(diǎn)的場(chǎng)所發(fā)展成為對(duì)一件事了解其全部的場(chǎng)所”。
Hadoop的未來(lái)
可以預(yù)見(jiàn)的是,Hadoop作為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)核心技術(shù),在未來(lái)的10年中它將會(huì)保持增長(zhǎng)。
盡管從技術(shù)上而言,Hadoop的MapReduce在性能上仍然有一定局限性的:比如MapReduce沒(méi)有索引,只有靠強(qiáng)大的運(yùn)算能力來(lái)處理;此外,MapReduce本身存在一些lower-level實(shí)現(xiàn)的問(wèn)題, 特別是skew和數(shù)據(jù)交換等等。
Cloudscale創(chuàng)始人和首席執(zhí)行官Bill McColl也曾指出,從性能上而言,下一代的架構(gòu)需要在MapReduce/Hadoop的基礎(chǔ)上有10——10000倍的性能提高。
“但這些都不是問(wèn)題”,Kobielus表示,“在這些問(wèn)題解決之前,Hadoop會(huì)有廣泛的采用。因?yàn)橄鄬?duì)于傳統(tǒng)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),Hadoop是最好的。”
杭州網(wǎng)站建設(shè) 杭州網(wǎng)站設(shè)計(jì) 杭州網(wǎng)站制作 杭州精典網(wǎng)站設(shè)計(jì)公司
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開(kāi)發(fā)助力企業(yè)成長(zhǎng)
日期:2024-12-20瀏覽次數(shù):348次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):441次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):455次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):698次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫(kù)在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):669次
相關(guān)新聞
整合同類(lèi)新聞,相關(guān)新聞一手掌握
-
金華定制app市場(chǎng)前景如何?
日期:2020-10-29瀏覽次數(shù):2260次
-
金華app開(kāi)發(fā):現(xiàn)狀和未來(lái)之路
日期:2020-10-29瀏覽次數(shù):2252次
-
如何讓金華網(wǎng)站制作廣受歡迎?
日期:2020-09-15瀏覽次數(shù):2373次
-
金華網(wǎng)站設(shè)計(jì)有何重要性?
日期:2020-09-15瀏覽次數(shù):2321次
-
你真的了解“小程序定制開(kāi)發(fā)”嗎
日期:2020-06-22瀏覽次數(shù):2346次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
網(wǎng)站優(yōu)化的必要性
日期:2008-10-23瀏覽次數(shù):7558次
-
都是干貨!企業(yè)網(wǎng)站推廣流程詳解
日期:2020-01-13瀏覽次數(shù):1954次
-
南平app開(kāi)發(fā)為什么一定要定制?
日期:2021-02-06瀏覽次數(shù):2018次
-
論域名備案對(duì)杭州公司網(wǎng)站建設(shè)的幫助
日期:2021-05-27瀏覽次數(shù):4029次
-
對(duì)于杭州網(wǎng)站來(lái)說(shuō),杭州網(wǎng)站優(yōu)化具體有哪些作用?
日期:2021-09-13瀏覽次數(shù):3707次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場(chǎng)趨勢(shì)演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開(kāi)發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開(kāi)發(fā)、小程序開(kāi)發(fā)為核心的專(zhuān)業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場(chǎng)環(huán)境、衡量與預(yù)測(cè)市場(chǎng)需求、整合區(qū)別于行業(yè)競(jìng)爭(zhēng)對(duì)手的絕對(duì)優(yōu)勢(shì),結(jié)合品牌理念深度挖掘項(xiàng)目?jī)?yōu)勢(shì)和產(chǎn)品價(jià)值,提升客戶(hù)品牌認(rèn)知、認(rèn)可度。
-
我們的客戶(hù)
帷拓科技?xì)v經(jīng)十年沉淀,與國(guó)內(nèi)外上千家客戶(hù)達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂(lè)部、娃哈哈雙語(yǔ)學(xué)校、健康中國(guó)杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專(zhuān)業(yè),才能拓展無(wú)限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏(yíng)。
-
我們的業(yè)務(wù)
帷拓科技主營(yíng)業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開(kāi)發(fā)、小程序開(kāi)發(fā)、商城網(wǎng)站建設(shè)、公眾號(hào)運(yùn)營(yíng)以及數(shù)字營(yíng)銷(xiāo)等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶(hù)量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場(chǎng)洞察力、創(chuàng)新的市場(chǎng)策劃能力,全面把握市場(chǎng)變化,為客戶(hù)實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。