MapReduce與SQL會(huì)發(fā)生化學(xué)反應(yīng)嗎?
分享 2011.11.18 瀏覽次數(shù):7376次
Google在2004年創(chuàng)造了MapReduce,MapReduce集群可包括數(shù)以千計(jì)的并行操作的計(jì)算機(jī)。同時(shí)MapReduce允許程序員在如此龐大的集群中快速的轉(zhuǎn)換數(shù)據(jù)并執(zhí)行數(shù)據(jù)。
從MapReduce到Hadoop,這其中經(jīng)歷了一個(gè)有趣的轉(zhuǎn)變。MapReduce最初是幫助搜索引擎公司應(yīng)對(duì)萬(wàn)維網(wǎng)所帶來(lái)的創(chuàng)建索引時(shí)產(chǎn)生的大量數(shù)據(jù)。Google最初也招募了一些硅谷的精英,并雇用了大批的工程師來(lái)完善MapReduce。并快速將技術(shù)應(yīng)用在相關(guān)的行業(yè)之中,如金融、零售等。Goolge曾拿出MapReduce的部分相關(guān)信息與Nutch團(tuán)隊(duì)分享,以開發(fā)開源版本“Hadoop”。但Yahoo則將Nutch收入到旗下。Yahoo在2007年將其發(fā)展成Hadoop開源項(xiàng)目。Hadoop現(xiàn)在越來(lái)越多的用于大數(shù)據(jù)的大規(guī)模并行數(shù)據(jù)處理引擎。
現(xiàn)今大家都熱衷于大數(shù)據(jù)領(lǐng)域。開源的項(xiàng)目如Apache Hive、Pig。以及像MapR和Hadapt這樣的創(chuàng)業(yè)公司。眾所周知,如果MapReduce和Hadoop中用來(lái)進(jìn)行數(shù)據(jù)分析的應(yīng)用編寫起來(lái)過(guò)于復(fù)雜的話,那么就需要優(yōu)秀程序員處理,這并不利于MapReduce技術(shù)的發(fā)展。所以現(xiàn)今所有Hadoop供應(yīng)商都亟待解決的一個(gè)問(wèn)題就是如何將 MapReduce變得更易于使用。
企業(yè)大數(shù)據(jù)與敏捷大數(shù)據(jù)
從IT角度來(lái)看,信息結(jié)構(gòu)類型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類型一直存在,只是其中一種結(jié)構(gòu)類型往往主導(dǎo)于其他結(jié)構(gòu):
結(jié)構(gòu)化信息——這種信息可以在關(guān)系數(shù)據(jù)庫(kù)中找到,多年來(lái)一直主導(dǎo)著IT應(yīng)用。這是關(guān)鍵任務(wù)OLTP系統(tǒng)業(yè)務(wù)所依賴的信息,另外,還可對(duì)結(jié)構(gòu)數(shù)據(jù)庫(kù)信息進(jìn)行排序和查詢;
半結(jié)構(gòu)化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發(fā)布在網(wǎng)絡(luò)上的信息。半結(jié)構(gòu)化信息是以內(nèi)容為基礎(chǔ),可以用于搜索,這也是谷歌存在的理由;
非結(jié)構(gòu)化信息——該信息在本質(zhì)形式上可認(rèn)為主要是位映射數(shù)據(jù)。數(shù)據(jù)必須處于一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽或被看)。許多大數(shù)據(jù)都是非結(jié)構(gòu)化的,其龐大規(guī)模和復(fù)雜性需要高級(jí)分析工具來(lái)創(chuàng)建或利用一種更易于人們感知和交互的結(jié)構(gòu)。
而面對(duì)網(wǎng)絡(luò)中三種類型信息的挑戰(zhàn),大數(shù)據(jù)的發(fā)展趨勢(shì)逐漸明朗。在今年9月于紐約召開的O‘Reilly Strata大會(huì)上就將發(fā)展趨勢(shì)概括為企業(yè)大數(shù)據(jù)和敏捷大數(shù)據(jù)。企業(yè)大數(shù)據(jù)是最具挑戰(zhàn)性的問(wèn)題,也是企業(yè)盈利的需要解決的問(wèn)題。而敏捷大數(shù)據(jù)是另外一個(gè)需要關(guān)注的問(wèn)題。如Greenplum和Aster等在企業(yè)BI領(lǐng)域都有涉足。
如果事實(shí)證明大數(shù)據(jù)必須購(gòu)買企業(yè)級(jí)的產(chǎn)品,那么就意味著大數(shù)據(jù)會(huì)花大本錢。但這并非絕對(duì),通過(guò)使用大數(shù)據(jù)敏捷技術(shù),各種規(guī)模的企業(yè)都可以控制成本,從大數(shù)據(jù)中獲益。至關(guān)重要的是盡可能降低成本并最大化的了解大數(shù)據(jù)集,一旦數(shù)據(jù)被轉(zhuǎn)化為可用便具有對(duì)業(yè)務(wù)的洞察力,然后以各種方式將問(wèn)題匯總,并發(fā)揮企業(yè)技術(shù)的優(yōu)勢(shì)解決問(wèn)題。
MapReduce易用性是其發(fā)展最大障礙
MapReduce系統(tǒng)獲得成功的原因之一是它為編寫需要大規(guī)模并行處理的代碼提供了簡(jiǎn)單的編程模式。它受到了Lisp的函數(shù)編程特性和其他函數(shù)式語(yǔ)言的啟發(fā)。MapReduce和云計(jì)算非常相配。MapReduce的關(guān)鍵特點(diǎn)是它能夠?qū)﹂_發(fā)人員隱藏操作并行語(yǔ)義 — 并行編程的具體工作方式。
但現(xiàn)今,MapReduce很難成為商務(wù)人士討論大數(shù)據(jù)的方式。因?yàn)橐褂肕apReduce至少需要以下四種技能。
1.將商業(yè)問(wèn)題轉(zhuǎn)換為可分析解決的問(wèn)題
2.將可分析解決的問(wèn)題轉(zhuǎn)換為MapReduce模型
3.調(diào)試、編碼、優(yōu)化MapReduce以處理數(shù)據(jù)的能力
4.具備Hadoop和MapReduce的豐富經(jīng)驗(yàn),并具備調(diào)試部署在Hadoop上代碼的能力
在大數(shù)據(jù)時(shí)代下,使用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行查詢、排序、定義、和提取數(shù)據(jù)時(shí)顯得有些力不從心。而處理大數(shù)據(jù)業(yè)務(wù)的本質(zhì)(如MapReduce)需要更多的技能。但大批雇傭這些高技能人才是不現(xiàn)實(shí)的。
SQL與MapReduce 傳統(tǒng)與現(xiàn)代的結(jié)合
SQL對(duì)于編程專家和業(yè)務(wù)分析師用來(lái)查詢數(shù)據(jù)來(lái)說(shuō)是非常熟悉的模式。而MapReduce的魅力在于有能力處理程序方案中相對(duì)復(fù)雜的搜索查詢。如果將兩者結(jié)合起來(lái)會(huì)帶來(lái)什么樣的變化?
Aster已經(jīng)提供了一種被稱為SQL-MapReduce的框架,這個(gè)框架可以使數(shù)據(jù)科學(xué)家和商業(yè)分析師對(duì)復(fù)雜的信息進(jìn)行快速調(diào)查分析,允許一組關(guān)聯(lián)計(jì)算機(jī)(計(jì)算機(jī)群集)使用軟件語(yǔ)言(如 Java、C#、Python、C++ 和 R)并行進(jìn)行程序表達(dá),然后通過(guò)標(biāo)準(zhǔn)SQL 激活(調(diào)用)使用。
而Greenplum提供支持SQL和MapReduce并行處理功能,并能以較低的成本處理TB量級(jí)到PB量級(jí)企業(yè)數(shù)據(jù)。Greenplum整合了MapReduce和SQL技術(shù),并且將直接在Greenplum的并行數(shù)據(jù)流引擎(位于Greenplum數(shù)據(jù)引擎的中心)內(nèi)部直接執(zhí)行 MapReduce和SQL。Greenplum MapReduce可以使程序員對(duì)儲(chǔ)存在Greenplum數(shù)據(jù)引擎內(nèi)部和外部的PB量級(jí)規(guī)模的數(shù)據(jù)集進(jìn)行分析。帶來(lái)的好處是應(yīng)對(duì)不斷增長(zhǎng)的標(biāo)準(zhǔn)編程模型來(lái)滿足關(guān)系數(shù)據(jù)庫(kù)的可靠性和熟悉性。
同時(shí)像微軟這樣的領(lǐng)導(dǎo)廠商也參與其中。微軟已經(jīng)推出了Hadoop與SQL Server的連接工具,客戶將能夠在Hadoop、SQL Server和并行數(shù)據(jù)倉(cāng)換環(huán)境下相互交換數(shù)據(jù)。與此同時(shí),微軟還與Hortonworks展開深度合作。其目的就是為了將Hortonworks在 Hadoop領(lǐng)域的專長(zhǎng)以及微軟產(chǎn)品易用化的特性有機(jī)的結(jié)合起來(lái),并簡(jiǎn)化下載、安裝和配置等幾個(gè)Hadoop的相關(guān)技術(shù)。
未來(lái)隨著SQL和MapReduce技術(shù)結(jié)合的不斷完善,MapReduce將變得更容易使用,并廣泛的受到關(guān)注。相信我,時(shí)間會(huì)證明一切。
標(biāo)簽:杭州網(wǎng)站建設(shè) SQL 呼叫中心
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長(zhǎng)
日期:2024-12-20瀏覽次數(shù):289次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):380次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):397次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):641次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫(kù)在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):614次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
銅陵網(wǎng)站建設(shè)公司哪家口碑最好?
日期:2023-02-08瀏覽次數(shù):1647次
-
自主學(xué)習(xí)銅陵app開發(fā)是否值得?
日期:2021-02-05瀏覽次數(shù):1978次
-
怎樣的銅陵直播定制app方案比較專業(yè)?
日期:2021-02-05瀏覽次數(shù):1887次
-
銅陵做網(wǎng)站:公司網(wǎng)站設(shè)計(jì)有哪些使用技巧?
日期:2020-09-14瀏覽次數(shù):1828次
-
銅陵網(wǎng)站制作:對(duì)網(wǎng)站的設(shè)計(jì)需要注意哪些?
日期:2020-09-14瀏覽次數(shù):1931次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
杭州網(wǎng)站建設(shè)_談?wù)勛霭俣雀?jìng)價(jià)推廣有那些技巧
日期:2012-03-29瀏覽次數(shù):10077次
-
杭州企業(yè)有好的產(chǎn)品該怎么進(jìn)行杭州營(yíng)銷推廣?
日期:2021-04-09瀏覽次數(shù):4576次
-
如何增加杭州網(wǎng)站優(yōu)化的反鏈值
日期:2021-08-12瀏覽次數(shù):3866次
-
杭州企業(yè)想通過(guò)杭州定制app推廣品牌價(jià)值,可采用哪些方案?
日期:2021-08-30瀏覽次數(shù):4194次
-
杭州app開發(fā)公司:選擇合適的開發(fā)企業(yè)
日期:2024-11-27瀏覽次數(shù):703次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場(chǎng)趨勢(shì)演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場(chǎng)環(huán)境、衡量與預(yù)測(cè)市場(chǎng)需求、整合區(qū)別于行業(yè)競(jìng)爭(zhēng)對(duì)手的絕對(duì)優(yōu)勢(shì),結(jié)合品牌理念深度挖掘項(xiàng)目?jī)?yōu)勢(shì)和產(chǎn)品價(jià)值,提升客戶品牌認(rèn)知、認(rèn)可度。
-
我們的客戶
帷拓科技?xì)v經(jīng)十年沉淀,與國(guó)內(nèi)外上千家客戶達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂(lè)部、娃哈哈雙語(yǔ)學(xué)校、健康中國(guó)杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專業(yè),才能拓展無(wú)限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營(yíng)業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設(shè)、公眾號(hào)運(yùn)營(yíng)以及數(shù)字營(yíng)銷等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場(chǎng)洞察力、創(chuàng)新的市場(chǎng)策劃能力,全面把握市場(chǎng)變化,為客戶實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。