MapReduce與SQL會發(fā)生化學反應嗎?
分享 2011.11.18 瀏覽次數(shù):7406次
Google在2004年創(chuàng)造了MapReduce,MapReduce集群可包括數(shù)以千計的并行操作的計算機。同時MapReduce允許程序員在如此龐大的集群中快速的轉換數(shù)據(jù)并執(zhí)行數(shù)據(jù)。
從MapReduce到Hadoop,這其中經(jīng)歷了一個有趣的轉變。MapReduce最初是幫助搜索引擎公司應對萬維網(wǎng)所帶來的創(chuàng)建索引時產(chǎn)生的大量數(shù)據(jù)。Google最初也招募了一些硅谷的精英,并雇用了大批的工程師來完善MapReduce。并快速將技術應用在相關的行業(yè)之中,如金融、零售等。Goolge曾拿出MapReduce的部分相關信息與Nutch團隊分享,以開發(fā)開源版本“Hadoop”。但Yahoo則將Nutch收入到旗下。Yahoo在2007年將其發(fā)展成Hadoop開源項目。Hadoop現(xiàn)在越來越多的用于大數(shù)據(jù)的大規(guī)模并行數(shù)據(jù)處理引擎。
現(xiàn)今大家都熱衷于大數(shù)據(jù)領域。開源的項目如Apache Hive、Pig。以及像MapR和Hadapt這樣的創(chuàng)業(yè)公司。眾所周知,如果MapReduce和Hadoop中用來進行數(shù)據(jù)分析的應用編寫起來過于復雜的話,那么就需要優(yōu)秀程序員處理,這并不利于MapReduce技術的發(fā)展。所以現(xiàn)今所有Hadoop供應商都亟待解決的一個問題就是如何將 MapReduce變得更易于使用。
企業(yè)大數(shù)據(jù)與敏捷大數(shù)據(jù)
從IT角度來看,信息結構類型大致經(jīng)歷了三次浪潮。必須注意這一點,新的浪潮并沒取代舊浪潮,它們仍在不斷發(fā)展,三種數(shù)據(jù)結構類型一直存在,只是其中一種結構類型往往主導于其他結構:
結構化信息——這種信息可以在關系數(shù)據(jù)庫中找到,多年來一直主導著IT應用。這是關鍵任務OLTP系統(tǒng)業(yè)務所依賴的信息,另外,還可對結構數(shù)據(jù)庫信息進行排序和查詢;
半結構化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發(fā)布在網(wǎng)絡上的信息。半結構化信息是以內容為基礎,可以用于搜索,這也是谷歌存在的理由;
非結構化信息——該信息在本質形式上可認為主要是位映射數(shù)據(jù)。數(shù)據(jù)必須處于一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽或被看)。許多大數(shù)據(jù)都是非結構化的,其龐大規(guī)模和復雜性需要高級分析工具來創(chuàng)建或利用一種更易于人們感知和交互的結構。
而面對網(wǎng)絡中三種類型信息的挑戰(zhàn),大數(shù)據(jù)的發(fā)展趨勢逐漸明朗。在今年9月于紐約召開的O‘Reilly Strata大會上就將發(fā)展趨勢概括為企業(yè)大數(shù)據(jù)和敏捷大數(shù)據(jù)。企業(yè)大數(shù)據(jù)是最具挑戰(zhàn)性的問題,也是企業(yè)盈利的需要解決的問題。而敏捷大數(shù)據(jù)是另外一個需要關注的問題。如Greenplum和Aster等在企業(yè)BI領域都有涉足。
如果事實證明大數(shù)據(jù)必須購買企業(yè)級的產(chǎn)品,那么就意味著大數(shù)據(jù)會花大本錢。但這并非絕對,通過使用大數(shù)據(jù)敏捷技術,各種規(guī)模的企業(yè)都可以控制成本,從大數(shù)據(jù)中獲益。至關重要的是盡可能降低成本并最大化的了解大數(shù)據(jù)集,一旦數(shù)據(jù)被轉化為可用便具有對業(yè)務的洞察力,然后以各種方式將問題匯總,并發(fā)揮企業(yè)技術的優(yōu)勢解決問題。
MapReduce易用性是其發(fā)展最大障礙
MapReduce系統(tǒng)獲得成功的原因之一是它為編寫需要大規(guī)模并行處理的代碼提供了簡單的編程模式。它受到了Lisp的函數(shù)編程特性和其他函數(shù)式語言的啟發(fā)。MapReduce和云計算非常相配。MapReduce的關鍵特點是它能夠對開發(fā)人員隱藏操作并行語義 — 并行編程的具體工作方式。
但現(xiàn)今,MapReduce很難成為商務人士討論大數(shù)據(jù)的方式。因為要使用MapReduce至少需要以下四種技能。
1.將商業(yè)問題轉換為可分析解決的問題
2.將可分析解決的問題轉換為MapReduce模型
3.調試、編碼、優(yōu)化MapReduce以處理數(shù)據(jù)的能力
4.具備Hadoop和MapReduce的豐富經(jīng)驗,并具備調試部署在Hadoop上代碼的能力
在大數(shù)據(jù)時代下,使用傳統(tǒng)的數(shù)據(jù)庫進行查詢、排序、定義、和提取數(shù)據(jù)時顯得有些力不從心。而處理大數(shù)據(jù)業(yè)務的本質(如MapReduce)需要更多的技能。但大批雇傭這些高技能人才是不現(xiàn)實的。
SQL與MapReduce 傳統(tǒng)與現(xiàn)代的結合
SQL對于編程專家和業(yè)務分析師用來查詢數(shù)據(jù)來說是非常熟悉的模式。而MapReduce的魅力在于有能力處理程序方案中相對復雜的搜索查詢。如果將兩者結合起來會帶來什么樣的變化?
Aster已經(jīng)提供了一種被稱為SQL-MapReduce的框架,這個框架可以使數(shù)據(jù)科學家和商業(yè)分析師對復雜的信息進行快速調查分析,允許一組關聯(lián)計算機(計算機群集)使用軟件語言(如 Java、C#、Python、C++ 和 R)并行進行程序表達,然后通過標準SQL 激活(調用)使用。
而Greenplum提供支持SQL和MapReduce并行處理功能,并能以較低的成本處理TB量級到PB量級企業(yè)數(shù)據(jù)。Greenplum整合了MapReduce和SQL技術,并且將直接在Greenplum的并行數(shù)據(jù)流引擎(位于Greenplum數(shù)據(jù)引擎的中心)內部直接執(zhí)行 MapReduce和SQL。Greenplum MapReduce可以使程序員對儲存在Greenplum數(shù)據(jù)引擎內部和外部的PB量級規(guī)模的數(shù)據(jù)集進行分析。帶來的好處是應對不斷增長的標準編程模型來滿足關系數(shù)據(jù)庫的可靠性和熟悉性。
同時像微軟這樣的領導廠商也參與其中。微軟已經(jīng)推出了Hadoop與SQL Server的連接工具,客戶將能夠在Hadoop、SQL Server和并行數(shù)據(jù)倉換環(huán)境下相互交換數(shù)據(jù)。與此同時,微軟還與Hortonworks展開深度合作。其目的就是為了將Hortonworks在 Hadoop領域的專長以及微軟產(chǎn)品易用化的特性有機的結合起來,并簡化下載、安裝和配置等幾個Hadoop的相關技術。
未來隨著SQL和MapReduce技術結合的不斷完善,MapReduce將變得更容易使用,并廣泛的受到關注。相信我,時間會證明一切。
標簽:杭州網(wǎng)站建設 SQL 呼叫中心
-
杭州網(wǎng)站設計公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):355次
-
杭州網(wǎng)站建設公司:商城網(wǎng)站建設的六大關鍵步驟
日期:2024-12-18瀏覽次數(shù):447次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設計與域名備案的復雜性探討
日期:2024-12-18瀏覽次數(shù):462次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):703次
-
杭州網(wǎng)站設計公司:數(shù)據(jù)庫在高端網(wǎng)站制作中的關鍵作用
日期:2024-12-11瀏覽次數(shù):673次
相關新聞
整合同類新聞,相關新聞一手掌握
-
如何合理選擇龍巖app開發(fā)公司?
日期:2021-02-06瀏覽次數(shù):1985次
-
電臺類龍巖app開發(fā)對生活的作用
日期:2021-02-06瀏覽次數(shù):2023次
-
龍巖網(wǎng)站優(yōu)化,對于龍巖網(wǎng)站有哪些益處?
日期:2020-10-16瀏覽次數(shù):2279次
-
龍巖網(wǎng)頁設計的色彩搭配
日期:2020-10-16瀏覽次數(shù):1876次
-
杭州網(wǎng)站設計:整體頁面的顏色搭配
日期:2020-09-02瀏覽次數(shù):1923次
最新新聞
與互聯(lián)網(wǎng)同行,實時掌握網(wǎng)建行業(yè)最新動態(tài)
-
影響網(wǎng)站建設水平的因素
日期:2019-07-19瀏覽次數(shù):4529次
-
杭州定制app:如何制作一對一直播app
日期:2020-08-05瀏覽次數(shù):4727次
-
邯鄲app開發(fā)依然是大勢所需
日期:2021-03-09瀏覽次數(shù):1921次
-
杭州中小企業(yè)如何進行品牌塑造?
日期:2021-05-31瀏覽次數(shù):4235次
-
人工智能進入“深度學習+”階段
日期:2023-02-14瀏覽次數(shù):5756次
隨機新聞
新聞新動態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會
免費獲取網(wǎng)站建設與網(wǎng)絡推廣方案報價
-
關于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡技術服務供應商,帷拓科技致力于全面分析市場環(huán)境、衡量與預測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結合品牌理念深度挖掘項目優(yōu)勢和產(chǎn)品價值,提升客戶品牌認知、認可度。
-
我們的客戶
帷拓科技歷經(jīng)十年沉淀,與國內外上千家客戶達成合作關系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學校、健康中國杭州峰會、科雷機電等,帷拓科技始終堅持“帷有專業(yè),才能拓展無限”的服務理念,堅持“認真堅持細節(jié)”的優(yōu)質服務理念,不斷完善自身,成就企業(yè),最終實現(xiàn)共贏。
-
我們的業(yè)務
帷拓科技主營業(yè)務范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設、公眾號運營以及數(shù)字營銷等,涵蓋了服務、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個客戶量身定制項目整體服務方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實現(xiàn)從企業(yè)到消費者的價值轉換。