【杭州網(wǎng)站設(shè)計(jì)】數(shù)據(jù)戰(zhàn)爭——直面海量處理+實(shí)時(shí)分析的雙重挑戰(zhàn)
分享 2011.07.08 瀏覽次數(shù):6704次
時(shí)至今日,“Bigdata”(大數(shù)據(jù))時(shí)代的來臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè), 幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。在這其中,還挾裹著一個(gè)更為重要的趨勢,即數(shù)據(jù)的社會(huì)化(Socialization of Data)。從博客論壇到游戲社區(qū)再到微博,從互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類以及各類物理實(shí)體的實(shí)時(shí)聯(lián)網(wǎng)已經(jīng)而且還將繼續(xù)產(chǎn)生難以估量的數(shù)據(jù)。對于時(shí)刻關(guān)注市場走向的企業(yè)來講,他們需要關(guān)注的數(shù)據(jù)顯然已經(jīng)不僅限于企業(yè)內(nèi)部數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù),還要包括互聯(lián)網(wǎng)(以及未來的物聯(lián)網(wǎng))上各類網(wǎng)絡(luò)活動(dòng)所產(chǎn)生的相關(guān)數(shù)據(jù)記錄。
顯然,大數(shù)據(jù)是一種創(chuàng)新,它在任何時(shí)候都知道你在哪里。我們可以以有效方式利用這些數(shù)據(jù),而且已經(jīng)看到了市場需求。
日前,在北京舉辦的大數(shù)據(jù)世界論壇上,內(nèi)存計(jì)算、實(shí)時(shí)查詢、有效的存儲管理、智能挖掘分析,成為了眾多IT人士關(guān)注的焦點(diǎn)。
用戶需求——海量+實(shí)時(shí)分析
來自IDC全球存儲及大數(shù)據(jù)研究項(xiàng)目副總裁Benjamin Woo表示,到2020年,全球數(shù)據(jù)使用量預(yù)計(jì)暴增44倍,達(dá)到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是說全球大概需要376億個(gè)1TB硬盤來存儲數(shù)據(jù)。
而另一個(gè)需求則來自于對海量數(shù)據(jù)的實(shí)時(shí)查詢訪問需求。在數(shù)據(jù)倉庫誕生的第一天,一直就有一個(gè)話題,要把大查詢分解成小任務(wù),這些小任務(wù)由一臺臺的機(jī)器來完成。
“我們的要求在于,上億條數(shù)據(jù)的分析能夠在5秒鐘內(nèi)完成”,中國民族證券信息技術(shù)部總經(jīng)理顏陽表示,在證券行業(yè)由于發(fā)展的波動(dòng)性很大,因此證券公司的投入也是基于量入為出,采用了MPP(大規(guī)模并行處理)架構(gòu)的數(shù)據(jù)庫(數(shù)據(jù)倉庫)。其基本特征在于是由多個(gè)SMP服務(wù)器通過節(jié)點(diǎn)互連,而每個(gè)節(jié)點(diǎn)只能訪問本地資源,是一種完全無共享的結(jié)構(gòu),因此擴(kuò)展性很好。當(dāng)基于此數(shù)據(jù)庫來開發(fā)應(yīng)用時(shí),不需要考慮服務(wù)器由多少節(jié)點(diǎn)組成,也不需要考慮負(fù)載問題。
顯然,和NUMA架構(gòu)(非一致性存儲訪問)相比,MPP的優(yōu)勢在于更適合復(fù)雜的數(shù)據(jù)總和分析與處理。當(dāng)然它也需要借助支持MPP的數(shù)據(jù)庫系統(tǒng)來屏蔽節(jié)點(diǎn)之間的負(fù)載均衡與調(diào)度復(fù)雜性。
同時(shí),顏陽也給出了BI和ETL工具選型建議——兼容性、操作性、功能性、展現(xiàn)力、維護(hù)性。他表示,在數(shù)據(jù)中心,每一個(gè)轉(zhuǎn)換要保證數(shù)據(jù)的完整性和準(zhǔn)確性,要進(jìn)行安全性的管理和控制,這些都要通過開發(fā)工具加上適度的編程來實(shí)現(xiàn)。如果開發(fā)團(tuán)隊(duì)對這個(gè)工具的理解和整合程度不好的話,最后的數(shù)據(jù)倉庫的數(shù)據(jù)會(huì)形成很多垃圾,甚至造成很多錯(cuò)誤的數(shù)據(jù)出現(xiàn)。因此,要兼顧五個(gè)方面去開展。
大數(shù)據(jù)并不等于IT重構(gòu)
本次大會(huì)傳遞出來的另一個(gè)信息是,對真正需要大數(shù)據(jù)的企業(yè)而言,大數(shù)據(jù)的需求并不等于IT重構(gòu)。
實(shí)際上,并非所有的數(shù)據(jù)都需要進(jìn)行分析,對企業(yè)而言,核心在于找出關(guān)鍵的數(shù)據(jù),并運(yùn)用適合MPP系統(tǒng)的相干數(shù)據(jù),得到一些結(jié)構(gòu)化的數(shù)據(jù),而一些非結(jié)構(gòu)化的數(shù)據(jù),可以用Hadoop進(jìn)行處理。
另一方面,大數(shù)據(jù)的基礎(chǔ)架構(gòu)需要的是前瞻性,隨著數(shù)據(jù)的不斷增長,用戶需要從硬體、軟件層面思考需要什么樣的架構(gòu)去實(shí)現(xiàn)。必然,未來需要的是一個(gè)能夠支持非常好的、可擴(kuò)張性的、對文件存儲友好的文件系統(tǒng)。
目前,不管是IBM、EMC還是SAP都推出了自己的Bigdata Total solution,從中對比我們可見一斑。
IBM——數(shù)據(jù)倉庫一體機(jī)
IBM將數(shù)據(jù)倉庫做成了硬件化的產(chǎn)品,標(biāo)配Power服務(wù)器、存儲,再加上剛收購的Netezza。Netezza新型數(shù)據(jù)倉庫一體機(jī)渠道經(jīng)理鄭曉軍表示,“凡是玩過云計(jì)算、Hadoop的用戶,對于Netezza的環(huán)境搭建只是小菜一碟。”據(jù)了解,Netezza一體機(jī)是一個(gè)小型的、成集成度很高的多機(jī)并行處理環(huán)境。其架構(gòu)基于MPP,由兩個(gè)Hosts系統(tǒng)接受查詢請求,查詢語句將分散成幾十個(gè)或者上百個(gè)分片,傳給第二層,第二層的每一個(gè)單元是一樣的(內(nèi)部名稱S-Blades分區(qū)內(nèi)存),再把每一個(gè)分片看成MPP環(huán)境中的每一臺機(jī)器,中間的網(wǎng)絡(luò)構(gòu)成MPP網(wǎng)絡(luò)。
當(dāng)數(shù)據(jù)存進(jìn)去的時(shí)候,會(huì)把數(shù)據(jù)平均的分在所有的節(jié)點(diǎn)上,節(jié)點(diǎn)的均衡是由Netezza自己來決定的。數(shù)據(jù)存在硬盤的時(shí)候用的格式是“Zone Maps”,把一張表里所有的字段,根據(jù)值不同,分了所有的分片。有了Zone Maps之后,F(xiàn)PGA掃描的時(shí)候,只會(huì)讀取那些包含記錄的區(qū)域,這些地方硬盤加速效率很高的。如果數(shù)據(jù)修改的話,會(huì)在新增添的數(shù)據(jù)記錄里面增添,定時(shí)會(huì)對數(shù)據(jù)重組,進(jìn)行壓縮,這些都是通過后臺進(jìn)程管理的。
EMC——自服務(wù)數(shù)據(jù)倉庫
Greenplum Chorus是EMC的數(shù)據(jù)云平臺,堆棧了各種大數(shù)據(jù)分析工具(業(yè)務(wù)分析、BI、統(tǒng)計(jì)等)。
EMC中國研發(fā)中心首席技術(shù)官陶波表示,Greenplum Chorus構(gòu)成主要由自助式的調(diào)配、數(shù)據(jù)服務(wù)協(xié)作分析所組成。當(dāng)用戶同時(shí)部署Chorus、VMware、Greenplum后,可以完全實(shí)現(xiàn)自服務(wù),自服務(wù)可以是一個(gè)服務(wù)器,也可以生成一個(gè)沙箱,而這個(gè)沙箱既可以基于虛擬化的IT云計(jì)算平臺上,也可以是在Greenplum的數(shù)據(jù)庫上。同時(shí),用戶可以把在企業(yè)云里面其他的原數(shù)據(jù)導(dǎo)入到自己的沙箱中進(jìn)行操作。與此同時(shí),開發(fā)者還可以創(chuàng)造一個(gè)合作環(huán)境,在分享數(shù)據(jù)的同時(shí)要控制授權(quán),避免私人數(shù)據(jù)被不適當(dāng)?shù)氖褂?。比如寫一段R代碼,并把R代碼進(jìn)行分享,同時(shí)看到別人的評論,可以隨時(shí)隨地的進(jìn)行自己的工作。
SAP——內(nèi)存計(jì)算+開放平臺
SAP在此次大會(huì)上提出了開放的內(nèi)存計(jì)算平臺HANA,據(jù)SAP解決方案和架構(gòu)部總經(jīng)理張志琦介紹,HANA將成為SAP未來的平臺,未來所有的應(yīng)用都會(huì)發(fā)布在HANA平臺之上,并且用作實(shí)時(shí)分析。而HANA將主要用于實(shí)時(shí)處理大量交易數(shù)據(jù)的軟件,包括數(shù)據(jù)建模、數(shù)據(jù)和生命周期管理、安全、運(yùn)營的工具,基于行業(yè)標(biāo)準(zhǔn)為多個(gè)接口提供支持。
“內(nèi)存比磁盤計(jì)算快1000000倍,傳統(tǒng)數(shù)據(jù)庫磁盤讀取速度是5毫秒,內(nèi)存數(shù)據(jù)庫磁盤讀取速度是5納秒。用戶可以利用內(nèi)存高速的性能,更快速的獲取數(shù)據(jù)、匯總數(shù)據(jù)、分析數(shù)據(jù)。此外,大數(shù)據(jù)時(shí)代,一臺服務(wù)器不一定夠,用戶可以通過分而治之的方式將動(dòng)態(tài)的服務(wù)器分到不同的節(jié)點(diǎn)上,快速的進(jìn)行數(shù)據(jù)分散計(jì)算、數(shù)據(jù)分散匯總、獲取更快速的結(jié)果。每臺服務(wù)器還有更多的CPU,可以在總的內(nèi)存計(jì)算中更給力。所有的數(shù)據(jù)都可以通過分布式的環(huán)境。”
張志琦表示,“HANA將是一個(gè)開放的平臺,SAP將和業(yè)務(wù)伙伴等在HANA之上開發(fā)應(yīng)用,體現(xiàn)更多的支持。SAP HANA平臺將支持更多的內(nèi)存應(yīng)用程序,比如報(bào)表、運(yùn)營報(bào)告、能力分析加速器,更多的獲取價(jià)值。HANA不僅僅是分析應(yīng)用,更多的是一個(gè)業(yè)務(wù)應(yīng)用。我們希望企業(yè)可以在不需要IT人員關(guān)注的情況下就可以獲得信息的獲取。這本身是SAP HANA平臺提供的能力。”
數(shù)據(jù)分析職業(yè)未來很吃香
隨著大數(shù)據(jù)的流行,可以預(yù)見的是,數(shù)據(jù)分析師將是將來最熱門的行業(yè)之一,大量的行業(yè)比如政府、能源行業(yè)、互聯(lián)網(wǎng)行業(yè)都需要數(shù)據(jù)科學(xué)家,而這些數(shù)據(jù)科學(xué)家要不斷的提出關(guān)鍵性、對業(yè)務(wù)有重大啟示性的問題。阿里巴巴目前已經(jīng)有一百多個(gè)數(shù)據(jù)分析家,他們不同的部門都在對數(shù)據(jù)進(jìn)行分析,共享對于數(shù)據(jù)的分析以及和數(shù)據(jù)管理員、企業(yè)管理層形成合作性的數(shù)據(jù)分析。
Informatica企業(yè)數(shù)據(jù)集成產(chǎn)品管理總監(jiān)鄭瑋表示,大數(shù)據(jù)分析師可能會(huì)有越來越大的需要,可能是IT組織的一部分,也可能是業(yè)務(wù)組織的一部分。從互聯(lián)網(wǎng)的情況來看,提供用戶的價(jià)值,可以發(fā)掘很多用戶價(jià)值,比如汽車銷售等等有直接的銷售影響。在世界的各個(gè)地方,尤其是一些數(shù)據(jù)比較多的、比較成熟的行業(yè)中,會(huì)有大量的數(shù)據(jù)分析、數(shù)據(jù)科學(xué)家的需求。
Teradata天睿公司首席客戶官周俊凌談到,企業(yè)必須要有一些專注于數(shù)據(jù)研究的科學(xué)家,一旦有了數(shù)據(jù)科學(xué)家,企業(yè)需要對數(shù)據(jù)科學(xué)要進(jìn)行相關(guān)培訓(xùn),了解相關(guān)的業(yè)務(wù)。
IBM硅谷實(shí)驗(yàn)室大數(shù)據(jù)項(xiàng)目總監(jiān)Steven Sitze則認(rèn)為,現(xiàn)在一些大的企業(yè)都有數(shù)據(jù)分析師。而這些數(shù)據(jù)分析師現(xiàn)在并沒有分析大量或者子類型的數(shù)據(jù),這在發(fā)展工具上會(huì)有很大的機(jī)會(huì)。對企業(yè)而言,光有一個(gè)大數(shù)據(jù)的平臺是不夠的,要有一些發(fā)展的工具幫助他們利用來展示大數(shù)據(jù)的分析展示能力。
觀察:大數(shù)據(jù)產(chǎn)業(yè)才剛剛上路
對數(shù)據(jù)存儲廠商來說,不管是大數(shù)據(jù)還是海量數(shù)據(jù)還是有不少挑戰(zhàn)存在,首當(dāng)其沖的是,他們必須要強(qiáng)化關(guān)聯(lián)式數(shù)據(jù)庫的效能,增加數(shù)據(jù)管理和數(shù)據(jù)壓縮的功能。
因?yàn)檫^往關(guān)聯(lián)性數(shù)據(jù)庫產(chǎn)品處理大量數(shù)據(jù)時(shí)的運(yùn)算速度都不快,需要引進(jìn)新技術(shù)比如Hadoop來加速數(shù)據(jù)查詢的功能。另外,數(shù)據(jù)存儲的廠商也開始嘗試不只采用傳統(tǒng)硬盤來存儲數(shù)據(jù),像是使用快速閃存的數(shù)據(jù)庫、閃存數(shù)據(jù)庫等,都逐漸產(chǎn)生。
另一個(gè)挑戰(zhàn)就是傳統(tǒng)關(guān)聯(lián)性數(shù)據(jù)庫無法分析非結(jié)構(gòu)化數(shù)據(jù),因此,并購具有分析非結(jié)構(gòu)化數(shù)據(jù)的廠商以及數(shù)據(jù)管理廠商,是目前數(shù)據(jù)存儲大廠擴(kuò)展實(shí)力的方向。
同時(shí),數(shù)據(jù)管理的影響也在于對數(shù)據(jù)安全的考量。IDC軟件市場分析師吳乃沛表示,大數(shù)據(jù)對于存儲技術(shù)與資源安全也都會(huì)產(chǎn)生沖擊。首先,快照、重復(fù)數(shù)據(jù)刪除等技術(shù)在大數(shù)據(jù)時(shí)代都很重要,就衍生了數(shù)據(jù)權(quán)限的管理。
舉例來說,現(xiàn)在企業(yè)后端與前端所看到的數(shù)據(jù)模式并不一樣,當(dāng)企業(yè)要處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),就必須制定出是IT部門還是業(yè)務(wù)單位才是數(shù)據(jù)管理者。由于這牽涉的不僅是技術(shù)問題,還有公司政策的制定,因此界定出數(shù)據(jù)管理者是企業(yè)目前最頭痛的問題,而這一切,對大數(shù)據(jù)而言,不管是技術(shù)還是應(yīng)用都才剛剛上路。
杭州網(wǎng)站設(shè)計(jì)公司 杭州網(wǎng)站建設(shè)公司 杭州網(wǎng)站制作公司 杭州網(wǎng)站設(shè)計(jì) 杭州網(wǎng)站建設(shè) 杭州網(wǎng)站制作 杭州精品網(wǎng)站制作 杭州精典網(wǎng)站制作 杭州精品網(wǎng)站設(shè)計(jì)
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):256次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):349次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):366次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):607次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):586次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
南通定制app開發(fā)商需要哪些開發(fā)技術(shù)?
日期:2020-11-05瀏覽次數(shù):1974次
-
個(gè)人南通app開發(fā),大概需要多久?
日期:2020-11-05瀏覽次數(shù):1848次
-
南通做網(wǎng)站,院系網(wǎng)站如何提升特色?
日期:2020-09-27瀏覽次數(shù):1772次
-
南通網(wǎng)站制作有哪些重要部分?
日期:2020-09-27瀏覽次數(shù):1795次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
如何實(shí)現(xiàn)出自己的網(wǎng)站更加有價(jià)值
日期:2016-09-27瀏覽次數(shù):5170次
-
韶關(guān)網(wǎng)站優(yōu)化:網(wǎng)頁設(shè)計(jì)公司是如何看待極簡風(fēng)格的
日期:2020-10-10瀏覽次數(shù):2014次
-
牡丹江app開發(fā):原生app的后臺開發(fā)
日期:2020-11-12瀏覽次數(shù):1877次
-
杭州網(wǎng)站建設(shè):建設(shè)自適應(yīng)杭州網(wǎng)站有什么好處?
日期:2021-07-08瀏覽次數(shù):3810次
-
杭州高端網(wǎng)站建設(shè)的功能、注意事項(xiàng)、選擇
日期:2021-10-08瀏覽次數(shù):3931次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場環(huán)境、衡量與預(yù)測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結(jié)合品牌理念深度挖掘項(xiàng)目優(yōu)勢和產(chǎn)品價(jià)值,提升客戶品牌認(rèn)知、認(rèn)可度。
-
我們的客戶
帷拓科技?xì)v經(jīng)十年沉淀,與國內(nèi)外上千家客戶達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學(xué)校、健康中國杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專業(yè),才能拓展無限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設(shè)、公眾號運(yùn)營以及數(shù)字營銷等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。