【杭州網(wǎng)站設(shè)計(jì)】構(gòu)化數(shù)據(jù)——RAID模式已過(guò)時(shí)
分享 2011.07.15 瀏覽次數(shù):6486次
一份來(lái)自Novell公司Ponemon研究所針對(duì)對(duì)美國(guó)94個(gè)大型企業(yè)的調(diào)查顯示,平均每個(gè)公司每年花在非結(jié)構(gòu)化數(shù)據(jù)處理上的成本為210萬(wàn)美元;而一些受到嚴(yán)格監(jiān)管的行業(yè),比如金融、制藥、通訊和醫(yī)療行業(yè)的成本最高,每年將達(dá)到250萬(wàn)美元;另一個(gè)來(lái)自Unisphere Research的調(diào)查則顯示,62%的受訪者表示非結(jié)構(gòu)化信息的產(chǎn)生是不可避免的,在未來(lái)十年內(nèi)將超過(guò)傳統(tǒng)數(shù)據(jù)。此外有35%的人表示,在未來(lái)的36個(gè)月里,非結(jié)構(gòu)化的信息量將超過(guò)傳統(tǒng)的關(guān)系數(shù)據(jù)。
據(jù)IDC的預(yù)測(cè),現(xiàn)在全球數(shù)據(jù)量每18個(gè)月就要翻一番,每年全球產(chǎn)生的數(shù)據(jù)量已經(jīng)高達(dá)40EB(1EB=1000PB)。而這些瘋狂增長(zhǎng)的數(shù)據(jù)主要來(lái)自非結(jié)構(gòu)化數(shù)據(jù)。
事實(shí)上,結(jié)構(gòu)化數(shù)據(jù)成為主流早有征兆,2008年,基于文件的存儲(chǔ)系統(tǒng)容量出貨量就以微弱的優(yōu)勢(shì)首次超過(guò)了基于塊的存儲(chǔ)系統(tǒng)容量的出貨量,而近幾年,這一差距正在逐漸拉大,據(jù)Gartner預(yù)計(jì),到2012年,基于文件的存儲(chǔ)系統(tǒng)容量將占到總?cè)萘康?0%。而IDC也同時(shí)預(yù)測(cè),鑒于基于文件類型的非結(jié)構(gòu)化數(shù)據(jù)的增速極快,到2012年,全球存儲(chǔ)市場(chǎng)的總出貨量中將有80%的容量被文件級(jí)數(shù)據(jù)所覆蓋。
顯然,對(duì)于擁有非結(jié)構(gòu)化數(shù)據(jù)處理需求的企業(yè)而言,需要正視它所帶來(lái)的麻煩了。
什么是非結(jié)構(gòu)化數(shù)據(jù)?
非結(jié)構(gòu)化數(shù)據(jù)是相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,結(jié)構(gòu)化數(shù)據(jù)主要是指那些數(shù)字的或能用統(tǒng)一的結(jié)構(gòu)來(lái)表示的數(shù)據(jù),如存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù),這些數(shù)據(jù)基本上是以塊(Block)的形式呈現(xiàn)。而非結(jié)構(gòu)化數(shù)據(jù)是指那些無(wú)法用數(shù)字或統(tǒng)一的結(jié)構(gòu)來(lái)表示的數(shù)據(jù),像文本、圖像、視頻、音頻、報(bào)表、網(wǎng)頁(yè)等都是非結(jié)構(gòu)化數(shù)據(jù),它們大多以文件(File)的形式保存。
實(shí)際上,造成非結(jié)構(gòu)化數(shù)據(jù)激增的原因主要有兩個(gè):一是云時(shí)代的到來(lái)使得數(shù)據(jù)創(chuàng)造的主題由企業(yè)逐漸轉(zhuǎn)向用戶個(gè)體,而個(gè)體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)均為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù);另一方面,信息化技術(shù)的普及使得企業(yè)更多的辦公流程通過(guò)網(wǎng)絡(luò)得以實(shí)現(xiàn),以往紙質(zhì)的表單、票據(jù)等現(xiàn)在都實(shí)現(xiàn)了數(shù)字化存檔,而這方面產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主。
比如Web頁(yè)面,其通常被認(rèn)為是一個(gè)典型的非結(jié)構(gòu)化數(shù)據(jù),盡管基本上所有的網(wǎng)頁(yè)都是由HTML語(yǔ)言組成,具備豐富的結(jié)構(gòu)定義。但是Web頁(yè)面還包含鏈接和引用外部的內(nèi)容,而這些內(nèi)容往往是非結(jié)構(gòu)化的內(nèi)容,如圖像、XML文件、動(dòng)畫(huà)等。
此外,非結(jié)構(gòu)化數(shù)據(jù)也是在客戶關(guān)系管理(CRM)系統(tǒng)中普遍存在,特別是客戶服務(wù)代表和呼叫中心的工作人員的筆記記錄。
面對(duì)由非結(jié)構(gòu)化數(shù)據(jù)+傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)組成的“Big Data”,我們?cè)撊绾螒?yīng)對(duì)呢?
顯然,集成所有這些數(shù)據(jù)將需要推陳出新。40年前的數(shù)據(jù)管理系統(tǒng)需要更高級(jí)的程序能夠管理所有數(shù)據(jù)類型,包括結(jié)構(gòu)化和非結(jié)構(gòu)化,并可滿足分布式數(shù)據(jù)部署在全球網(wǎng)絡(luò)任何地方的需求。
非結(jié)構(gòu)化數(shù)據(jù)——RAID模式已過(guò)時(shí)
在傳統(tǒng)的解決方案中,結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn)是小數(shù)據(jù)大密集的方式,一次數(shù)據(jù)庫(kù)的寫(xiě)入讀出產(chǎn)生的數(shù)據(jù)量只有幾Byte或者是幾KB,但是它需要非常密集的訪問(wèn),對(duì)于一個(gè)大型企業(yè)的數(shù)據(jù)庫(kù)而言,其每秒的調(diào)用次數(shù)一般會(huì)達(dá)到幾十?dāng)?shù)百次,因此對(duì)于數(shù)據(jù)庫(kù)存儲(chǔ)設(shè)備的考量指標(biāo)是IOps,也就是一秒能夠完成的I/O數(shù)量。
因此為了最求更快的查詢速度,企業(yè)開(kāi)始部署擁有更大I/O吞吐能力的SSD硬盤。但是新的問(wèn)題開(kāi)始出現(xiàn),隨著SSD制成的提升(72nm->50nm->32nm->25nm),單點(diǎn)可擦寫(xiě)次數(shù)是在下降的,對(duì)于MLC,50nm的單點(diǎn)擦寫(xiě)10000次,32nm就只有5000次左右,而最新的25nm單點(diǎn)3000次不到。
性能提升的同時(shí)也就意味著可靠性的下降,這實(shí)在是一個(gè)兩難的選擇。
雖然能夠通過(guò)軟件能力提升擦寫(xiě)和磨損均衡算法,但這幾代SSD產(chǎn)品的壽命提升并不明顯。不過(guò)制程提升,容量也大幅度提升,用戶可以通過(guò)冗余更多空間來(lái)?yè)Q取壽命,但這也并非是解決非結(jié)構(gòu)化數(shù)據(jù)的最好辦法。
阿里巴巴運(yùn)維部高級(jí)DBA張瑞表示,如果一套系統(tǒng),雖然設(shè)計(jì)了RAID,但是壞盤后,重建需要十多個(gè)小時(shí),而且整個(gè)系統(tǒng)的性能降級(jí)非常明顯,用戶是根本無(wú)法接受的,所以在考慮系統(tǒng)架構(gòu)上不要總是從最好的方面考慮,而是應(yīng)該從最差的情況考慮。
他表示,從某種意義上而言,重新設(shè)計(jì)新的系統(tǒng),很重要的考慮因素需要考慮壞盤、壞節(jié)點(diǎn)、壞路徑對(duì)系統(tǒng)的影響,而且還要考慮損壞后,如何快速恢復(fù)。
顯然,處理結(jié)構(gòu)化數(shù)據(jù)最好的選擇依然是RAID,畢竟RAID技術(shù)因更大容量硬盤、更便宜的穩(wěn)定性硬盤深受用戶喜愛(ài)。但是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)而言,當(dāng)存儲(chǔ)服務(wù)器里面的磁盤越來(lái)越多,容量越來(lái)越大后,目前的RAID卡技術(shù)也許真的不太適合了,一個(gè)好的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)架構(gòu)將能夠提供非常大的I/O吞吐量,也就是傳輸帶寬。必然的趨勢(shì)是,非結(jié)構(gòu)化數(shù)據(jù)處理使用分布式計(jì)算的方式將會(huì)越來(lái)越多。
RAID不會(huì)以任何方式消亡,但是對(duì)新一代磁盤和新一代的存儲(chǔ)不斷增長(zhǎng)的需求正在開(kāi)放新的擴(kuò)展磁盤保護(hù)的新方法去超越RAID。RAID或許仍然是數(shù)據(jù)保護(hù)一個(gè)重要的部分,但是它將可能會(huì)是其他技術(shù)的補(bǔ)充。
未來(lái)的商業(yè)智能——混合數(shù)據(jù)的需求
對(duì)一個(gè)企業(yè)而言,非結(jié)構(gòu)化數(shù)據(jù)用于BI(商業(yè)智能)的目的不僅僅是分析數(shù)據(jù),更多的的企業(yè)希望的是將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)相結(jié)合進(jìn)行分析,企業(yè)希望能夠分析各種各樣的數(shù)據(jù)流:比如混合數(shù)據(jù)。
從傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)來(lái)看,他們對(duì)非結(jié)構(gòu)化數(shù)據(jù)的支持非常好。因此,數(shù)據(jù)倉(cāng)庫(kù)新興的架構(gòu)體系觀點(diǎn)是:將非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在像Hadoop這樣的分布式架構(gòu)中,并對(duì)這些數(shù)據(jù)做基本的分析工作。最后創(chuàng)建摘要信息傳遞到正在使用的數(shù)據(jù)倉(cāng)庫(kù)做進(jìn)一步分析,企業(yè)還可以通過(guò)直接合并兩個(gè)不同的環(huán)境或通過(guò)例如Hadoop中聯(lián)合查詢的方式實(shí)現(xiàn)。
但現(xiàn)實(shí)的問(wèn)題是傳統(tǒng)的BI工具不支持在同一查詢中分析查找結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。相反,你必須使用MapReduce或其他一些基于SQL的工具。
然而這并不意味著不存在合適的可同時(shí)處理結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù)的工具。例如Endeca Latitude和CXAIR都支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合查詢功能。
這兩種產(chǎn)品實(shí)現(xiàn)的方法不同,但基本理念相同。就是從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu),然后直接結(jié)合結(jié)構(gòu)化數(shù)據(jù)。這兩款產(chǎn)品都非常容易使用。而且允許用戶集中瀏覽數(shù)據(jù),而不僅僅是產(chǎn)生報(bào)告。
目前來(lái)看,這兩家廠商在自己的市場(chǎng)方針上還是不同的。具體來(lái)說(shuō)Latitude主要開(kāi)發(fā)分析應(yīng)用程序,支持混合數(shù)據(jù)的瀏覽。而CXAIR則更傾向于傳統(tǒng)BI市場(chǎng)。
但似乎兩個(gè)廠商都沒(méi)有一個(gè)完美的解決方案可應(yīng)對(duì)所有混合數(shù)據(jù)所帶來(lái)的問(wèn)題。
共同點(diǎn)是,他們都明確選擇倉(cāng)庫(kù)存儲(chǔ)體系結(jié)構(gòu)。毫無(wú)疑問(wèn),內(nèi)置Endeca和Connexica技術(shù)并具有處理非結(jié)構(gòu)化數(shù)據(jù)功能是BI領(lǐng)導(dǎo)廠商所必需具備的。
分布式架構(gòu)將是最終的選擇
對(duì)于大型組織而言,處理非結(jié)構(gòu)化數(shù)據(jù)的能力的確是有必要的,但對(duì)于較小規(guī)模的公司,潛在的問(wèn)題是這一解決方案成本過(guò)高。
云數(shù)據(jù)庫(kù)能否克服多年來(lái)一直困擾傳統(tǒng)數(shù)據(jù)庫(kù)的擴(kuò)展性和性能的問(wèn)題。照目前的情況來(lái)看,為了獲取云數(shù)據(jù)庫(kù)的數(shù)據(jù),需要求數(shù)據(jù)管理技術(shù)在一個(gè)集中的位置存儲(chǔ)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)。除此之外,還有一個(gè)嚴(yán)重的限制,就是傳統(tǒng)數(shù)據(jù)管理技術(shù)在管理非結(jié)構(gòu)化數(shù)據(jù)帶來(lái)的問(wèn)題。
一種替代方法是將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù),例如Teradata的Aster Data或EMC的Greenplum,他們支持原生MapReduce提供的所有功能。但是如果嘗試這樣做的話會(huì)遇到擴(kuò)展性的問(wèn)題。
而分布式計(jì)算則完美地解決了擴(kuò)展性的問(wèn)題,因此目前幾乎所有的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)分析廠商都開(kāi)始宣布支持以Hadoop或Mapreduce為代表的分布式技術(shù),這也是必然之選(但是所有的商業(yè)化的數(shù)據(jù)倉(cāng)庫(kù)軟件都是價(jià)格不菲)。
當(dāng)然,對(duì)企業(yè)而言,另一個(gè)挑戰(zhàn)在于作出重大改變來(lái)應(yīng)對(duì)新的挑戰(zhàn),而這些改變包括新架構(gòu)部署的費(fèi)用,提高監(jiān)管能力和日益復(fù)雜的IT基礎(chǔ)設(shè)施。
在云計(jì)算的架構(gòu)里,服務(wù)器或存儲(chǔ)設(shè)備將不可避免的比現(xiàn)在更加分散,這帶來(lái)數(shù)據(jù)管理,分布式設(shè)計(jì)和性能的挑戰(zhàn)。例如,一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng),可以查詢分布在跨越多個(gè)地理位置上的數(shù)據(jù)中心的分布式數(shù)據(jù),這是云計(jì)算普及中企業(yè)會(huì)遇到的一個(gè)新問(wèn)題。
傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)不能滿足云數(shù)據(jù)庫(kù)管理系統(tǒng)的需求。集中式的架構(gòu)大部分是40年前設(shè)計(jì)的。這阻礙了他們被有效的分布式的存儲(chǔ)在數(shù)據(jù)中心之中。為了滿足云數(shù)據(jù)庫(kù)管理系統(tǒng)的最關(guān)鍵的特性,需要一個(gè)分布式的對(duì)等架構(gòu)。
企業(yè)需要數(shù)據(jù)管理的技術(shù),可有效的獲取任何格式的數(shù)據(jù),并分布在全球網(wǎng)絡(luò)的任何地方。無(wú)需上傳或下載大量的數(shù)據(jù)在互聯(lián)網(wǎng)上,這將是未來(lái)對(duì)云計(jì)算網(wǎng)絡(luò)的基本要求。
- 標(biāo)簽:
杭州網(wǎng)站設(shè)計(jì)公司 杭州網(wǎng)站建設(shè)公司 杭州網(wǎng)站制作公司 杭州網(wǎng)站設(shè)計(jì) 杭州網(wǎng)站建設(shè) 杭州網(wǎng)站制作 杭州精品網(wǎng)站制作 杭州精典網(wǎng)站制作 杭州精品網(wǎng)站設(shè)計(jì)
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開(kāi)發(fā)助力企業(yè)成長(zhǎng)
日期:2024-12-20瀏覽次數(shù):355次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):447次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):462次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):703次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫(kù)在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):673次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
金華定制app市場(chǎng)前景如何?
日期:2020-10-29瀏覽次數(shù):2287次
-
金華app開(kāi)發(fā):現(xiàn)狀和未來(lái)之路
日期:2020-10-29瀏覽次數(shù):2273次
-
如何讓金華網(wǎng)站制作廣受歡迎?
日期:2020-09-15瀏覽次數(shù):2396次
-
金華網(wǎng)站設(shè)計(jì)有何重要性?
日期:2020-09-15瀏覽次數(shù):2345次
-
你真的了解“小程序定制開(kāi)發(fā)”嗎
日期:2020-06-22瀏覽次數(shù):2371次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
中國(guó)版“谷歌地球”上線 資料陳舊功能欠缺
日期:2010-11-03瀏覽次數(shù):7314次
-
杭州網(wǎng)站建設(shè)|網(wǎng)站設(shè)計(jì)對(duì)SEO的影響
日期:2019-02-15瀏覽次數(shù):5437次
-
如何做好網(wǎng)站建設(shè)時(shí)的運(yùn)營(yíng)問(wèn)題
日期:2019-08-02瀏覽次數(shù):4380次
-
杭州網(wǎng)站建設(shè)如何吸引用戶目光?
日期:2020-05-07瀏覽次數(shù):4316次
-
微信群杭州營(yíng)銷推廣的優(yōu)勢(shì)
日期:2021-08-06瀏覽次數(shù):3696次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場(chǎng)趨勢(shì)演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開(kāi)發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開(kāi)發(fā)、小程序開(kāi)發(fā)為核心的專業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場(chǎng)環(huán)境、衡量與預(yù)測(cè)市場(chǎng)需求、整合區(qū)別于行業(yè)競(jìng)爭(zhēng)對(duì)手的絕對(duì)優(yōu)勢(shì),結(jié)合品牌理念深度挖掘項(xiàng)目?jī)?yōu)勢(shì)和產(chǎn)品價(jià)值,提升客戶品牌認(rèn)知、認(rèn)可度。
-
我們的客戶
帷拓科技?xì)v經(jīng)十年沉淀,與國(guó)內(nèi)外上千家客戶達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂(lè)部、娃哈哈雙語(yǔ)學(xué)校、健康中國(guó)杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專業(yè),才能拓展無(wú)限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營(yíng)業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開(kāi)發(fā)、小程序開(kāi)發(fā)、商城網(wǎng)站建設(shè)、公眾號(hào)運(yùn)營(yíng)以及數(shù)字營(yíng)銷等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場(chǎng)洞察力、創(chuàng)新的市場(chǎng)策劃能力,全面把握市場(chǎng)變化,為客戶實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。