時間:2023-01-29 13:24:51
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇大數(shù)據(jù)量解決方案,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
這正是白宮網(wǎng)站的《大數(shù)據(jù)研究和發(fā)展倡議》所追求的——“通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,獲得知識和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,轉(zhuǎn)變教育和學(xué)習(xí)模式”。
各行各業(yè)都能用得上大數(shù)據(jù),只是對大數(shù)據(jù)重要性的意識程度不同:凱捷咨詢(Capgemini)的調(diào)研結(jié)果顯示,76%能源和自然資源行業(yè)的高管相信公司是數(shù)據(jù)驅(qū)動的,在醫(yī)療醫(yī)藥行業(yè)和生物科技行業(yè)這個數(shù)字為75%,在金融行業(yè)為73%。包括英特爾在內(nèi)的有能力提供大數(shù)據(jù)解決方案的IT廠商正在努力讓各行各業(yè)的企業(yè)切實(shí)感受到大數(shù)據(jù)的魔力。
能否置身事外?
隨著網(wǎng)絡(luò)應(yīng)用和多媒體應(yīng)用的興起,互聯(lián)網(wǎng)成為大數(shù)據(jù)的主要來源。隨之而產(chǎn)生的網(wǎng)絡(luò)營銷調(diào)整圍繞大數(shù)據(jù)而展開。淘寶是國內(nèi)公認(rèn)的對用戶數(shù)據(jù)利用得較好的公司——淘寶網(wǎng)利用大數(shù)據(jù)統(tǒng)計(jì)分析得到諸如“歐洲杯的球隊(duì)勝負(fù)如何影響各隊(duì)球衣的銷量?花露水的最佳搭配是電蚊拍還是痱子粉?”等問題的有趣結(jié)果,并以此為依據(jù)來更好地調(diào)整營銷戰(zhàn)略。
近日,阿里巴巴集團(tuán)宣布,將在集團(tuán)管理層面設(shè)立首席數(shù)據(jù)官崗位(Chief Data Officer),負(fù)責(zé)全面推進(jìn)阿里巴巴集團(tuán)成為“數(shù)據(jù)分享平臺”的戰(zhàn)略。這直接證明了大數(shù)據(jù)對于互聯(lián)網(wǎng)企業(yè)的意義。
別的行業(yè)能不能對大數(shù)據(jù)冷眼旁觀呢?賽迪智庫軟件與信息服務(wù)業(yè)研究所研究員安暉認(rèn)為,雖然目前大數(shù)據(jù)的主要來源是互聯(lián)網(wǎng),但許多以信息流作為核心競爭力,如金融、電信、零售等行業(yè)的機(jī)構(gòu)或企業(yè),其數(shù)據(jù)量也不容低估。例如,美國國家海洋和大氣管理局(NOAA)數(shù)據(jù)中心存儲的數(shù)據(jù)超過20PB,沃爾瑪數(shù)據(jù)中心的存儲能力超過4PB,eBay分析平臺每天處理的數(shù)據(jù)量高達(dá)100PB。并且,由于這些機(jī)構(gòu)和企業(yè)所存儲的數(shù)據(jù)更加有針對性,其數(shù)據(jù)的價值密度更高,進(jìn)行大數(shù)據(jù)處理的意義更強(qiáng),運(yùn)用大數(shù)據(jù)的需求也更為迫切。
安暉以數(shù)個典型行業(yè)為例來說明大數(shù)據(jù)能帶來什么好處——電信行業(yè)可以從龐大的數(shù)據(jù)中分析出不同群體的差異化需求,實(shí)現(xiàn)套餐制定等精準(zhǔn)營銷;制造行業(yè)可以通過整合來自研發(fā)、工程和制造部門的數(shù)據(jù)以實(shí)行并行工程,顯著縮短產(chǎn)品上市時間并提高質(zhì)量;交通行業(yè)可以通過整合和處理相關(guān)數(shù)據(jù),實(shí)現(xiàn)智能交通(管理)與高效物流調(diào)度。
賽迪顧問軟件與信息服務(wù)業(yè)研究中心研究總監(jiān)胡小鵬認(rèn)為,金融行業(yè)中證券、信用卡、電子支付等數(shù)據(jù)規(guī)模龐大,具有使用對象多樣化、信息可靠性、實(shí)時性、保密性要求高等特點(diǎn);電信行業(yè)中大數(shù)據(jù)主要體現(xiàn)為電信業(yè)務(wù)系統(tǒng)產(chǎn)業(yè)的計(jì)費(fèi)賬務(wù)數(shù)據(jù)和用戶信息(包括客戶資料、客戶服務(wù)數(shù)據(jù)等),不僅數(shù)據(jù)量大,而且保存時間長;能源行業(yè)大數(shù)據(jù)主要集中在石油勘探以及電力生產(chǎn)、經(jīng)營、管理等數(shù)據(jù),具有數(shù)據(jù)量大、分散、類型復(fù)雜等特點(diǎn)。其中,在金融行業(yè),利用大數(shù)據(jù)的挖掘和分析改善用戶體驗(yàn)、監(jiān)督欺詐行為、驗(yàn)證合規(guī)性、服務(wù)創(chuàng)新等,從而助力金融智能決策,提升競爭力;而對于電力行業(yè),大數(shù)據(jù)分析有利于電網(wǎng)安全高效運(yùn)行(安全檢測與控制、災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和負(fù)荷預(yù)測)、電力營銷(用戶用電行為分析)、集團(tuán)集中管控與精細(xì)化管理等。
大數(shù)據(jù)這場盛宴上,哪個行業(yè)也不愿意沒有一席之地。
誰能站出來?
大數(shù)據(jù)的熱度可以由英特爾、IBM、EMC、惠普等廠商紛紛推出面向大數(shù)據(jù)的一體化產(chǎn)品和解決方案直接反映出來。
然而,一個不能逃避的現(xiàn)實(shí)是,雖然越來越多的行業(yè)用戶嘗試應(yīng)用大數(shù)據(jù)的解決方案,但是大多數(shù)行業(yè)用戶對于大數(shù)據(jù)的認(rèn)知仍然比較有限。面對林林總總的不同廠商提供的大數(shù)據(jù)解決方案,用戶分不清這些解決方案的差異在哪里,也就不會真正了解哪種解決方案適合自己。
有用戶反映,大數(shù)據(jù)解決方案容易給人的錯覺是該解決方案就是把數(shù)據(jù)分布存儲,再并行處理。即使采用國外廠商的工具,這些工具成熟度不是特別高,導(dǎo)致解決實(shí)際問題的時間過長。
英特爾相關(guān)專家表示,從總體上看,中國大數(shù)據(jù)市場發(fā)展迅速,特征明顯,相關(guān)技術(shù)和應(yīng)用可改進(jìn)和提升的空間巨大。而且大數(shù)據(jù)要落地,必須實(shí)現(xiàn)包括芯片商、軟件企業(yè)等在內(nèi)的IT基礎(chǔ)設(shè)施與服務(wù)層平臺的開放。
英特爾在硬件上的領(lǐng)先無需多言。在軟件層面,考慮到Hadoop的開源特性,很多廠商都有機(jī)會在Hadoop的基礎(chǔ)上推出產(chǎn)品,但行業(yè)解決方案提供商面臨的一個苦惱是,他們不得不進(jìn)行底層開發(fā)。實(shí)際上,底層解決方案是有很多共性的。對行業(yè)解決方案提供商來說,如果有一個由可靠廠商優(yōu)化過的平臺再好不過了。利用這個平臺,行業(yè)解決方案提供商可以拋開重復(fù)的、無意義的勞動,將注意力和精力更加集中在行業(yè)特點(diǎn)上,進(jìn)而開發(fā)出滿足行業(yè)所需的實(shí)打?qū)嵉男袠I(yè)解決方案。在這種情況下,英特爾適時地推出了英特爾Hadoop發(fā)行版,打造一個優(yōu)秀的、高價值的底層平臺。
對于如何從大數(shù)據(jù)中發(fā)掘價值,英特爾指出,這需要在IT基礎(chǔ)設(shè)施與服務(wù)層、數(shù)據(jù)組織與管理層、數(shù)據(jù)分析與發(fā)現(xiàn)層、決策支持與IT服務(wù)層全面引入新的技術(shù),特別是在堪稱大數(shù)據(jù)應(yīng)用“載體”的IT基礎(chǔ)設(shè)施與服務(wù)層,采用基于開放架構(gòu)的平臺將是最佳選擇。
O‘Reilly Strata和Open Source Convention大會委員會主席Edd Dumbill曾指出,使大數(shù)據(jù)真正變得強(qiáng)大的方式之一就是讓上層程序員可以將精力放在數(shù)據(jù)而非底層Hadoop設(shè)施的抽象特征上。他們編寫更簡短的程序,能夠更清晰地表達(dá)出對數(shù)據(jù)所做的處理。這些將有助于為非程序員創(chuàng)建更好的工具。
延伸到企業(yè)層面,“行業(yè)解決方案提供商需要穩(wěn)定性和可用性都足夠好的平臺。在這樣的平臺上,行業(yè)解決方案提供商可以從不必要的重復(fù)性勞動中解放出來,從而把更多的精力放在提供差異化特色方案和服務(wù)上。”英特爾亞太研發(fā)有限公司總經(jīng)理、英特爾軟件與服務(wù)事業(yè)部中國區(qū)總經(jīng)理何京翔的看法類似。進(jìn)而,他解讀了英特爾Hadoop發(fā)行版的優(yōu)勢:“英特爾Hadoop發(fā)行版的優(yōu)勢在于:處理接近于實(shí)時;能在英特爾平臺上實(shí)現(xiàn)最優(yōu)化的性能,比非英特爾發(fā)行版有成倍的增長;通過和電信、智能城市、醫(yī)療等行業(yè)客戶的合作,英特爾Hadoop還做了更進(jìn)一步的優(yōu)化?!?/p>
除了提供平臺,英特爾(中國)行業(yè)合作與解決方案部中國區(qū)總監(jiān)凌琦強(qiáng)調(diào),英特爾還會把大數(shù)據(jù)解決方案的研究和服務(wù)作為投資部門的重點(diǎn)。英特爾的風(fēng)險投資部門也對大數(shù)據(jù)中所涉及的關(guān)鍵平臺、關(guān)鍵應(yīng)用、提供商,給予關(guān)注。
行業(yè)側(cè)重點(diǎn)
英特爾硬件平臺的特點(diǎn)讓其可以用“通吃”來形容,行業(yè)特色則由軟件來體現(xiàn)。
正如英特爾Hadoop發(fā)行版白皮書所指出的,它“為企業(yè)應(yīng)用而優(yōu)化”,其擁有的增強(qiáng)高可靠性、增強(qiáng)分布式文件系統(tǒng)HDFS擴(kuò)展性(使集群的I/O吞吐量能夠隨著節(jié)點(diǎn)數(shù)量的增加而線性增加)、動態(tài)調(diào)整數(shù)據(jù)復(fù)制策略(提高熱點(diǎn)數(shù)據(jù)的并發(fā)訪問能力)、改進(jìn)分布式計(jì)算框架調(diào)度算法(避免并行任務(wù)退化成串行執(zhí)行)、增加Hadoop集群監(jiān)控管理、優(yōu)化HBase查詢、實(shí)現(xiàn)細(xì)粒度的HBase合并調(diào)度控制(避免合并風(fēng)暴)、創(chuàng)建異地HBase大表、均衡負(fù)載等相對開源Hadoop和其他Hadoop發(fā)行版的核心優(yōu)勢在多個行業(yè)中均不可或缺。
滿足用戶的個性化需求
中橋咨詢的一份大數(shù)據(jù)調(diào)查報告顯示,大部分中國用戶還處于“系統(tǒng)整合”階段,需要對來自企業(yè)內(nèi)外部的大量數(shù)據(jù)進(jìn)行收集和整理。
“為什么現(xiàn)在用戶對大數(shù)據(jù)解決方案求賢若渴?”高國輝自問自答,“因?yàn)閭鹘y(tǒng)的技術(shù)和解決方案已經(jīng)無法解決用戶當(dāng)前遇到的諸多應(yīng)用難題,比如實(shí)時交易數(shù)據(jù)的處理和分析等。金融行業(yè)提出‘小核心、大’,電信運(yùn)營商積極構(gòu)建雙活的數(shù)據(jù)中心都是從各自的實(shí)際需求出發(fā),以應(yīng)對大數(shù)據(jù)帶來的新挑戰(zhàn)。美國的某電信運(yùn)營商就采用戴爾的SharePlex技術(shù)構(gòu)建了雙活的數(shù)據(jù)中心?!?/p>
其實(shí),無論企業(yè)的數(shù)據(jù)量有多大,數(shù)據(jù)是結(jié)構(gòu)化還是非結(jié)構(gòu)化,戴爾都可以提供具有針對性的解決方案。Spansion是一家知名的制造企業(yè),它希望通過升級現(xiàn)有的數(shù)據(jù)庫來更好地支持其關(guān)鍵統(tǒng)計(jì)流程,從而達(dá)到提升業(yè)績的目標(biāo)。為此,它采用了戴爾的SharePlex技術(shù)對原有的Oracle數(shù)據(jù)庫進(jìn)行升級,不僅安全地完成了數(shù)據(jù)庫的遷移,而且節(jié)省了大量資金。
“諸如此類的例子還有許多?!备邍x介紹說,“不同的用戶,在大數(shù)據(jù)方面的需求不同,而且對價格的敏感度不同,這就決定了用戶在選擇大數(shù)據(jù)解決方案時有其‘個性化’的需求。比如,許多互聯(lián)網(wǎng)企業(yè)十分熱衷采用基于Hadoop的解決方案,就是考慮到經(jīng)濟(jì)性的問題。戴爾的優(yōu)勢就在于,可以為不同的用戶提供適合其需求的大數(shù)據(jù)解決方案?!?/p>
戴爾軟件事業(yè)部已成為戴爾企業(yè)級端到端解決方案的核心組成部分。具體到軟件解決方案本身,戴爾也強(qiáng)調(diào)端到端,比如戴爾軟件可以提供從移動辦公管理到信息數(shù)據(jù)管理再到數(shù)據(jù)中心和云計(jì)算的全面軟件解決方案。其中,信息數(shù)據(jù)管理軟件就與大數(shù)據(jù)直接相關(guān),它包括數(shù)據(jù)庫管理、應(yīng)用系統(tǒng)及數(shù)據(jù)集成,以及大數(shù)據(jù)分析等產(chǎn)品。
全面的軟件解決方案
上文提到的SharePlex以及Boomi等就是用戶比較喜歡的戴爾軟件產(chǎn)品。高國輝舉例說,無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),無論數(shù)據(jù)在本地還是云端,通過Booming都可以實(shí)現(xiàn)整合和統(tǒng)一管理?!霸诖髷?shù)據(jù)方面,我們強(qiáng)調(diào)的是如何幫助客戶實(shí)現(xiàn)簡化。比如,通過戴爾Toad軟件,可以連接不同類型的數(shù)據(jù)庫,借助Boomi還可以將本地的數(shù)據(jù)庫與云中的數(shù)據(jù)相結(jié)合,然后通過戴爾的商業(yè)智能套件進(jìn)行分析和展示,甚至還可以基于戴爾Kitenga軟件進(jìn)行深度數(shù)據(jù)挖掘?!备邍x補(bǔ)充說。
【關(guān)鍵詞】大數(shù)據(jù) 體系架構(gòu) 國產(chǎn)化 自主可控
1 前言
在全球已經(jīng)全面進(jìn)入信息時代的今天,數(shù)據(jù)已經(jīng)成為與水、石油、天然氣同等重要的國家戰(zhàn)略資源。IDC報告指出,截止2011年底,全球的數(shù)據(jù)量已達(dá)到了1.8萬億GB,未來十年還將增長50倍,迅速積累的海量數(shù)據(jù)蘊(yùn)含著重大的商業(yè)價值和社會價值。作為云計(jì)算領(lǐng)域的重要延伸,大數(shù)據(jù)在行業(yè)內(nèi)的熱度在不斷升溫。2012年我國大數(shù)據(jù)市場規(guī)模為4.5億元,同比增長40.6%。IDC預(yù)計(jì),全球大數(shù)據(jù)2016年將達(dá)238億美元,中國市場規(guī)模未來5年將增長近7倍。
大數(shù)據(jù)技術(shù)最近幾年在迅速發(fā)展,國內(nèi)外的廠商和組織已經(jīng)推出了多種大數(shù)據(jù)解決方案。在金融領(lǐng)域,已經(jīng)利用大數(shù)據(jù)技術(shù)解決詐騙檢驗(yàn)、IT風(fēng)險管理和自助服務(wù)等問題,未來大數(shù)據(jù)技術(shù)將會起到越來越重要的作用。目前國內(nèi)外很多金融機(jī)構(gòu)如摩根大通、花旗銀行,以及風(fēng)電、太陽能發(fā)電、石化企業(yè)等制造業(yè)企業(yè)也開始采用大數(shù)據(jù)的解決方案進(jìn)行設(shè)備監(jiān)控、優(yōu)化和故障預(yù)防[1]。
由于國內(nèi)外針對商業(yè)機(jī)構(gòu)系統(tǒng)頻頻發(fā)生的安全事件,國內(nèi)各行業(yè)的信息化目前正在向基于國產(chǎn)軟硬件和自主可控方向發(fā)展,大數(shù)據(jù)也是目前國內(nèi)各行業(yè)重點(diǎn)關(guān)注的技術(shù)。很多廠商和企業(yè)紛紛進(jìn)行技術(shù)研究、方案準(zhǔn)備和內(nèi)部測試,并逐步開始在歷史數(shù)據(jù)查詢、分析,非結(jié)構(gòu)化數(shù)據(jù)檢索等方向上開始使用[2]。從最近幾年的趨勢來看,安全、自主可控的大數(shù)據(jù)解決方案在大數(shù)據(jù)的行業(yè)領(lǐng)域有非常大的市場需求。
國內(nèi)的很多關(guān)鍵行業(yè)應(yīng)用,如金融信息系統(tǒng)的許多關(guān)鍵設(shè)備都沒有采用國產(chǎn)產(chǎn)品,導(dǎo)致無法準(zhǔn)確判斷其安全隱患,這使得我國信息化建設(shè)的安全底數(shù)不清。迫切需要國內(nèi)IT企業(yè)和行業(yè)共同研發(fā)自主可控、自主知識產(chǎn)權(quán)的信息系統(tǒng)、信息環(huán)境和信息安全產(chǎn)品。針對這種狀況國家銀監(jiān)會提出了“自主可控,持續(xù)發(fā)展,科技創(chuàng)新”的三大戰(zhàn)略[3],國產(chǎn)的信息化產(chǎn)品,在金融領(lǐng)域的應(yīng)用已經(jīng)開始了破冰之旅,事實(shí)也已經(jīng)開始證明,自主可控的軟硬件產(chǎn)品,在關(guān)鍵行業(yè)領(lǐng)域的應(yīng)用是可行的,但是缺乏完整的經(jīng)過驗(yàn)證的整體解決方案和實(shí)際案例,無法復(fù)制和推廣。
本文基于國產(chǎn)軟硬件產(chǎn)品進(jìn)行自主可控的大數(shù)據(jù)體系架構(gòu)研究要打破國外技術(shù)依賴,掌握技術(shù)命脈。針對現(xiàn)有行業(yè)關(guān)鍵系統(tǒng)多數(shù)是直接引用國外成熟技術(shù),關(guān)鍵、復(fù)雜、核心的應(yīng)用系統(tǒng)大多是建立在非自主產(chǎn)品上,形成了對國外的技術(shù)嚴(yán)重依賴的現(xiàn)狀,本文的研究將可以在大數(shù)據(jù)領(lǐng)域打破國外技術(shù)的壟斷,形成有競爭力的國產(chǎn)解決方案。
2 主要研究內(nèi)容
本文主要研究面向行業(yè)應(yīng)用、基于自主可控基礎(chǔ)軟硬件產(chǎn)品的大數(shù)據(jù)體系架構(gòu),研究內(nèi)容主要包括:
2.1 行業(yè)大數(shù)據(jù)應(yīng)用的需求分析
2.1.1 面向多源異構(gòu)業(yè)務(wù)數(shù)據(jù)的采集和管理需求
在客戶信息為例,行業(yè)內(nèi)的集團(tuán)企業(yè)經(jīng)常會面臨急需解決的數(shù)據(jù)集成問題,企業(yè)存在大分散的客戶信息資源,并由各系統(tǒng)自主采集和維護(hù),沒有良好的共享體系,客戶信息、訂單信息等異構(gòu)的存在不同數(shù)據(jù)源中,沒有橫跨多個業(yè)務(wù)領(lǐng)域的客戶信息的統(tǒng)一管理和分發(fā)體系。因此,要求統(tǒng)一建設(shè)行業(yè)信息大數(shù)據(jù)管理系統(tǒng),是一套為所有在線業(yè)務(wù)服務(wù)的、整合的行業(yè)信息大數(shù)據(jù)管理與分析系統(tǒng),并具有行業(yè)先進(jìn)水平的大數(shù)據(jù)管理和分析能力,以滿足企業(yè)形成市場競爭優(yōu)勢的要求。
2.1.2 針對海量異構(gòu)大數(shù)據(jù)的高性能存儲需求
通過調(diào)研發(fā)現(xiàn)很多大型企業(yè)的信息系統(tǒng)已經(jīng)積累了大量的業(yè)務(wù)數(shù)據(jù),而且隨著業(yè)務(wù)拓展的需求,大數(shù)據(jù)分析的數(shù)據(jù)源已經(jīng)不僅局限于企業(yè)內(nèi)部,如對客戶流失分析或者產(chǎn)品銷售趨勢預(yù)測,就還需要互聯(lián)網(wǎng)社交網(wǎng)絡(luò)或者電商消費(fèi)信息等。這些多源、異構(gòu)、海量的數(shù)據(jù)對于大數(shù)據(jù)平臺的存儲提出了極高的要求。以某大型企業(yè)集團(tuán)的客戶和生產(chǎn)經(jīng)營信息為例,數(shù)據(jù)規(guī)模已經(jīng)達(dá)到上百TB容量,且相關(guān)數(shù)據(jù)量,特別是生產(chǎn)線的傳感器數(shù)據(jù)和用戶行為等數(shù)據(jù)還在持續(xù)大幅增長。
2.1.3 多樣性大數(shù)據(jù)分析和處理需求
大數(shù)據(jù)分析系統(tǒng)不但集成了多個系統(tǒng)的數(shù)據(jù)源,未來大數(shù)據(jù)分析應(yīng)用系統(tǒng)也會被多個部門,多個業(yè)務(wù)中使用,而且不同的部門和不同業(yè)務(wù)對大數(shù)據(jù)分析處理 的響應(yīng)時間、數(shù)據(jù)量、結(jié)果準(zhǔn)確程度以及具體的分析算法都會有很大差異。因此需要完整的對這些分析和處理需求進(jìn)行分析,以便于設(shè)計(jì)滿足當(dāng)前和潛在需求的大數(shù)據(jù)分析處理架構(gòu)。
2.1.4 行業(yè)大數(shù)據(jù)的安全監(jiān)控和隱私保護(hù)需求
面向行業(yè)和企業(yè)的大數(shù)據(jù)平臺都將集成來自于不同數(shù)據(jù)源的數(shù)據(jù),其中有很多數(shù)據(jù)會涉及商業(yè)秘密和個人隱私等安全問題,所以這些數(shù)據(jù)在大數(shù)據(jù)平臺中應(yīng)該被合理的授權(quán)使用,并有完善的安全監(jiān)控和隱私保護(hù)措施,以避免引起數(shù)據(jù)泄密或者隱私糾紛。
2.1.5 行業(yè)大數(shù)據(jù)平臺的業(yè)務(wù)應(yīng)用和可視化展現(xiàn)的需求
大數(shù)據(jù)分析的結(jié)果是更好的支持業(yè)務(wù)推廣和運(yùn)營決策,所以企業(yè)大數(shù)據(jù)分析還是要和現(xiàn)有的業(yè)務(wù)應(yīng)用緊密結(jié)合,并且以簡單友好的操作,以及可視化的方式直觀的展現(xiàn)分析結(jié)果,這樣才能被各部門和各級別的人員使用好大數(shù)據(jù)系統(tǒng)。
“大數(shù)據(jù)是當(dāng)下最熱門的一個IT話題,隨著移動終端和電子商務(wù)的普及,人類社會已經(jīng)進(jìn)入了數(shù)據(jù)打包站的時代,如何應(yīng)對‘大數(shù)據(jù)’是每個行業(yè)和企事業(yè)單位都必須面對的機(jī)遇和挑戰(zhàn)?!睒s之聯(lián)公司董事長王東輝如是說。顯然,作為多年專注于行業(yè)用戶服務(wù)的IT方案商,榮之聯(lián)已經(jīng)意識到“大數(shù)據(jù)”給整個IT產(chǎn)業(yè)帶來的變革和機(jī)會。
不過,知易行難。
尤其是隨著社交網(wǎng)絡(luò)、電子商務(wù)以及物聯(lián)網(wǎng)的發(fā)展,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并存,無論是數(shù)據(jù)的類型、來源還是數(shù)量等方面,都已十分復(fù)雜。而依靠傳統(tǒng)的IT技術(shù),已經(jīng)很難對這些海量數(shù)據(jù)進(jìn)行高效的分析。因此,是否能夠找到一套涵蓋業(yè)務(wù)、技術(shù)和IT基礎(chǔ)架構(gòu)的全面的大數(shù)據(jù)解決方案,就成為IT服務(wù)商決勝大數(shù)據(jù)市場的關(guān)鍵因素之一。
而這也正是榮之聯(lián)公司與Alpine公司合作,共同拓展國內(nèi)大數(shù)據(jù)市場的重要原因?!癆lpine公司在大數(shù)據(jù)處理方面有著很多創(chuàng)新的技術(shù)和面向各個行業(yè)的解決方案,而這些可以幫助我們很好的解決國內(nèi)行業(yè)用戶所面臨的大數(shù)據(jù)問題。”王東輝說。
其實(shí),對于大數(shù)據(jù),榮之聯(lián)公司并不陌生?!斑^去幾年,我們幫助華大基因等企業(yè)建設(shè)了巨大的數(shù)據(jù)庫,計(jì)算量超過200萬億次,我們的生物云也馬上要,數(shù)據(jù)量將會更大。而如何在生物行業(yè)中結(jié)合大數(shù)據(jù)分析,也是過去一年多我們一直在討論的問題?!睒s之聯(lián)公司總經(jīng)理張彤介紹道。
而榮之聯(lián)公司多年積累的行業(yè)用戶基礎(chǔ),以及良好的本地化服務(wù)能力,顯然對于Alpine公司也有著十分大的吸引力:這將幫助Alpine的大數(shù)據(jù)解決方案在國內(nèi)行業(yè)用戶中迅速落地。
IBM全球高級副總裁、系統(tǒng)與科技部(STG)總經(jīng)理RodAdkins認(rèn)為,當(dāng)前全球IT領(lǐng)域有了令人振奮的發(fā)展趨勢和挑戰(zhàn),現(xiàn)在每天有大量數(shù)據(jù)和信息生成,這為大數(shù)據(jù)分析提供了機(jī)會;數(shù)據(jù)中心的挑戰(zhàn)也為IT提供了新機(jī)會,比如云計(jì)算,能降低數(shù)據(jù)中心成本;IBM希望通過智慧的運(yùn)算,實(shí)現(xiàn)智慧的地球的愿景。
英特爾亞太研發(fā)有限公司總經(jīng)理、軟件與服務(wù)事業(yè)部中國區(qū)總經(jīng)理何京翔認(rèn)為,大數(shù)據(jù)本身其實(shí)是信息革命的一個新引領(lǐng)。在未來幾年隨著物聯(lián)網(wǎng)的發(fā)展,可能會有2100億個RFID或者集群,在我們的環(huán)境之中,如果未來的移動互聯(lián)、物聯(lián)網(wǎng)如果變成現(xiàn)實(shí),我們的生活會被傳感器、會被數(shù)據(jù)采集裝置所擁抱,這時候數(shù)據(jù)量將更大。這些數(shù)據(jù)量僅僅是數(shù)據(jù),并不能解決問題,它要從數(shù)據(jù)變成信息、變成智能、變成商業(yè)價值,這才能夠體現(xiàn)出真正的大數(shù)據(jù)的價值。
VMware全球高級副總裁范承工認(rèn)為,在過去三年當(dāng)中,看到大數(shù)據(jù)的發(fā)展從無到有,市場上大家說大數(shù)據(jù)的趨勢,三年前可能還沒有人說這個詞,現(xiàn)在已經(jīng)如火如荼。然而,現(xiàn)在除了數(shù)據(jù)本身發(fā)生了改變,云計(jì)算也使數(shù)據(jù)變得更加分散,在這樣的趨勢下,傳統(tǒng)數(shù)據(jù)庫對于海量數(shù)據(jù)的需求、快的需求、開發(fā)者數(shù)據(jù)多樣化的需求難以滿足,使各種各樣的解決方案大行其道。
EMC的大數(shù)據(jù)和存儲專家、EMC資深產(chǎn)品經(jīng)理李君鵬認(rèn)為,大數(shù)據(jù)本身就是一個問題集,云技術(shù)是目前解決大數(shù)據(jù)問題集最重要有效的手段。云計(jì)算提供了基礎(chǔ)架構(gòu)平臺,大數(shù)據(jù)應(yīng)用在這個平臺上運(yùn)行。目前公認(rèn)處理大數(shù)據(jù)集最有效手段的分布式處理,也是云計(jì)算思想的一種具體體現(xiàn)。
對于大數(shù)據(jù)給云計(jì)算帶來的影響,Teradata技術(shù)總監(jiān)StephenBrobst表示,公有云架構(gòu)對數(shù)據(jù)倉庫沒有影響,因?yàn)槠髽I(yè)的CIO不會無緣無故把財務(wù)數(shù)據(jù)或者客戶數(shù)據(jù)放到云上,那樣很危險。然而,私有云架構(gòu)確實(shí)有影響:第一,通過私有云,可以鞏固數(shù)據(jù)集市,減少利用率不足的問題;第二,可以通過靈敏的方式將數(shù)據(jù)集成,實(shí)現(xiàn)業(yè)務(wù)價值。
其實(shí)云計(jì)算與大數(shù)據(jù)的不同之處主要在于應(yīng)用的不同,主要在兩個方面:
關(guān)鍵詞:大數(shù)據(jù);云計(jì)算;虛擬化
1認(rèn)識大數(shù)據(jù)
相信大家都還記得2013年5月10日淘寶十周年晚會上,阿里巴巴集團(tuán)董事局主席馬云在其卸任集團(tuán)CEO職位的演講中說到:“大家還沒搞清PC時代的時候,移動互聯(lián)網(wǎng)來了,還沒搞清移動互聯(lián)網(wǎng)的時候,大數(shù)據(jù)時代來了?!?/p>
什么是大數(shù)據(jù)?
早在1980年,當(dāng)時著名的未來學(xué)家阿爾文·托夫勒便在其著作《第三次浪潮》中熱情洋溢地將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂章”。不過直到時光抵達(dá)2009年,“大數(shù)據(jù)”才開始成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。
環(huán)顧四周,我們都已經(jīng)切身感受到了當(dāng)今的信息量正在以前所未有的速度膨脹。當(dāng)我們的普通民眾在上世紀(jì)90年代剛剛接觸個人計(jì)算機(jī)的時候,1MB的磁盤,1GB的硬盤已經(jīng)是不錯的配置。然而現(xiàn)在呢?GB、TB都已經(jīng)無法滿足我們丈量數(shù)據(jù)大小的需要,PB、EB、ZB已經(jīng)義無反顧地承擔(dān)起了丈量數(shù)據(jù)的大任。
隨著互聯(lián)網(wǎng)自媒體的普及,每天都有數(shù)以億計(jì)的人在發(fā)微博、寫微信、更新個人主頁、使用社交網(wǎng)站、發(fā)表個人評論……全球互聯(lián)網(wǎng)上每天會有220萬TB的新數(shù)據(jù)產(chǎn)生,90%的數(shù)據(jù)都是在過去的24個月內(nèi)創(chuàng)造出來的,如今,這個比例還在不斷上升。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中,他們對大數(shù)據(jù)的表述是:大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。他們對大數(shù)據(jù)的特性進(jìn)行了歸納,提出了4V特點(diǎn),即Volume(數(shù)據(jù)量大)、Velocity(要求實(shí)時性強(qiáng))、Variety(數(shù)據(jù)的種類多樣)、Value(數(shù)據(jù)是有價值的)。
而《互聯(lián)網(wǎng)周刊》則認(rèn)為“大數(shù)據(jù)”的概念遠(yuǎn)不止大量的數(shù)據(jù)和處理大量數(shù)據(jù)的技術(shù),或者所謂的“4V特點(diǎn)”之類的簡單概念。大數(shù)據(jù)是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上所能做到的事務(wù),而這些事務(wù)在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實(shí)現(xiàn)的。換句話說,大數(shù)據(jù)讓我們能夠以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得具有巨大價值的產(chǎn)品和服務(wù),或者深刻的洞見,進(jìn)而最終形成變革世界的力量。
2大數(shù)據(jù)應(yīng)用的現(xiàn)狀分析
最早提出世界已經(jīng)迎來“大數(shù)據(jù)”時代的機(jī)構(gòu)則是全球知名的咨詢公司——麥肯錫。麥肯錫在其研究報告中指出:數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。
大家都或多或少地意識到應(yīng)該能從這些海量的數(shù)據(jù)中獲取些什么,然而究竟我們能獲取到什么呢?
一個被廣為傳播的典型案例是:在2012年初美國的一家Target超市,一位憤怒的父親突然闖進(jìn)來對店鋪經(jīng)理咆哮道:“你們竟然給我17歲的女兒發(fā)嬰兒尿片和童車的優(yōu)惠券,她才17歲??!”經(jīng)理下意識地認(rèn)為是店里出了問題,也許是誤發(fā)了優(yōu)惠券,于是立即向這位父親道歉。然而經(jīng)理卻沒有意識到,其實(shí)這是公司正在運(yùn)行的一套大數(shù)據(jù)系統(tǒng)得出的分析結(jié)論。
Target會從其會員的購買記錄中去了解該顧客的性格、類別等一些列業(yè)務(wù)活動。上面的例子正是Target為適齡女性創(chuàng)建的一套懷孕期變化分析模型,如果相關(guān)客戶第一次購買了嬰兒用品,系統(tǒng)將會在接下去的幾年中根據(jù)嬰兒的生長周期向顧客推薦相關(guān)的產(chǎn)品,從而培養(yǎng)和提高客戶的忠誠度。
果然,一個月后,該名憤怒的父親打電話給商鋪道歉,因?yàn)門arget發(fā)來的嬰兒用品優(yōu)惠券不是誤會,他的女兒確實(shí)懷孕了。
利用數(shù)據(jù)挖掘用戶的行為習(xí)慣和喜好,在凌亂紛繁的數(shù)據(jù)背后發(fā)掘出更符合用戶興趣和習(xí)慣的信息、產(chǎn)品和服務(wù),并對這些目標(biāo)化的信息、產(chǎn)品和服務(wù)進(jìn)行針對性地調(diào)整和優(yōu)化,這便是大數(shù)據(jù)能帶給商家最誘人的價值之一。
隨著社交網(wǎng)絡(luò)在人們生產(chǎn)生活中地位的快速提升,大量UGC(User Generated Content用戶自生成的內(nèi)容)進(jìn)入互聯(lián)網(wǎng),上述價值的實(shí)現(xiàn)也變得越來越明顯。
事實(shí)上,全球IT業(yè)巨頭都已經(jīng)意識到數(shù)據(jù)的重要意義和“大數(shù)據(jù)”時代的到來。包括IBM、EMC、惠普、微軟在內(nèi)的全球知名跨國公司都陸續(xù)通過收購與“大數(shù)據(jù)”相關(guān)的廠商來實(shí)現(xiàn)技術(shù)整合。
目前典型的大數(shù)據(jù)應(yīng)用領(lǐng)域有:
商業(yè)智能。例如:用戶行為分析,即結(jié)合用戶資料、產(chǎn)品、服務(wù)、計(jì)費(fèi)、財務(wù)等信息進(jìn)行綜合分析,得出細(xì)致、精確的結(jié)果,實(shí)現(xiàn)對用戶個性化的策略控制,這在營銷網(wǎng)絡(luò)的流量經(jīng)營分析中占有越來越舉足輕重的地位。個性化推薦,即在各類增值業(yè)務(wù)中,根據(jù)用戶喜好推薦各類業(yè)務(wù)或應(yīng)用,這已成為運(yùn)營商和門戶提供商服務(wù)用戶的一個最有效方式之一,比如應(yīng)用商店的軟件推薦、IPTV視頻節(jié)目的點(diǎn)播推薦、購物或旅游網(wǎng)站的猜你喜歡等。
公共服務(wù)。一方面,公共機(jī)構(gòu)可以利用大數(shù)據(jù)技術(shù)把積累的海量歷史數(shù)據(jù)進(jìn)行挖掘利用,從而提供更為廣泛和深度的公共服務(wù),如實(shí)時路況和交通引導(dǎo);另一方面,公共機(jī)構(gòu)也可以通過對某些領(lǐng)域的大數(shù)據(jù)實(shí)時分析,提高危機(jī)的預(yù)判能力,如疾病預(yù)防、環(huán)境保護(hù)等,為實(shí)現(xiàn)更好、更科學(xué)的危機(jī)響應(yīng)提供技術(shù)基礎(chǔ)。
政府決策。通過對數(shù)據(jù)的挖掘,從而有效提高政府決策的科學(xué)性和時效性。例如:日本大地震發(fā)生后僅僅9分鐘,美國國家海洋和大氣管理局(NOAA)就了詳細(xì)的海嘯預(yù)警。并且隨即NOAA通過對海洋傳感器獲得的實(shí)時數(shù)據(jù)進(jìn)行了計(jì)算機(jī)模擬,制定出詳細(xì)的應(yīng)急方案,并將制作的海嘯影響模型實(shí)時在了YouTube等網(wǎng)站上。
3大數(shù)據(jù)解決方案的現(xiàn)狀分析
以往談及大的數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。如今把“大數(shù)據(jù)”作為一個專有名詞提及,通常指的是解決問題的一種方法,即通過收集和整理生產(chǎn)生活中方方面面的數(shù)據(jù),然后對其進(jìn)行整理、挖掘、分析、處理,進(jìn)而從中獲得有用的價值信息。這種衍化出的新的商業(yè)模式即為通常意義上的大數(shù)據(jù)解決方案。
雖然通常意義上的大數(shù)據(jù)解決方案描述了一種通常的行為,但要實(shí)現(xiàn)這種通常的行為,往往會遇到諸多技術(shù)和硬件上的問題。一個顯而易見的問題就是:大數(shù)據(jù)包絡(luò)萬象,而且像音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)正以突飛猛進(jìn)的速度增長,加上移動互聯(lián)網(wǎng)的普及所帶來的如位置、生活信息等富含價值的數(shù)據(jù),現(xiàn)有的,或者傳統(tǒng)的對數(shù)據(jù)的處理手段和硬件配置已越來越跟不上數(shù)據(jù)發(fā)展的步伐。
于是革命爆發(fā)了!
哈佛大學(xué)社會學(xué)教授加里·金就說道:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”
數(shù)據(jù)需要存儲,存儲需要設(shè)備,存儲設(shè)備的容量和可擴(kuò)展性以及讀取的速度成為了一大問題(容量問題);大數(shù)據(jù)不是一日而成的,往往都需要一定周期的積累,在數(shù)據(jù)的積累過程中,以前的數(shù)據(jù)和現(xiàn)在的數(shù)據(jù)在存儲上應(yīng)該是能保持一致的,無論設(shè)備升級與否,而且這些數(shù)據(jù)要長期有效,這是一個持久的問題(積累問題);與持久相對應(yīng)的,互聯(lián)網(wǎng)是變化的、經(jīng)濟(jì)活動是變化的、整個世界都是變化的,針對某些實(shí)時問題,如交易、金融等,用已經(jīng)過去的數(shù)據(jù)顯然是不合適的,這也是一大問題(延遲問題);大數(shù)據(jù)包絡(luò)萬象,有些是可以隨意獲得、和消除的,有些,如金融數(shù)據(jù)、醫(yī)療信息、政府情報等,則是需要按不同級別進(jìn)行保護(hù)和加密的,特別是在需要交叉數(shù)據(jù)參考的應(yīng)用中,不同部分的數(shù)據(jù)有著不同的安全需要,這又是一大問題(安全問題);為了滿足上述問題,我們顯然可以通過不斷加大投入,購買更多的存儲設(shè)備、雇傭跟多的工作人員、建設(shè)更多的數(shù)據(jù)中心和分析中心,但這一切都是由成本的,特別是對于以盈利為目的的商業(yè)機(jī)構(gòu)而言,成本和收益永遠(yuǎn)都是最優(yōu)先考慮的問題之一(成本問題);當(dāng)然還有很多其他的問題,這里就不一一羅列了。
驅(qū)動商業(yè)機(jī)構(gòu)解決上述問題的動力肯定是商業(yè)利益。以全球知名的IT制造與服務(wù)和咨詢提供商IBM為例,其全球CEO調(diào)研顯示,唯有在數(shù)據(jù)獲取、將數(shù)據(jù)轉(zhuǎn)換為洞察力、再將洞察力轉(zhuǎn)化為行動力等方面表現(xiàn)優(yōu)秀的企業(yè),才能有持續(xù)的績效表現(xiàn)??冃怀稣邚暮A繑?shù)據(jù)中挖掘出有價信息的能力是績效不佳者的2倍。
IBM認(rèn)為由于當(dāng)今企業(yè)、市場、社會、政府之間的聯(lián)系變得越來越緊密,傳統(tǒng)的數(shù)據(jù)分析正日益呈現(xiàn)出“大數(shù)據(jù)”時代的新特點(diǎn),即容量要求更高、速度要求更快、數(shù)據(jù)類型多樣和數(shù)據(jù)來源復(fù)雜4個方面。結(jié)合多家領(lǐng)先市場咨詢機(jī)構(gòu)的調(diào)研數(shù)據(jù)顯示:
2010-2015年,“大數(shù)據(jù)”市場年均符合增長率為39.4%,將是整個信息與通信技術(shù)市場增速的7倍;管理及維護(hù)數(shù)據(jù)的成本將是購買存儲設(shè)備所需成本的4倍;全球數(shù)據(jù)量的年均復(fù)合增長速度為59%;未來需要分析的信息源中,混合類型數(shù)據(jù)所占比重將高達(dá)85%;數(shù)據(jù)分析直接受到服務(wù)器性能制約的數(shù)據(jù)量將占到總體的87%;僅2012年一年,服務(wù)器在整體“大數(shù)據(jù)”市場投資中就將占去14%的比重。
這就意味著傳統(tǒng)計(jì)算的低效正在為企業(yè)發(fā)展帶來阻礙,企業(yè)感到當(dāng)前的IT系統(tǒng)變得更加復(fù)雜且難以管理。數(shù)據(jù)顯示:企業(yè)用于運(yùn)營和維護(hù)IT系統(tǒng)的費(fèi)用已經(jīng)超過整體預(yù)算的70%,并且這一比例仍在持續(xù)增長;企業(yè)有三分之二的IT項(xiàng)目及解決方案部署超出了原定計(jì)劃;IT架構(gòu)的復(fù)雜度將以當(dāng)前速度每兩年就增加一倍。
于是出乎絕大多數(shù)人意料的事情發(fā)生了:IT部門,這個曾經(jīng)作為企業(yè)現(xiàn)代化和創(chuàng)新化能力標(biāo)志的部門,正越來越成為企業(yè)新創(chuàng)新的阻力而非動力。
怎么辦?
很多人立即想到了另外一個熱詞:“云計(jì)算”。
IBM全球高級副總裁Rod Adkins認(rèn)為,當(dāng)前全球IT領(lǐng)域有了令人振奮的發(fā)展趨勢和挑戰(zhàn),現(xiàn)在每天有大量數(shù)據(jù)和信息生成,這為大數(shù)據(jù)分析提供了機(jī)會;數(shù)據(jù)中心的挑戰(zhàn)也為IT提供了新機(jī)會,比如云計(jì)算,能降低數(shù)據(jù)中心成本。
EMC資深產(chǎn)品經(jīng)理李君鵬認(rèn)為,大數(shù)據(jù)本身就是一個問題集,云技術(shù)是目前解決大數(shù)據(jù)問題集最重要有效的手段。云計(jì)算提供了基礎(chǔ)架構(gòu)平臺,大數(shù)據(jù)應(yīng)用在這個平臺上運(yùn)行。目前公認(rèn)處理大數(shù)據(jù)集最有效手段的分布式處理,也是云計(jì)算思想的一種具體體現(xiàn)。Teradata技術(shù)總監(jiān)Stephen Brobst則表示,公有云架構(gòu)對數(shù)據(jù)倉庫沒有影響,因?yàn)槠髽I(yè)的CIO不會無緣無故把財務(wù)數(shù)據(jù)或者客戶數(shù)據(jù)放到云上,那樣很危險。然而,是私有云架構(gòu)確實(shí)有影響:第一,通過私有云,可以鞏固數(shù)據(jù)集市,減少利用率不足的問題;第二,可以通過靈敏的方式將數(shù)據(jù)集成,實(shí)現(xiàn)業(yè)務(wù)價值。
于是有人就此理解為:大數(shù)據(jù)的最佳解決方案是采用云計(jì)算和分布式處理,利用互聯(lián)網(wǎng)將運(yùn)算能力、存儲能力都做分布式的處理,認(rèn)為這樣做就可以最大程度上地降低成本、增加擴(kuò)展性和靈活性。
然而事實(shí)真的如此嗎?
讓我們來分析一下最近IBM公司在國內(nèi)針對百萬人口的城市級信息中心制定的解決方案:
面對數(shù)量龐大且增長迅速的各類交通信息:120萬輛機(jī)動車電子卡、4萬輛機(jī)動車的實(shí)時GPS定位、200萬筆公交IC卡數(shù)據(jù)、518個高清卡口的113億張圖片等,該市信息中心的領(lǐng)導(dǎo)意識到,當(dāng)前多個項(xiàng)目能源消耗大、占地要求非常高、并且原有的網(wǎng)絡(luò)設(shè)備難以滿足新增的需求,網(wǎng)絡(luò)設(shè)備經(jīng)常更換,并且這些相互獨(dú)立的數(shù)據(jù)庫、服務(wù)器和存儲,以及不同的訪問權(quán)限和沒有統(tǒng)一的管理界面,讓本就壓力巨大的數(shù)據(jù)中心的效率大打折扣,同時也極大浪費(fèi)了寶貴的人力、能源和其他各種資源。
IBM給出的解決方案是:
首先,在基礎(chǔ)平臺上摒棄了分布式的服務(wù)器架構(gòu),而是采用大型服務(wù)器在基礎(chǔ)架構(gòu)上對處理能力、I/O吞吐和主存儲進(jìn)行了整合,這樣做的最大亮點(diǎn)是,將原有成百計(jì)的分布式服務(wù)器整合到了個位數(shù),極大地節(jié)省了空間和能源,做到綠色環(huán)保;因?yàn)椴挥每紤]各分布式服務(wù)器之間的互通互聯(lián)和各服務(wù)器之間的狀態(tài)及負(fù)載均衡與調(diào)配,節(jié)省了相當(dāng)數(shù)量的管理人員;另外大型服務(wù)器自身端到端的管理功能和適用于異構(gòu)工作負(fù)載且基于策略的框架,有效幫助信息中心實(shí)現(xiàn)中心控制,實(shí)現(xiàn)極高的性能。
其次,在整合的基礎(chǔ)平臺之上,采用“云計(jì)算”框架虛擬化設(shè)計(jì),實(shí)現(xiàn)了智能交通和政務(wù)網(wǎng)站的整合。這一方案讓用戶在使用上可以享受與分布式架構(gòu)相同甚至更加優(yōu)越的性能。由基礎(chǔ)平臺通過虛擬化形成的任意數(shù)量的虛機(jī),在統(tǒng)一云管理軟件URM的配置下,能夠提供統(tǒng)一的管理視圖和管理機(jī)制,簡化在多套異構(gòu)業(yè)務(wù)系統(tǒng)環(huán)境下系統(tǒng)的運(yùn)營和維護(hù)工作。
而在本方案中的存儲部分則采用了運(yùn)行穩(wěn)定、性能領(lǐng)先、技術(shù)成熟的SAN網(wǎng)絡(luò)架構(gòu),具有很好的穩(wěn)定性,能為前端各應(yīng)用提供可靠的數(shù)據(jù)存儲平臺,并且整個SAN網(wǎng)絡(luò)中的部件都配置了雙冗余組件,保證任一部件的損壞不會影響整個系統(tǒng)的運(yùn)行,而關(guān)鍵數(shù)據(jù)庫的數(shù)據(jù)都通過合理的備份策略,定期備份在了物理磁帶上,保證關(guān)鍵數(shù)據(jù)的絕對安全。
總結(jié)下來,整合的基礎(chǔ)平臺,“云計(jì)算”框架的虛擬化設(shè)計(jì),和定制化的高速存儲,打造出了最穩(wěn)定、最可靠、最安全、最綠色的運(yùn)行環(huán)境,讓政府的大數(shù)據(jù)應(yīng)用完美落地。
可見,大數(shù)據(jù)的解決方案不同于純粹云計(jì)算的解決方案,雖然云計(jì)算帶來了看上去更便宜的處理能力和存儲能力,但對于往往都有相當(dāng)數(shù)量級規(guī)模的大數(shù)據(jù)應(yīng)用而言,在基礎(chǔ)架構(gòu)上巧妙地整合和部分的集中,反而能更好地解決安全性、可靠性、穩(wěn)定性和綠色環(huán)保的需要。
4結(jié)束語
大數(shù)據(jù)業(yè)務(wù)值得期待
在云計(jì)算方面,曙光多年的努力已經(jīng)看到了成效。在曙光自己建設(shè)和運(yùn)維的云數(shù)據(jù)中心里,存儲容量基本都超過10PB,承載了大量來自地質(zhì)勘探、視頻監(jiān)控、電子政務(wù)等方面的數(shù)據(jù)。其中,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的存儲比例是1∶4,大量非結(jié)構(gòu)化數(shù)據(jù)存儲主要存儲的是圖片和視頻,這也為下一步的數(shù)據(jù)挖掘奠定了基礎(chǔ)。曙光為企業(yè)級客戶提供的云存儲解決方案涉及公安云、稅務(wù)云、教育云、醫(yī)療云等。
在大數(shù)據(jù)產(chǎn)品方面,曙光已經(jīng)成竹在胸。針對結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光都能提供匹配的存儲解決方案。比如,針對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光的ParaStor就是一個非常好的存儲平臺。再比如,曙光利用自己的文件系統(tǒng)對Hadoop平臺進(jìn)行了優(yōu)化,可以更好地發(fā)揮Hadoop的優(yōu)勢?;轁櫤1硎荆骸爱?dāng)前,雖然大數(shù)據(jù)帶來的直接收入并不如預(yù)期,但是大數(shù)據(jù)市場的前景十分廣闊。”
不趕一體機(jī)的時髦
在大數(shù)據(jù)市場上,一體機(jī)越來越流行,曙光卻一直按兵不動?!拔覀円欢ㄒ高^現(xiàn)象看本質(zhì)。一體機(jī)的核心還是軟件?!被轁櫤1硎荆皩⑾嚓P(guān)硬件拼湊在一起,再加上Hadoop就能構(gòu)成一個簡單的一體機(jī),但是這樣的產(chǎn)品會有競爭力嗎?我們只要推出一個新產(chǎn)品,就希望這個產(chǎn)品具有一定的競爭力,能夠在市場上取得較高的占有率,而不是搞噱頭?!?/p>
在大數(shù)據(jù)業(yè)務(wù)方面,曙光的核心競爭力主要體現(xiàn)在它有一支強(qiáng)大的技術(shù)服務(wù)團(tuán)隊(duì),可以為用戶提供代碼級開發(fā)的服務(wù)能力。由于自身的復(fù)雜性以及存在Bug,Hadoop通常不能直接使用,這就需要大數(shù)據(jù)解決方案廠商在Hadoop平臺上進(jìn)行相關(guān)調(diào)整和優(yōu)化。“由于數(shù)據(jù)種類繁多,數(shù)據(jù)量又大,如何快速將大數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)挖掘系統(tǒng)中是一個難題。如果廠商沒有過硬的技術(shù)服務(wù)團(tuán)隊(duì),不能根據(jù)數(shù)據(jù)的情況對解決方案進(jìn)行調(diào)整和優(yōu)化,那么大數(shù)據(jù)應(yīng)用落地就將成為一句空話。大數(shù)據(jù)應(yīng)用之所以難普及,一個重要的原因就是具有代碼級開發(fā)能力的專業(yè)技術(shù)人才太少了?!被轁櫤1硎尽?/p>
在推廣大數(shù)據(jù)解決方案時,曙光并沒有與某一個應(yīng)用軟件廠商簽定產(chǎn)品捆綁協(xié)議。不過,曙光還是針對一些主流的應(yīng)用軟件進(jìn)行了方案的優(yōu)化。舉例來說,在結(jié)構(gòu)化數(shù)據(jù)處理方面,曙光主要針對Oracle數(shù)據(jù)庫進(jìn)行了方案優(yōu)化。曙光利用基礎(chǔ)的硬件,結(jié)合自己的大數(shù)據(jù)挖掘系統(tǒng),可以將Oracle數(shù)據(jù)庫的查詢速度至少提升50倍,而成本只有傳統(tǒng)的“小型機(jī)+高端存儲”解決方案的十分之一。
存儲服務(wù)器已獲認(rèn)可
軟件定義的網(wǎng)絡(luò)也好,軟件定義的存儲也罷,無非都是在強(qiáng)調(diào)一個重點(diǎn):軟件將成為未來IT架構(gòu)和應(yīng)用的核心。“從存儲的研發(fā)上看,除了少量的硬件研發(fā)以外,我們90%的研發(fā)人員從事的都是軟件研發(fā)?!被轁櫤1硎荆笆锕庠谲浖邪l(fā)上強(qiáng)調(diào)的是精英文化,近百人的研發(fā)團(tuán)隊(duì)具有代碼級的開發(fā)實(shí)力。未來,我們研發(fā)的重點(diǎn)將放在海量存儲、大數(shù)據(jù)挖掘和云存儲上,而對于傳統(tǒng)的磁盤陣列不會有太大的研發(fā)投入。”
EMC Isilon:橫向擴(kuò)展 性能突出
大數(shù)據(jù)存儲不是一類單獨(dú)的產(chǎn)品,它有很多實(shí)現(xiàn)方式。EMC Isilon存儲事業(yè)部總經(jīng)理?xiàng)钐m江概括說,大數(shù)據(jù)存儲應(yīng)該具有以下一些特性:海量數(shù)據(jù)存儲能力,可輕松管理PB級乃至數(shù)十PB的存儲容量;具有全局命名空間,所有應(yīng)用可以看到統(tǒng)一的文件系統(tǒng)視圖;支持標(biāo)準(zhǔn)接口,應(yīng)用無需修改可直接運(yùn)行,并提供API接口進(jìn)行面向?qū)ο蟮墓芾?;讀寫性能優(yōu)異,聚合帶寬高達(dá)數(shù)GB乃至數(shù)十GB;易于管理維護(hù),無需中斷業(yè)務(wù)即可輕松實(shí)現(xiàn)動態(tài)擴(kuò)展;基于開放架構(gòu),可以運(yùn)行于任何開放架構(gòu)的硬件之上;具有多級數(shù)據(jù)冗余,支持硬件與軟件冗余保護(hù),數(shù)據(jù)具有高可靠性;采用多級存儲備份,可靈活支持SSD、SAS、SATA和磁帶庫的統(tǒng)一管理。
通過與中國用戶的接觸,楊蘭江認(rèn)為,當(dāng)前中國用戶最迫切需要了解的是大數(shù)據(jù)存儲有哪些分類,而在大數(shù)據(jù)應(yīng)用方面面臨的最大障礙就是如何在眾多平臺中找到適合自己的解決方案。
EMC針對不同的應(yīng)用需求可以提供不同的解決方案:對于能源、媒體、生命科學(xué)、醫(yī)療影像、GIS、視頻監(jiān)控、HPC應(yīng)用、某些歸檔應(yīng)用等,EMC會首推以Isilon存儲為核心的大數(shù)據(jù)存儲解決方案;對于虛擬化以及具有很多小文件的應(yīng)用,EMC將首推以VNX、XtremIO為核心的大數(shù)據(jù)存儲解決方案;對于大數(shù)據(jù)分析一類的應(yīng)用需求,EMC會綜合考慮客戶的具體需求,推薦Pivotal、Isilon等一體化的解決方案。在此,具體介紹一下EMC用于大數(shù)據(jù)的橫向擴(kuò)展NAS解決方案——EMC Isilon,其設(shè)計(jì)目標(biāo)是簡化對大數(shù)據(jù)存儲基礎(chǔ)架構(gòu)的管理,為大數(shù)據(jù)提供靈活的可擴(kuò)展平臺,進(jìn)一步提高大數(shù)據(jù)存儲的效率,降低成本。
EMC Isilon存儲解決方案主要包括三部分:EMC Isilon平臺節(jié)點(diǎn)和加速器,可從單個文件系統(tǒng)進(jìn)行大數(shù)據(jù)存儲,從而服務(wù)于 I/O 密集型應(yīng)用程序、存儲和近線歸檔;EMC Isilon基礎(chǔ)架構(gòu)軟件是一個強(qiáng)大的工具,可幫助用戶在大數(shù)據(jù)環(huán)境中保護(hù)數(shù)據(jù)、控制成本并優(yōu)化存儲資源和系統(tǒng)性能;EMC Isilon OneFS操作系統(tǒng)可在集群中跨節(jié)點(diǎn)智能地整合文件系統(tǒng)、卷管理器和數(shù)據(jù)保護(hù)功能。
楊蘭江表示,企業(yè)用戶選擇EMC Isilon的理由可以歸納為以下幾點(diǎn)。第一,簡化管理,增強(qiáng)易用性。與傳統(tǒng)NAS相比,無論未來存儲容量、性能增加到何種程度,EMC Isilon的安裝、管理和擴(kuò)展都會保持其簡單性。第二,強(qiáng)大的可擴(kuò)展性。EMC Isilon可以滿足非結(jié)構(gòu)化數(shù)據(jù)的存儲和分析需求,單個文件系統(tǒng)和卷中每個集群的容量為18TB~15PB。第三,更高的處理效率,更低的成本。EMC Isilon在單個共享存儲池中的利用率超過80%,而EMC Isilon SmartPools軟件可進(jìn)一步優(yōu)化資源,提供自動存儲分層,保證存儲的高性能、經(jīng)濟(jì)性。第四,靈活的互操作性。EMC Isilon支持眾多行業(yè)標(biāo)準(zhǔn),簡化工作流。它還提供了API可以向客戶和ISV提供OneFS控制接口,提供Isilon集群的自動化、協(xié)調(diào)和資源調(diào)配能力。
EMC Isilon大數(shù)據(jù)存儲解決方案已經(jīng)在醫(yī)療、制造、高校和科研機(jī)構(gòu)中有了許多成功應(yīng)用。
方案點(diǎn)評
EMC Isilon是一個強(qiáng)大但簡單的橫向擴(kuò)展NAS方案,適用于希望投資數(shù)據(jù)管理而不是單純存儲的企業(yè)。當(dāng)初,EMC將收購來的分布式數(shù)據(jù)倉庫軟件廠商Greenplum的軟件與Isilon存儲組合成了EMC最早的大數(shù)據(jù)解決方案。用戶既可以分開選擇Greenplum軟件或Isilon存儲,也可以選擇由Greenplum軟件和Isilon存儲組成的一體機(jī)解決方案。現(xiàn)在,Greenplum軟件雖然已歸Pivotal公司,但EMC是Pivotal的經(jīng)銷商與合作伙伴,Greenplum與Isilon存儲的組合方案并不會因此受到影響。
HDS UCP:統(tǒng)一平臺 應(yīng)用優(yōu)化
HDS中國區(qū)解決方案與專業(yè)服務(wù)事業(yè)部總監(jiān)陳戈認(rèn)為,大數(shù)據(jù)存儲應(yīng)該是一個解決方案:“大數(shù)據(jù)解決方案是由基礎(chǔ)架構(gòu)的各部件組成的,包含數(shù)據(jù)存儲、計(jì)算和分析,而存儲是此架構(gòu)中的一部分?!?/p>
大數(shù)據(jù)的存儲類型與傳統(tǒng)的存儲類型有一定區(qū)別:在大數(shù)據(jù)存儲中,更多的應(yīng)用是一次寫、多次讀,讀得更多是大數(shù)據(jù)存儲的一個特點(diǎn),而在傳統(tǒng)的數(shù)據(jù)存儲中,讀寫是隨機(jī)的,由于每個應(yīng)用不同,其讀寫的比例也是隨機(jī)的;大數(shù)據(jù)存儲需要具有橫向的可擴(kuò)展性,并可支持多種接口、多種數(shù)據(jù)訪問協(xié)議,便于不同數(shù)據(jù)進(jìn)入這個大數(shù)據(jù)平臺。
談到中國用戶在大數(shù)據(jù)存儲應(yīng)用中最迫切的需求是什么,陳戈認(rèn)為,中國用戶最迫切的需求是如何逐步實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用,即用戶從現(xiàn)有的模式如何過渡到大數(shù)據(jù),如何更好地利用大數(shù)據(jù)進(jìn)行經(jīng)營分析。
大數(shù)據(jù)的經(jīng)典定義可以歸納為四個“V”,但企業(yè)不可能一步到位實(shí)現(xiàn)四個“V”,這需要一個循序漸進(jìn)的過程。海量的、多種類型的數(shù)據(jù)是一次性全部載入到大數(shù)據(jù)中,還是通過現(xiàn)有的平臺進(jìn)行數(shù)據(jù)初選,再導(dǎo)入到大數(shù)據(jù)平臺中,是兩種不同的實(shí)現(xiàn)途徑?!跋韧ㄟ^現(xiàn)有平臺進(jìn)行數(shù)據(jù)初選,再導(dǎo)入到大數(shù)據(jù)平臺,這種方式更適合于客戶逐漸實(shí)現(xiàn)大數(shù)據(jù),可以縮短用戶實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的時間。”陳戈表示,“大數(shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù)。用戶可以使用基于對象數(shù)據(jù)存儲的HCP,利用其獨(dú)特的元數(shù)據(jù)采集和智能工具,對非結(jié)構(gòu)化文件數(shù)據(jù)進(jìn)行管理,實(shí)現(xiàn)智能的自動化,這有助于對數(shù)據(jù)進(jìn)行深度分析,幫助客戶從單一系統(tǒng)中存儲、共享、同步、保護(hù)、保存、分析和檢索文件數(shù)據(jù),減少垃圾數(shù)據(jù),進(jìn)而為大數(shù)據(jù)分析建立一個良好的基礎(chǔ)?!?/p>
談到用戶在大數(shù)據(jù)應(yīng)用中遇到的主要障礙,陳戈表示,一方面,應(yīng)用軟件本身的智能程度是否能滿足行業(yè)應(yīng)用需求,應(yīng)用軟件是否已經(jīng)成型,大數(shù)據(jù)人才是否具備等,是讓大數(shù)據(jù)應(yīng)用落地的關(guān)鍵;另一方面,如何抽取數(shù)據(jù),放在大數(shù)據(jù)平臺中進(jìn)行相應(yīng)的計(jì)算是另一個關(guān)鍵問題。
HDS可為所有數(shù)據(jù)提供單一、可擴(kuò)展的虛擬化集成平臺。HDS推出了“三步”云戰(zhàn)略,從基礎(chǔ)架構(gòu)、內(nèi)容和信息三個層面幫助客戶解決目前所遇到的問題。具體來看,通過“基礎(chǔ)架構(gòu)云”,HDS可以幫助客戶進(jìn)行虛擬化和集成管理,實(shí)現(xiàn)數(shù)據(jù)中心的整合;在第二層的“內(nèi)容云”當(dāng)中,HDS可以按需提供內(nèi)容,更可以不受應(yīng)用限制地進(jìn)行數(shù)據(jù)搜索和集成;在第三層的“信息云”中,針對所有數(shù)據(jù)類型,HDS在其存儲平臺中融入了分析功能,使客戶可以從數(shù)據(jù)信息中獲取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量數(shù)據(jù)集的創(chuàng)新和內(nèi)存分析技術(shù),并提供實(shí)時的洞察力,從而使當(dāng)前的信息驅(qū)動型企業(yè)可以加快其商業(yè)決策的速度。陳戈介紹說,UCP for SAP HANA解決方案結(jié)合了HDS刀片服務(wù)器技術(shù)、企業(yè)級存儲系統(tǒng)和業(yè)內(nèi)領(lǐng)先的網(wǎng)絡(luò)組件,在這樣一個集成的、高性能的硬件平臺上可以快速交付SAP下一代內(nèi)存計(jì)算技術(shù)。全球已有超過200家客戶在使用HDS和SAP的大數(shù)據(jù)解決方案。
方案點(diǎn)評
其實(shí),HDS的“三步”云戰(zhàn)略也可以看成是其大數(shù)據(jù)戰(zhàn)略。HDS借助以UCP為核心的大數(shù)據(jù)平臺,可以幫助企業(yè)用戶構(gòu)建從基礎(chǔ)架構(gòu)到內(nèi)容歸檔和搜索,直至信息提取和分析的全面、高效的大數(shù)據(jù)解決方案。HDS的“信息云”直接與大數(shù)據(jù)相關(guān)。UCP是一個集成了計(jì)算、存儲與網(wǎng)絡(luò)的一體化平臺,它既可以提供像一體機(jī)一樣的整合性、簡單性,又可以提供靈活的選擇,連接第三方的設(shè)備組件。HDS還通過與包括SAP在內(nèi)的眾多大數(shù)據(jù)分析類的合作伙伴合作,針對行業(yè)定制優(yōu)質(zhì)的大數(shù)據(jù)解決方案。
HP StoreAll :快速部署 極速搜索
中國惠普有限公司企業(yè)集團(tuán)存儲產(chǎn)品部存儲架構(gòu)師張楠向記者表示,大數(shù)據(jù)存儲是一套解決方案,應(yīng)該能夠?qū)Υ髷?shù)據(jù)的Volume、Velocity、Variety和Value四個方面提供全面的支持。
第一,大數(shù)據(jù)存儲要支持海量級的數(shù)據(jù)存儲,比如具有PB級的存儲能力。第二,大數(shù)據(jù)存儲要支持更高的存儲速度,支持10Gb甚至更高的網(wǎng)絡(luò)連接。第三,大數(shù)據(jù)存儲要支持?jǐn)?shù)據(jù)的多樣性,如圖片、文本、視頻、音頻等。第四,大數(shù)據(jù)最重要的是價值的體現(xiàn),而為了實(shí)現(xiàn)這一點(diǎn),存儲本身應(yīng)該具備快速、智能的數(shù)據(jù)檢索能力。“在存儲的最底層提供最直接、快捷的數(shù)據(jù)檢索。這一過程簡單說就是,將上層的數(shù)據(jù)挖掘工作下移,充分利用存儲強(qiáng)大的處理能力和數(shù)據(jù)識別能力?!睆堥e例說,“比如,在秒級的單位內(nèi)對數(shù)據(jù)進(jìn)行極速的搜索, 從幾千萬甚至上億個文件中找到目標(biāo)數(shù)據(jù)。”
另外,模糊查詢能力也是大數(shù)據(jù)存儲不可缺少的功能。智能的模糊查詢將為大數(shù)據(jù)平臺提供更加便捷的存儲服務(wù)能力,使得存儲更像一臺智能的高速計(jì)算設(shè)備。
目前,很多中國用戶在存儲廠商的引導(dǎo)下,片面追求存儲的大容量和高性能,而忽略了大數(shù)據(jù)存儲本身應(yīng)該提供的其他額外屬性。中國用戶在實(shí)施大數(shù)據(jù)的過程中經(jīng)常遇到的障礙有以下兩方面:第一,無法將存儲與大數(shù)據(jù)平臺進(jìn)行對接;第二,無法充分利用大數(shù)據(jù)存儲的價值,也很難將其運(yùn)用到實(shí)際的業(yè)務(wù)中。張楠表示,究其原因,主要在于有些大數(shù)據(jù)存儲產(chǎn)品沒有開放的接口協(xié)議,或沒有針對用戶的大數(shù)據(jù)場景進(jìn)行特別優(yōu)化,也沒有用戶容易接受的易用的管理方式等。
惠普在大數(shù)據(jù)方面可以提供軟硬結(jié)合的解決方案?;萜赵谑召廇utonomy公司之后,將其軟件與惠普的硬件平臺進(jìn)行了整合, 形成了一套完整的大數(shù)據(jù)解決方案。張楠介紹說,在存儲方面,惠普擁有像StoreAll這樣的大數(shù)據(jù)存儲平臺。借助HP StoreAll硬件平臺,用戶除了可以實(shí)現(xiàn)海量數(shù)據(jù)的存儲和高速數(shù)據(jù)訪問以外,還能實(shí)現(xiàn)高級的數(shù)據(jù)檢索功能,對特殊文件進(jìn)行快速定位。同時,結(jié)合HP Autonomy軟件的特性,惠普還引入了模糊查詢、智能語義庫等概念,可以幫助企業(yè)用戶通過存儲底層為上層業(yè)務(wù)帶來所需的大數(shù)據(jù)業(yè)務(wù)價值。
如今,閃存不僅在大數(shù)據(jù)領(lǐng)域,而且在Tier 1存儲市場同樣占據(jù)著十分重要的地位。對于大數(shù)據(jù)平臺來說,閃存可用來提升存儲的存取速度,降低I/O的響應(yīng)時間等。針對那些I/O壓力十分明確的大數(shù)據(jù)平臺, SSD可以發(fā)揮其效果, 提升存儲的整體性能。但是,SSD并不是萬能的。因?yàn)榇蟛糠值臄?shù)據(jù)都是非結(jié)構(gòu)化的,而非結(jié)構(gòu)化數(shù)據(jù)對I/O的響應(yīng)要求遠(yuǎn)遠(yuǎn)沒有對帶寬的需求大,所以,讓用戶花數(shù)倍的價格購買SSD存儲在目前來看還是比較困難的。從目前情況看,引入閃存的大數(shù)據(jù)解決方案還不是很普遍。
方案點(diǎn)評
惠普在大數(shù)據(jù)方面收購了兩個軟件公司Vertica與Autonomy,然后將它們的軟件與原有的硬件平臺進(jìn)行整合,針對結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都可以提供針對性的解決方案?;萜赵趯⒋髷?shù)據(jù)軟件與存儲硬件結(jié)合上也進(jìn)行了嘗試,其中一個成功的例子就是HP StoreAll大數(shù)據(jù)存儲平臺。HP StoreAll具有以下特點(diǎn):橫向擴(kuò)展,最大可以擴(kuò)展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,實(shí)現(xiàn)實(shí)時大數(shù)據(jù)的價值;內(nèi)置對OpenStack的支持,可快速部署;支持文件和對象類型的數(shù)據(jù)存儲。
NetApp:統(tǒng)一架構(gòu) 無限擴(kuò)展
如今,企業(yè)若想獲得成功,就必須想方設(shè)法應(yīng)對具有前所未有的復(fù)雜性、高性能的海量數(shù)據(jù),并盡可能地管理這些數(shù)據(jù),從中發(fā)掘更大的商業(yè)價值。
對于國內(nèi)用戶來說,無論企業(yè)的規(guī)模和數(shù)據(jù)量大小如何,運(yùn)用大數(shù)據(jù)的關(guān)鍵在于,企業(yè)是否把大數(shù)據(jù)作為一個真正的工具,去體現(xiàn)企業(yè)的差異化,從而提升競爭力。隨著越來越智慧的企業(yè)信息化的發(fā)展,IT不再是束縛企業(yè)發(fā)展的瓶頸,而是真正地融入了企業(yè)自身的業(yè)務(wù)中。越來越多的公司將大數(shù)據(jù)成功地運(yùn)用于企業(yè)的商業(yè)模式。例如,在歐美,很多企業(yè)已經(jīng)著手將大量資源投放在大數(shù)據(jù)領(lǐng)域。反觀國內(nèi),在金融領(lǐng)域,有為數(shù)不少的企業(yè)通過大數(shù)據(jù)的分析工具來分析金融的走勢,實(shí)現(xiàn)風(fēng)險管理,進(jìn)行信用卡的追蹤等。此外,像零售、制造、電信等行業(yè)也已在嘗試?yán)么髷?shù)據(jù)分析工具為企業(yè)營銷和決策提供支撐。
無論企業(yè)現(xiàn)在是否正在使用大數(shù)據(jù)工具,企業(yè)都應(yīng)全面地考慮自身未來發(fā)展的需求,選擇一個廠家的平臺與之共同發(fā)展,這可以有效避免因數(shù)據(jù)和應(yīng)用遷移帶來的麻煩。
在大數(shù)據(jù)方面,NetApp能夠幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)管理,應(yīng)對業(yè)務(wù)挑戰(zhàn)的極限,將以數(shù)據(jù)為導(dǎo)向的洞察轉(zhuǎn)化為有效行動。若想將數(shù)據(jù)轉(zhuǎn)化為商機(jī),僅僅提升管理能力是不夠的,需要徹底轉(zhuǎn)變數(shù)據(jù)和業(yè)務(wù)之間的聯(lián)系模式。NetApp可以幫助企業(yè)用戶持續(xù)管理數(shù)據(jù),迅速把握意料之外的新商機(jī),永久保存所有數(shù)據(jù),并在靈活、開放的存儲平臺之上打造屬于企業(yè)自己的大數(shù)據(jù)解決方案。
NetApp提供了可高效處理、分析、管理和訪問大規(guī)模數(shù)據(jù)的大數(shù)據(jù)解決方案。NetApp的解決方案組合可劃分為分析、帶寬和內(nèi)容三個主要用例,這被稱之為大數(shù)據(jù)的“ABC”基本要素。
具體來看,分析(Analysis)是指針對極大數(shù)據(jù)集的高效分析。NetApp分析解決方案就是幫助用戶深入了解和利用數(shù)字世界,將數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的信息,以及提供關(guān)于業(yè)務(wù)的更深入見解,從而幫助企業(yè)做出更好的決策。
帶寬(Bandwidth)是指適用于數(shù)據(jù)密集型工作負(fù)載的性能。此類解決方案著重于為速度非??斓墓ぷ髫?fù)載提供更高的性能。高帶寬應(yīng)用包括高性能計(jì)算(能以極快的速度執(zhí)行復(fù)雜的分析)、用于監(jiān)控和任務(wù)規(guī)劃的高性能視頻流、媒體和娛樂領(lǐng)域中的視頻剪輯和播放。
內(nèi)容(Content)是指無限的安全數(shù)據(jù)存儲。此類解決方案著重于滿足可擴(kuò)展的安全數(shù)據(jù)存儲需求。內(nèi)容解決方案必須支持存儲的無限擴(kuò)展能力,以便企業(yè)可以根據(jù)需要存儲任意多的數(shù)據(jù),并能在需要時找到所需的數(shù)據(jù)。
NetApp致力于通過一系列解決方案來提供高性能的運(yùn)算和大數(shù)據(jù)的應(yīng)用。2013年11月,NetApp再次更新了E系列家族產(chǎn)品,推出E2700和E5500。該系列產(chǎn)品采用可輕松擴(kuò)展的設(shè)計(jì),適用于要求99.999%的可靠性且穩(wěn)定、高性能的工作負(fù)載。
用戶在采購大數(shù)據(jù)存儲產(chǎn)品時,需要注意以下五個方面的問題:大數(shù)據(jù)存儲必須具有向上擴(kuò)展與向外擴(kuò)展的能力;架構(gòu)必須是針對工作負(fù)載進(jìn)行優(yōu)化的,具有實(shí)時處理能力;具有整合的數(shù)據(jù)保護(hù)功能;保證7×24小時運(yùn)行不中斷,可在線進(jìn)行容量擴(kuò)展,實(shí)施數(shù)據(jù)遷移等;可以實(shí)現(xiàn)服務(wù)的自動化。
方案點(diǎn)評
NetApp的技術(shù)優(yōu)勢集中體現(xiàn)在其統(tǒng)一存儲平臺上,從入門級產(chǎn)品到企業(yè)級產(chǎn)品,全部基于同一個體系架構(gòu)和操作系統(tǒng),不僅部署和使用方便,而且升級和擴(kuò)展非常簡單。當(dāng)初,NetApp收購LSI Engenio,其中一個重要的原因就是為了大數(shù)據(jù)。2013年,NetApp不斷更新E系列產(chǎn)品線,推出E2700和E5500等。E5500可以支持高IOPS混合工作負(fù)載和數(shù)據(jù)庫、高性能文件系統(tǒng)和帶寬密集型流等應(yīng)用,可確保數(shù)據(jù)的高可用性、完整性和安全性。
曙光XData:高度集成 貼近行業(yè)
關(guān)于大數(shù)據(jù)存儲,目前業(yè)界沒有一個通用的定義。曙光信息產(chǎn)業(yè)股份有限公司總裁助理兼存儲產(chǎn)品線產(chǎn)品總監(jiān)惠潤海從曙光大數(shù)據(jù)平臺和解決方案角度,概括出大數(shù)據(jù)存儲的主要特征。
首先,大數(shù)據(jù)存儲必須支持全類型數(shù)據(jù), 包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)支持。
其次,存儲性能上,一方面,大數(shù)據(jù)存儲要支持海量數(shù)據(jù),并且要在保證數(shù)據(jù)可靠性的基礎(chǔ)之上,實(shí)現(xiàn)容量與性能的線性擴(kuò)展;另一方面,為了實(shí)現(xiàn)大數(shù)據(jù)的價值,批處理和實(shí)時處理兩種措施都需要高性能的數(shù)據(jù)訪問獲取能力。
最后,在系統(tǒng)達(dá)到一定規(guī)模之后,系統(tǒng)的易用性和可管理性也是不可或缺的。
從應(yīng)用角度來說,目前中國用戶在大數(shù)據(jù)存儲應(yīng)用中最迫切的需求,是如何真正實(shí)現(xiàn)用戶數(shù)據(jù)的價值,如何驅(qū)動業(yè)務(wù)發(fā)展,實(shí)現(xiàn)決策和運(yùn)營。“從系統(tǒng)構(gòu)建層面說,要實(shí)現(xiàn)數(shù)據(jù)高性價比的存儲和管理,同時滿足數(shù)據(jù)服務(wù)的相關(guān)需求?!被轁櫤1硎尽?/p>
針對用戶對大數(shù)據(jù)存儲的需求, 曙光推出了像大數(shù)據(jù)一體機(jī)這樣的全類型數(shù)據(jù)分析型產(chǎn)品,同時還基于該產(chǎn)品構(gòu)建了基于行業(yè)的解決方案,以幫助用戶實(shí)現(xiàn)大數(shù)據(jù)落地。
“除此之外, 我們還提供了大數(shù)據(jù)統(tǒng)一數(shù)據(jù)中心解決方案, 涵蓋了像主攻事物處理的DS900、DS800,以及針對文件存儲的Parastor等存儲產(chǎn)品。我們基于這些存儲產(chǎn)品構(gòu)建了大數(shù)據(jù)運(yùn)營管理平臺?!被轁櫤=榻B說,“曙光的優(yōu)勢不僅在于可以提供全面的產(chǎn)品支撐,更重要的是能夠提供數(shù)據(jù)生命周期過程服務(wù)支持。目前,我們提供的免費(fèi)維保期限為5年。”
曙光開發(fā)了針對不同行業(yè)和應(yīng)用場景的大數(shù)據(jù)存儲解決方案。以金融行業(yè)為例,目前國內(nèi)四大行的應(yīng)用系統(tǒng)每年產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到PB級,結(jié)構(gòu)化數(shù)據(jù)也以百TB計(jì)。面對如此大量的數(shù)據(jù),如何存儲、管理、利用和盤活它們呢?惠潤海認(rèn)為,只有通過商業(yè)智能和高級分析應(yīng)用解決方案才能將數(shù)據(jù)的價值最大程度地發(fā)揮出來。
針對金融行業(yè)用戶的需求,曙光開發(fā)的XData大數(shù)據(jù)解決方案利用優(yōu)化的大數(shù)據(jù)處理技術(shù),對文件管理、歷史數(shù)據(jù)查詢和數(shù)據(jù)分析類應(yīng)用等進(jìn)行深入研究,為數(shù)據(jù)爆炸式增長帶來的海量數(shù)據(jù)存儲及分析應(yīng)用提供高可靠的解決方案。
曙光金融行業(yè)XData大數(shù)據(jù)解決方案采用曙光自主研發(fā)的SN-MPP并行數(shù)據(jù)庫,同時結(jié)合大數(shù)據(jù)處理事實(shí)標(biāo)準(zhǔn)Hadoop,并充分考慮了多方面的數(shù)據(jù)收集,加入ETL工具和連接驅(qū)動器,提供了類SQL的接口,還和現(xiàn)有金融業(yè)務(wù)系統(tǒng)進(jìn)行對接。
針對金融行業(yè)歷史數(shù)據(jù),XData大數(shù)據(jù)解決方案在方案設(shè)計(jì)上主要考慮了數(shù)據(jù)的安全性、歷史數(shù)據(jù)高效導(dǎo)入、快速訪問與分析報表。曙光金融行業(yè)大數(shù)據(jù)解決方案立足于基礎(chǔ)平臺建設(shè),同時切實(shí)貼合金融行業(yè)用戶需求,提供了優(yōu)質(zhì)的軟硬一體化解決方案,為用戶一攬子解決了部署、業(yè)務(wù)移植開發(fā)等技術(shù)難題,幫助用戶跨過應(yīng)用門檻。