時(shí)間:2023-06-09 10:02:15
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇數(shù)據(jù)分析分析技術(shù),愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條,但一些對(duì)網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運(yùn)維效率相關(guān)的有價(jià)值的數(shù)據(jù),對(duì)于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言,似乎是一個(gè)不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級(jí),如果采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,一方面數(shù)據(jù)量過大,表的管理、維護(hù)開銷過大,要做到每個(gè)字段建索引,存儲(chǔ)浪費(fèi)巨大;另一方面計(jì)算分析過程耗時(shí)過長,無法滿足實(shí)時(shí)和準(zhǔn)實(shí)時(shí)分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息,支撐主動(dòng)維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運(yùn)營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺(tái)硬件配置:云計(jì)算平臺(tái)分配8臺(tái)虛擬機(jī),每臺(tái)虛機(jī)配置CPU16核;內(nèi)存32 G;硬盤2 T。
3 制定方案
進(jìn)入大數(shù)據(jù)時(shí)代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價(jià)值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計(jì)算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價(jià)值信息。
Hadoop是Apache基金會(huì)用JAVA語言開發(fā)的分布式框架,通過利用計(jì)算機(jī)集群對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算分析。Hadoop框架最重要的兩個(gè)核心是HDFS和MapReduce,HDFS用于分布式存儲(chǔ),MapReduce則實(shí)現(xiàn)分布式任務(wù)計(jì)算。
一個(gè)HDFS集群包含元數(shù)據(jù)節(jié)點(diǎn)(NameNode)、若干數(shù)據(jù)節(jié)點(diǎn)(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲(chǔ)數(shù)據(jù)塊文件。HDFS將一個(gè)文件劃分成若干個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲(chǔ)DataNode節(jié)點(diǎn)上。
MapReduce是Google公司提出的針對(duì)大數(shù)據(jù)的編程模型。核心思想是將計(jì)算過程分解成Map(映射)和Reduce(歸約)兩個(gè)過程,也就是將一個(gè)大的計(jì)算任務(wù)拆分為多個(gè)小任務(wù),MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲(chǔ)的計(jì)算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計(jì)算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運(yùn)行、結(jié)束的,磁盤I/O開銷大、效率低,無法滿足實(shí)時(shí)計(jì)算需求。
Spark是由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開發(fā)的類Hadoop MapReduce的分布式并行計(jì)算框架,主要特點(diǎn)是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)外,還支持多次迭代計(jì)算,特別適合流計(jì)算和圖計(jì)算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實(shí)現(xiàn)對(duì)告警數(shù)據(jù)的挖掘分析。
4 分析平臺(tái)設(shè)計(jì)
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機(jī)先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對(duì)文件進(jìn)行校驗(yàn),通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進(jìn)行初步刪選,通過數(shù)量、位置和時(shí)間三個(gè)維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對(duì)某類告警進(jìn)行重點(diǎn)關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對(duì)核心重要節(jié)點(diǎn)的所有告警均納入實(shí)時(shí)監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對(duì)不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計(jì)個(gè)性化的監(jiān)控方案;
按客戶業(yè)務(wù)細(xì)分,針對(duì)客戶數(shù)字出租電路設(shè)計(jì)個(gè)性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計(jì)分析。Spark SQL模K在進(jìn)行分析時(shí),將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊(cè)為臨時(shí)表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊(cè)成臨時(shí)表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對(duì)告警工單做的一個(gè)簡單分析:
5 平臺(tái)實(shí)踐應(yīng)用
探索運(yùn)維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實(shí)現(xiàn)主動(dòng)維護(hù)的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺(tái)開發(fā)了相應(yīng)的分析腳本,目前已實(shí)現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗(yàn)評(píng)定告警監(jiān)控級(jí)別往往會(huì)與實(shí)際形成偏差,主要表現(xiàn)在以下幾個(gè)方面:監(jiān)控級(jí)別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報(bào)未知的告警類型就無法在第一時(shí)間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級(jí)別的客戶對(duì)故障告警監(jiān)控的實(shí)時(shí)性要求也是不同的。
通過大數(shù)據(jù)分析平臺(tái)對(duì)差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機(jī)房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實(shí)現(xiàn)日、周、月、某個(gè)時(shí)間區(qū)等統(tǒng)計(jì)分析。
應(yīng)用案例:省NOC通過大數(shù)據(jù)分析出一條編號(hào)為CTVPN80113的中國平安大客戶電路在一段時(shí)間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護(hù)人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動(dòng),緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條~500萬條,其中99%都會(huì)根據(jù)告警過濾規(guī)則進(jìn)行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運(yùn)維經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個(gè)過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無法滿足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對(duì)被過濾的告警進(jìn)行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時(shí)處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動(dòng)環(huán)專業(yè)被過濾的告警情況分布。
5.4 動(dòng)環(huán)深放電分析
動(dòng)環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計(jì)算這一放電過程的持續(xù)時(shí)間,記為深放電時(shí)長,該時(shí)長可以初步反映電池的放電性能。一個(gè)局站每天產(chǎn)生幾十萬條電壓等動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)對(duì)蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過多和放電時(shí)長過短的局站,核查蓄電池、油機(jī)配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計(jì)了一個(gè)月內(nèi)撫州、贛州、吉安三分公司幾十億條動(dòng)環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實(shí)驗(yàn)性地解決告警數(shù)據(jù)存儲(chǔ)和分析等相關(guān)問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴(kuò)展到對(duì)動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。
從實(shí)際運(yùn)行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,滿足電信運(yùn)營商主動(dòng)運(yùn)維的需求。
參考文獻(xiàn):
[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊(cè)[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動(dòng)態(tài)存儲(chǔ)策略的數(shù)據(jù)管理系統(tǒng)[J]. 無線電工程, 2014,44(11): 52-54.
關(guān)鍵詞:大數(shù)據(jù) 智能 數(shù)據(jù)分析
中圖分類號(hào):F503 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)04(a)-0021-01
對(duì)于數(shù)據(jù)分析來說,其主要的目的就是通過對(duì)數(shù)據(jù)的分析去發(fā)現(xiàn)問題或預(yù)測趨勢。從數(shù)據(jù)鉆取、大規(guī)模分析的技術(shù)手段、以及算法執(zhí)行上來說,大規(guī)模分析是和小規(guī)模數(shù)據(jù)在技術(shù)上是有很大差異的。想要探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù),首先要對(duì)數(shù)據(jù)分析這一概念進(jìn)行深入研究。
1 數(shù)據(jù)分析
數(shù)據(jù)分析的過程其實(shí)簡單的說就是做報(bào)告,做什么樣的報(bào)告反映什么樣的指標(biāo)。最開始的時(shí)候基本上是data processing。例如零售行業(yè)來說,最主要的指標(biāo)就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對(duì)于不同的行業(yè)會(huì)有不同的相關(guān)的KPI需要跟蹤,所以報(bào)告的內(nèi)容也會(huì)有所側(cè)重,但是只要你一個(gè)行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開展。
對(duì)于數(shù)據(jù)分析,如果公司部門分的比較細(xì)的(例如可能有建模組),那么做數(shù)據(jù)分析可能永遠(yuǎn)都是做data processing了。對(duì)于模型的分析,需要你對(duì)業(yè)務(wù)有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。
數(shù)據(jù)分析主要涉及的技能:
(1)數(shù)據(jù)庫的能力。越全面越好,如果不是理工科的,最起碼要會(huì)select那些簡單的查詢語句。
(2)EXCEL、PPT的能力。報(bào)告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉(zhuǎn)化為自動(dòng)化的能力,提高工作效率,領(lǐng)導(dǎo)也對(duì)你刮目相看,自己也有更多空余的時(shí)間準(zhǔn)備其他方面的知識(shí)。
(3)市場分析能力。學(xué)會(huì)觀察市場的走向和關(guān)注的內(nèi)容,例如零售行業(yè),現(xiàn)在大家都對(duì)CRM很熱衷,那相關(guān)的分析方法和方式是怎么樣的,你要自己去了解。從來不會(huì)有人手把手的將所有東西都告訴你,你必須自己學(xué)會(huì)去增長知識(shí)。
(4)一些會(huì)計(jì)的知識(shí)。因?yàn)橥ㄟ^以上分析,就是會(huì)計(jì)管理的一部分內(nèi)容,最后還是公司盈利問題。有興趣的也可以去看看戰(zhàn)略管理方面的,對(duì)于做數(shù)據(jù)分析也很有好處的說。
綜合來看,可以說數(shù)據(jù)分析=技術(shù)+市場+戰(zhàn)略。
2 如何培養(yǎng)數(shù)據(jù)分析能力
理論:
基礎(chǔ)的數(shù)據(jù)分析知識(shí),至少知道如何做趨勢分析、比較分析和細(xì)分,不然拿到一份數(shù)據(jù)就無從下手;
(2)基礎(chǔ)的統(tǒng)計(jì)學(xué)知識(shí),至少基礎(chǔ)的統(tǒng)計(jì)量要認(rèn)識(shí),知道這些統(tǒng)計(jì)量的定義和適用條件,統(tǒng)計(jì)學(xué)方法可以讓分析過程更加嚴(yán)謹(jǐn),結(jié)論更有說服力;
(3)對(duì)數(shù)據(jù)的興趣,以及其它的知識(shí)多多益善,讓分析過程有趣起來。
實(shí)踐:
(1)明確分析的目的。如果分析前沒有明確分析的最終目標(biāo),很容易被數(shù)據(jù)繞進(jìn)去,最終自己都不知道自己得出的結(jié)論到底是用來干嘛的;
(2)多結(jié)合業(yè)務(wù)去看數(shù)據(jù)。數(shù)據(jù)從業(yè)務(wù)運(yùn)營中來,分析當(dāng)然要回歸到業(yè)務(wù)中去,多熟悉了解業(yè)務(wù)可以使數(shù)據(jù)看起來更加透徹;
(3)了解數(shù)據(jù)的定義和獲取。最好從數(shù)據(jù)最初是怎么獲取的開始了解,當(dāng)然指標(biāo)的統(tǒng)計(jì)邏輯和規(guī)則是必須熟記于心的,不然很容易就被數(shù)據(jù)給坑了;
(4)最后就是不斷地看數(shù)據(jù)、分析數(shù)據(jù),這是個(gè)必經(jīng)的過程,往往一個(gè)工作經(jīng)驗(yàn)豐富的非數(shù)據(jù)分析的運(yùn)營人員要比剛進(jìn)來不久的數(shù)據(jù)分析師對(duì)數(shù)據(jù)的了解要深入得多,就是這個(gè)原因。
3 大數(shù)據(jù)
大數(shù)據(jù)就是通過統(tǒng)計(jì)分析計(jì)算機(jī)收集的數(shù)據(jù),在人們可能不知道“為什么”的前提下,了解到事物的狀態(tài)、趨勢、結(jié)果等“是什么”。
對(duì)于大數(shù)據(jù),一直來說,數(shù)據(jù)規(guī)模導(dǎo)致的存儲(chǔ)、運(yùn)算等技術(shù)問題從來不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領(lǐng)的模型和算法問題。早期的各類OLAP工具已經(jīng)足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構(gòu)成本和門檻,就徹底將大數(shù)據(jù)帶入了一個(gè)普及的領(lǐng)域。
從技術(shù)層面說,大數(shù)據(jù)和以前的數(shù)據(jù)時(shí)代的最大差異在于,以前是數(shù)據(jù)找應(yīng)用/算法的過程(例如各大銀行的大集中項(xiàng)目,以及數(shù)據(jù)建倉),而大數(shù)據(jù)時(shí)代的重要技術(shù)特征之一,是應(yīng)用/算法去找數(shù)據(jù)的過程,因?yàn)閿?shù)據(jù)規(guī)模變成了技術(shù)上最大的挑戰(zhàn)。
大數(shù)據(jù)的特點(diǎn):
(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問題是根據(jù)這個(gè)問題的所有數(shù)據(jù)而非樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關(guān)系而是相關(guān)關(guān)系。
(2)大數(shù)據(jù)應(yīng)用的幾個(gè)可能:當(dāng)文字變成數(shù)據(jù),此時(shí)人可以用之閱讀,機(jī)器可以用之分析;當(dāng)方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時(shí)的谷歌尋人;當(dāng)溝通變成數(shù)據(jù),就成了社交圖譜。一切都可以量化,將世界看作可以理解的數(shù)據(jù)的海洋,為我們提供了一個(gè)從來未有過的審視現(xiàn)實(shí)的視角。
(3)數(shù)據(jù)創(chuàng)新的價(jià)值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù)據(jù)的總和比部分更有價(jià)值,重組總和和本身價(jià)值也比單個(gè)總和更大;可擴(kuò)展數(shù)據(jù):在設(shè)計(jì)數(shù)據(jù)收集時(shí)就設(shè)計(jì)好了它的可擴(kuò)展性,可以增加數(shù)據(jù)的潛在價(jià)值;數(shù)據(jù)的折舊值:數(shù)據(jù)會(huì)無用,需淘汰更新;數(shù)據(jù)廢氣:比如語音識(shí)別,當(dāng)用戶指出語音識(shí)別程序誤解了他的意思,實(shí)際上就有效的訓(xùn)練了這個(gè)系統(tǒng)。
總之,大數(shù)據(jù)是因?yàn)閷?duì)它的分析使用,才產(chǎn)生和體現(xiàn)它的價(jià)值,而不是因?yàn)槠溆玫搅送怀龅募夹g(shù)和算法才體現(xiàn)了它的價(jià)值。
4 大數(shù)據(jù)下的智能數(shù)據(jù)分析
在大數(shù)據(jù)的背景下,必須考慮數(shù)據(jù)之間的關(guān)聯(lián)性。一個(gè)單獨(dú)的數(shù)據(jù)是沒有意義的,實(shí)際中,選擇處在兩個(gè)極端的數(shù)據(jù)往往更容易找出它們之間的聯(lián)系,把它們放在一個(gè)框架中看才能發(fā)現(xiàn)問題。因此,可以用以下四種方法在大數(shù)據(jù)背景下進(jìn)行智能數(shù)據(jù)分析:
(1)從解決問題的角度出發(fā)收集數(shù)據(jù);
(2)把收集的數(shù)據(jù)整理好,放入一個(gè)框架內(nèi),并利用這個(gè)框架幫助決策者做出決定;
(3)評(píng)估決定與行動(dòng)的效果,這將告訴我們框架是否合理;
(4)如果有新的數(shù)據(jù)出現(xiàn),我們將考察能否利用它對(duì)前面三步做出改進(jìn),以及我們今天是否還需要收集更多種類的數(shù)據(jù)。
5 結(jié)語
數(shù)據(jù)分析的最終目的是幫助業(yè)務(wù)發(fā)現(xiàn)問題并解決問題,提升公司價(jià)值,而這些是從數(shù)據(jù)發(fā)覺的,而不是盲目下結(jié)論。每家公司都有自己業(yè)務(wù)生產(chǎn)的數(shù)據(jù),通過數(shù)據(jù)分析、同比環(huán)比、漏斗分析及模型等,發(fā)現(xiàn)業(yè)務(wù)上存在的問題,幫助公司業(yè)務(wù)的優(yōu)化。
參考文獻(xiàn)
[1] 李貴兵,羅洪.大數(shù)據(jù)下的智能數(shù)據(jù)分析技術(shù)研究[J].科技資訊,2013(30).
關(guān)鍵詞:聯(lián)機(jī)數(shù)據(jù)分析;處理數(shù)據(jù);分析和轉(zhuǎn)換數(shù)據(jù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0006-03
為了提升大學(xué)物理公共課程的教學(xué)水平,更好地了解學(xué)生的學(xué)習(xí)情況,需要引用聯(lián)機(jī)數(shù)據(jù)技術(shù),通過科學(xué)建立模型對(duì)教學(xué)數(shù)據(jù)進(jìn)行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。
1 建立數(shù)據(jù)模型
建立模型是為了更加直觀地表達(dá)數(shù)據(jù)和事實(shí)。對(duì)于同一批數(shù)據(jù),人們總是會(huì)以不同的角度對(duì)其進(jìn)行觀察,這就是維度。維度模型從不同的角度分析數(shù)據(jù),最終得出一張事實(shí)表。
如圖1所示,維度模型包括了教材維度表,學(xué)期維度表,教師維度表,學(xué)生維度表和教學(xué)事實(shí)表。為了更好地分析教學(xué)效果,維度模型從四個(gè)不同的角度進(jìn)行分析,每一張維度表上都注明了詳細(xì)的數(shù)據(jù)內(nèi)容。最后,在總結(jié)四張維度表的基礎(chǔ)上,概括了最終的教學(xué)事實(shí)表。
2 OLAP技術(shù)
2.1 數(shù)據(jù)的采集
原有的Visual和SQL數(shù)據(jù)庫上儲(chǔ)存了學(xué)生的信息,教師的信息以及教學(xué)的數(shù)據(jù)等等。如圖二所示,教務(wù)數(shù)據(jù)庫中包含了課程信息表,學(xué)生信息表以及選課成績表。DTS工具能夠從不同的數(shù)據(jù)庫中自動(dòng)抽取需要進(jìn)行分析的數(shù)據(jù),并且將其全部集中在一個(gè)新的數(shù)據(jù)庫中。新的SQL數(shù)據(jù)庫既可以儲(chǔ)存信息,還能夠?qū)π畔⑦M(jìn)行管理。聯(lián)機(jī)分析處理技術(shù)從不同的角度分析數(shù)據(jù),有助于全面了解學(xué)生的學(xué)習(xí)情況和教師的教學(xué)質(zhì)量。
2.2 數(shù)據(jù)分析的結(jié)構(gòu)
從圖2中可以看出,數(shù)據(jù)分析的結(jié)構(gòu)包括了四層,其中最底層的是各種信息數(shù)據(jù)庫和文本文件,在此基礎(chǔ)上建立數(shù)據(jù)ETL,然后建立相應(yīng)的維度模型,最后利用聯(lián)機(jī)分析技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機(jī)分析技術(shù)的基礎(chǔ),也是必不可少的一步。多維度分析是該結(jié)構(gòu)中的最后一步,最終的結(jié)果將會(huì)把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來。
2.3 轉(zhuǎn)換數(shù)據(jù)
由于不同數(shù)據(jù)的語法可能存在差異,因此,把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結(jié)構(gòu)顯得尤為必要。在聯(lián)機(jī)分析技術(shù)應(yīng)用的過程中,轉(zhuǎn)換數(shù)據(jù)是關(guān)鍵的一步,能否成功轉(zhuǎn)換數(shù)據(jù),決定了維度模型的建立是否具有科學(xué)性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語法,語義結(jié)構(gòu)不同引起的問題。
和數(shù)據(jù)語義不同相比,處理不同語法的數(shù)據(jù)顯得更為簡單。如果數(shù)據(jù)本身和目標(biāo)數(shù)據(jù)之間存在語法結(jié)構(gòu)不同的問題,那么只需要通過函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換即可。一般來說,數(shù)據(jù)本身的內(nèi)容并不會(huì)影響轉(zhuǎn)換過程,只要建立原數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,就能解決數(shù)據(jù)名稱存在沖突的問題。例如,學(xué)生數(shù)據(jù)庫本身的信息包括了學(xué)生的ID和班級(jí),這就相當(dāng)于最終目標(biāo)數(shù)據(jù)中學(xué)生對(duì)應(yīng)的名稱和班別。如果數(shù)據(jù)類型不同,可以運(yùn)用相應(yīng)的函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換,例如trim()函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對(duì)原數(shù)據(jù)中學(xué)生的ID,專業(yè)以及院名進(jìn)行轉(zhuǎn)換的過程,其轉(zhuǎn)換代碼如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名稱”))
DTSDestination(“專業(yè)”)=cstr(DTSSourse(“專業(yè)”))
DTSDestination(“院名”)=trim(DTSSourse(“學(xué)院”))
Main=DTSTransformStat_OK
End Function
轉(zhuǎn)換不同語義結(jié)構(gòu)的數(shù)據(jù)是一個(gè)復(fù)雜的過程,它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此,僅僅通過一步完成數(shù)據(jù)轉(zhuǎn)換的過程是幾乎不可能的,它需要將原數(shù)據(jù)進(jìn)行一次次轉(zhuǎn)換,才能得到最終的目標(biāo)數(shù)據(jù)。例如每一個(gè)教師都有以及開展項(xiàng)目,在原數(shù)據(jù)中只能看到項(xiàng)目的名稱和論文的名稱,如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項(xiàng)目數(shù)量,則需要經(jīng)過兩步的數(shù)據(jù)轉(zhuǎn)換。
2.4 數(shù)據(jù)結(jié)果分析
原數(shù)據(jù)從SQL中提取出來,然后通過函數(shù)對(duì)其進(jìn)行轉(zhuǎn)換,最后利用聯(lián)機(jī)分析技術(shù)進(jìn)行數(shù)據(jù)管理和分析,從不同的角度研究數(shù)據(jù),從而全面分析學(xué)生的學(xué)習(xí)情況和教師的教學(xué)情況。數(shù)據(jù)分析的方法有很多種,其目的都是為了全方位地剖析數(shù)據(jù)。
2.4.1 高校教師教學(xué)質(zhì)量的對(duì)比分析
在教師維度表中,我們已經(jīng)按照教師的從業(yè)年齡,學(xué)歷以及職稱對(duì)其進(jìn)行劃分,不同職稱的教師,其教學(xué)質(zhì)量有著明顯的區(qū)別。教師的學(xué)歷不同,教齡有所差異,這都和教學(xué)效果息息相關(guān)。
2.4.2 不同時(shí)期對(duì)教學(xué)質(zhì)量的影響分析
聯(lián)機(jī)分析處理技術(shù)能夠從多角度分析數(shù)據(jù),教學(xué)質(zhì)量不可能是一成不變的,它與多個(gè)因素密不可分,時(shí)間也是其中一個(gè)因素。在不同的時(shí)期,由于政策的變動(dòng)和外界因素的影響,教師的教學(xué)質(zhì)量也會(huì)隨之而受到不同程度的影響。
2.4.3 教學(xué)質(zhì)量和其他因素息息相關(guān)
除了時(shí)間和教師的水平會(huì)對(duì)教學(xué)質(zhì)量造成一定的影響,還有其他因素同樣會(huì)影響教學(xué)效果,例如:學(xué)生的學(xué)習(xí)能力,學(xué)校選用的課本等。綜合考慮各個(gè)因素對(duì)教學(xué)效果的影響,有利于教育部門更好地作出相應(yīng)的政策調(diào)整。
3 計(jì)算機(jī)分析處理技術(shù)中的數(shù)據(jù)處理方法分析
無可置疑,計(jì)算機(jī)技術(shù)的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今,計(jì)算機(jī)技術(shù)已經(jīng)全面滲透到我們生活中和工作中的各個(gè)方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中,計(jì)算機(jī)技術(shù)都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增,這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法滿足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性,這些數(shù)字在顯示之前,都必須經(jīng)過一系列的轉(zhuǎn)換,計(jì)算以及處理。首先,數(shù)據(jù)會(huì)以一種形式經(jīng)過轉(zhuǎn)換器,然后變成另一種新的形式,只有這樣計(jì)算機(jī)才能對(duì)數(shù)據(jù)進(jìn)行處理和分析。處理數(shù)據(jù)是一個(gè)復(fù)雜多變的過程,它的方法并不是單一的,根據(jù)數(shù)據(jù)處理的目標(biāo)不同,需要選擇不同的數(shù)據(jù)處理方法。例如,有的數(shù)據(jù)需要進(jìn)行標(biāo)度轉(zhuǎn)換,但有些數(shù)據(jù)只需要進(jìn)行簡單計(jì)算即可,計(jì)算機(jī)技術(shù)的不斷進(jìn)步是為了更好地應(yīng)對(duì)人們對(duì)數(shù)據(jù)處理新的需要。
計(jì)算機(jī)數(shù)據(jù)處理技術(shù)的應(yīng)用離不開系統(tǒng),它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性:
1)自動(dòng)更正功能,計(jì)算機(jī)系統(tǒng)在處理數(shù)據(jù)時(shí),對(duì)于計(jì)算結(jié)果出現(xiàn)的誤差能夠及時(shí)修正,確保結(jié)果的準(zhǔn)確度。
2)傳統(tǒng)模擬系統(tǒng)只能進(jìn)行數(shù)據(jù)的簡單計(jì)算,而計(jì)算機(jī)系統(tǒng)則能夠處理復(fù)雜多變的數(shù)據(jù),其適用范圍和領(lǐng)域更加廣。
3)計(jì)算機(jī)系統(tǒng)不需要過多的硬件,只需要編寫相應(yīng)的程序就能夠完成數(shù)據(jù)的處理,在節(jié)省空間的同時(shí)也降低了數(shù)據(jù)處理的成本。
4)計(jì)算機(jī)系統(tǒng)特有的監(jiān)控系統(tǒng),能夠隨時(shí)監(jiān)測系統(tǒng)的安全性,從而確保數(shù)據(jù)的準(zhǔn)確度。
對(duì)于不同的數(shù)據(jù),往往需要采用不同的處理方式,處理數(shù)據(jù)的簡單方法包括查表,計(jì)算等。除此之外,標(biāo)度轉(zhuǎn)換,數(shù)字濾波同樣是應(yīng)用十分廣的處理技術(shù)。
3.1 數(shù)據(jù)計(jì)算
在各種數(shù)據(jù)處理方法中,計(jì)算法是最為簡單的一種,利用現(xiàn)有的數(shù)據(jù)設(shè)置程序,然后直接通過計(jì)算得出最終的目標(biāo)數(shù)據(jù)。一般來說,利用這種方法處理數(shù)據(jù)需要遵循一個(gè)過程:首先,求表達(dá)式,這是計(jì)算法最基本的一步;其次,設(shè)計(jì)電路,在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來;最后,利用第一步已經(jīng)求出的表達(dá)式運(yùn)算數(shù)據(jù)。
3.2 數(shù)據(jù)查表
3.2.1 按順序查表格
當(dāng)需要搜索表格中的數(shù)據(jù)時(shí),往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設(shè)置關(guān)鍵詞,最后按照順序進(jìn)行搜索。
3.2.2 通過計(jì)算查表格
這是一種較為簡單的方法,適用范圍并不廣。只有當(dāng)數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關(guān)系時(shí),才能夠使用這種方法查表格。
3.2.3 利用程序查表格
相比于上述的兩種方法,利用程序查表格是一種相對(duì)復(fù)雜的方法,但是這種方法的優(yōu)點(diǎn)在于查找效率高,并且準(zhǔn)確度高。
3.3 數(shù)據(jù)濾波處理
采集數(shù)據(jù)并不難,但是確保每一個(gè)數(shù)據(jù)的真實(shí)性卻十分困難,尤其是在工業(yè)系統(tǒng)中,數(shù)據(jù)的測量難以確保絕對(duì)準(zhǔn)確,因?yàn)樵跍y量的過程中,外界環(huán)境對(duì)數(shù)據(jù)的影響往往是難以預(yù)估的。為了提高數(shù)據(jù)處理的精確度和準(zhǔn)確率,需要借助檢測系統(tǒng)對(duì)采集的數(shù)據(jù)進(jìn)行深加工。盡可能地讓處理的數(shù)據(jù)接近真實(shí)的數(shù)據(jù),并且在數(shù)據(jù)采集的過程中最大限度地減少外界因素對(duì)其的影響,從而提高計(jì)算結(jié)果的準(zhǔn)確度。
濾波處理技術(shù)的應(yīng)用首先要確定數(shù)據(jù)的偏差,一般來說,每兩個(gè)測量數(shù)據(jù)之間都會(huì)存在一定的誤差,首先需要計(jì)算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值,可以認(rèn)定數(shù)據(jù)無效,只有符合偏差范圍內(nèi)的數(shù)據(jù),才能進(jìn)行下一步的處理。
為了減少由于外界影響導(dǎo)致數(shù)據(jù)失真的情況,利用程序過濾數(shù)據(jù)是很有必要的。濾波技術(shù)有幾種,根據(jù)不同的需要可以選擇相應(yīng)的數(shù)據(jù)處理技術(shù),每一種數(shù)據(jù)濾波技術(shù)都有其適用范圍和優(yōu)點(diǎn)。數(shù)據(jù)濾波技術(shù)包括算術(shù)平均值濾波,加權(quán)平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術(shù)。
3.4 轉(zhuǎn)換量程和標(biāo)度
在測量數(shù)據(jù)的過程中,每一種參數(shù)都有相應(yīng)的單位,為了方便數(shù)據(jù)處理,需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號(hào)。標(biāo)度轉(zhuǎn)換是必不可少的,為了加強(qiáng)系統(tǒng)的管理和監(jiān)測,需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線性參數(shù)標(biāo)度變換,參數(shù)標(biāo)度變換,量程轉(zhuǎn)換,這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過程中較為常見。當(dāng)計(jì)算過程遇到困難,可以結(jié)合其他的標(biāo)度轉(zhuǎn)換方法進(jìn)行數(shù)據(jù)處理。
3.5 非線性補(bǔ)償計(jì)算法
3.5.1 線性插值計(jì)算方法
信號(hào)的輸入和輸出往往會(huì)存在一定的關(guān)系。曲線的斜率和誤差之間存在正相關(guān)關(guān)系,斜率越大,誤差越大。由此可見,這一計(jì)算方法僅僅適用于處理變化不大的數(shù)據(jù)。當(dāng)曲線繪制選用的數(shù)據(jù)越多,曲線的準(zhǔn)確程度越高,偏差越小。
3.5.2 拋物線計(jì)算方法
拋物線計(jì)算方法是一種常用的數(shù)據(jù)處理方法,只需要采集三組數(shù)據(jù),就可以連成一條拋物線。相比于直線,拋物線更加接近真實(shí)的曲線,從而提高數(shù)據(jù)的準(zhǔn)確度。拋物線計(jì)算法的過程,只需要求出最后兩步計(jì)算中的M值,就能夠直接輸入數(shù)據(jù)得出結(jié)果。
3.6 數(shù)據(jù)長度的處理
當(dāng)輸入數(shù)據(jù)和輸出數(shù)據(jù)的長度不一,需要對(duì)其進(jìn)行轉(zhuǎn)換,使數(shù)據(jù)長度達(dá)到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同,因此,當(dāng)輸入位數(shù)大于輸出位數(shù),可以通過移位的方法使位數(shù)變成相同。相反,當(dāng)輸入位數(shù)少于輸出位數(shù)時(shí),可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。
4 結(jié)語
本文對(duì)聯(lián)機(jī)分析技術(shù)進(jìn)行了詳細(xì)的論述,該技術(shù)的應(yīng)用對(duì)于評(píng)價(jià)教學(xué)效果有著重要的意義。在物理公共課程中,教學(xué)數(shù)據(jù)數(shù)量巨大,如果利用傳統(tǒng)的方法對(duì)其進(jìn)行分析,將會(huì)耗費(fèi)大量的人力物力,而采用OLAP技術(shù)則能更加快速準(zhǔn)確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評(píng)估教學(xué)質(zhì)量必經(jīng)的過程,而使用QLAP技術(shù)是為了能夠多層次,全方位地分析各個(gè)因素對(duì)教學(xué)質(zhì)量的影響,從而更好地改進(jìn)高校教育中存在的不足。除了分析物理課程數(shù)據(jù),聯(lián)機(jī)分析技術(shù)同樣適用于其他課程的數(shù)據(jù)處理和分析。
參考文獻(xiàn):
[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:電子工業(yè)出版社,2003.
【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù) 頻譜數(shù)據(jù)分析
前言:在對(duì)頻譜監(jiān)測數(shù)據(jù)分析中,簡單統(tǒng)計(jì)分析已經(jīng)無法滿足頻譜監(jiān)測數(shù)據(jù)實(shí)際需求,需要對(duì)數(shù)據(jù)深入研究,探索配頻譜監(jiān)測數(shù)據(jù)潛在關(guān)聯(lián),尋找到異常信號(hào),有效提升頻譜監(jiān)測精確性,起到輔作用。數(shù)據(jù)挖掘技術(shù)在應(yīng)用過程中,能夠挖掘海量數(shù)據(jù)內(nèi)價(jià)值,有關(guān)監(jiān)督設(shè)備可以對(duì)數(shù)據(jù)進(jìn)行掃描,深入分析有關(guān)數(shù)據(jù)。
一、數(shù)據(jù)挖掘技術(shù)簡介
1.1數(shù)據(jù)挖掘的概念
在上世紀(jì)90年代內(nèi),研究人員提出了數(shù)據(jù)挖掘,主要目的就是希望能夠?qū)⑺杉降膽?yīng)用數(shù)據(jù)內(nèi)所具有的潛在價(jià)值信息挖掘,獲取價(jià)值信息。數(shù)據(jù)挖掘內(nèi)包含較多學(xué)科內(nèi)容,例如人工智能、統(tǒng)計(jì)、可視化技術(shù)、數(shù)據(jù)庫等。數(shù)據(jù)挖掘在對(duì)數(shù)據(jù)分析研究過程中,主要采取分類及聚類進(jìn)行監(jiān)測,對(duì)有關(guān)知識(shí)進(jìn)行演變。數(shù)據(jù)挖掘常見模式主要分為四種,分別為頻繁模式、分類模式、聚類模式與異常模式[1]。
1.2數(shù)據(jù)挖掘的過程
1、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段主要包含兩方面工作,分別為數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘應(yīng)用點(diǎn)在確定之后,能夠有效對(duì)有關(guān)數(shù)據(jù)進(jìn)行收集,同時(shí)對(duì)數(shù)據(jù)背景進(jìn)行掌握,對(duì)挖掘模式進(jìn)行確定。有關(guān)數(shù)據(jù)在收集之后,需要對(duì)數(shù)據(jù)內(nèi)所包含的冗余數(shù)據(jù)及空缺數(shù)據(jù)進(jìn)行預(yù)處理,為計(jì)算機(jī)分析奠定堅(jiān)實(shí)基礎(chǔ)。
2、數(shù)據(jù)挖掘。數(shù)據(jù)娃聚主要是在數(shù)量及挖掘目標(biāo)確定之后,選擇合適的數(shù)據(jù)挖掘方法及技術(shù),對(duì)數(shù)據(jù)進(jìn)行計(jì)算分析,構(gòu)建針對(duì)性數(shù)據(jù)。
3、挖掘結(jié)果展示。數(shù)據(jù)挖掘技術(shù)所得到的數(shù)據(jù)結(jié)果,十分抽象,除了數(shù)據(jù)挖掘技術(shù)行業(yè)工作人員無法對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行了解,所以需要對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行轉(zhuǎn)化,通過圖形及圖像的方式,將挖掘結(jié)果在屏幕內(nèi)顯示出來,直觀將挖掘結(jié)果展示出來,用戶能夠?qū)ν诰蚪Y(jié)果深入理解。
4、挖掘結(jié)果應(yīng)用分析。按照挖掘背景及目的,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行系統(tǒng)性分析研究,進(jìn)而找到海量數(shù)據(jù)內(nèi)具有價(jià)值的信息,同時(shí)這些信息技有關(guān)生產(chǎn),對(duì)數(shù)據(jù)挖掘結(jié)果正確性進(jìn)行判斷,對(duì)數(shù)據(jù)挖掘有關(guān)知識(shí)進(jìn)行修正、完善[2]。
二、數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析中的應(yīng)用
2.1認(rèn)知無線電中頻譜資源預(yù)測應(yīng)用
認(rèn)知無線在頻譜監(jiān)測數(shù)據(jù)內(nèi)應(yīng)用,能夠有效提高頻譜監(jiān)測數(shù)據(jù)質(zhì)量,同時(shí)非授權(quán)用戶也可以對(duì)頻譜資源進(jìn)行利用。授權(quán)用戶在對(duì)頻譜監(jiān)測數(shù)應(yīng)用過程中,非授權(quán)用戶能夠直接將頻譜監(jiān)測數(shù)據(jù)資源讓出來,非授權(quán)用戶就需要充分構(gòu)建頻譜途徑,構(gòu)建通信連接。非授權(quán)用戶要是沒有直接將頻譜資源讓出來,授權(quán)用戶與非授權(quán)用戶之間就會(huì)產(chǎn)生矛盾,進(jìn)而造成通信中斷,這樣情況所將的損失將是無法預(yù)計(jì)的。所以,非授權(quán)用戶及授權(quán)用戶要是都能夠?qū)︻l譜資源精確劃分,能夠有效對(duì)資源矛盾事件防止,在這種情況下頻譜監(jiān)測資源利用效率也就顯著提升。
正式由于認(rèn)識(shí)無線電技術(shù)在實(shí)際應(yīng)用內(nèi)所具有的優(yōu)勢,在對(duì)認(rèn)知無線電技術(shù)分析研究過程中,需要將重點(diǎn)放在授權(quán)用戶應(yīng)用規(guī)律上面,對(duì)授權(quán)用戶占據(jù)頻譜監(jiān)測數(shù)據(jù)空余時(shí)間進(jìn)行預(yù)測,幫助非授權(quán)用戶能夠在授權(quán)用戶空余時(shí)間內(nèi)尋找利用有關(guān)資源,這種預(yù)測性分析研究主要是通過數(shù)據(jù)挖掘技術(shù)內(nèi)的頻發(fā)模式實(shí)現(xiàn)。
2.2異常無線電信號(hào)監(jiān)測應(yīng)用
無線電監(jiān)測站在常規(guī)監(jiān)測過程中,最為主要的一項(xiàng)工作就是對(duì)異常無線電信號(hào)進(jìn)行監(jiān)測,嚴(yán)禁非法占用情況出現(xiàn),有效提高無線電通信安全性能。
按照無線電監(jiān)測所產(chǎn)生的數(shù)據(jù)可知,頻譜設(shè)備屬于常規(guī)性運(yùn)行,一旦出現(xiàn)異常運(yùn)行情況,所輸出的信號(hào)就與常規(guī)狀態(tài)下信號(hào)存在一定差異。所以,想要了解頻譜設(shè)備出現(xiàn)異常情況,只需要將將信號(hào)進(jìn)行分析比較,數(shù)據(jù)挖掘技術(shù)能夠有效對(duì)海量信號(hào)內(nèi)特點(diǎn)進(jìn)行提取,在海量信號(hào)內(nèi)尋找到異常信號(hào)。數(shù)據(jù)挖掘技術(shù)在無線電監(jiān)測內(nèi)應(yīng)用,首先是通過無線電監(jiān)測歷史數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,模型在具有自我學(xué)習(xí)能力之后,能夠應(yīng)對(duì)無線電瞬息變化環(huán)境,對(duì)數(shù)據(jù)模型與歷史數(shù)據(jù)模型相似點(diǎn)進(jìn)行計(jì)算,在發(fā)現(xiàn)無線電設(shè)備出現(xiàn)異常運(yùn)行情況之后,數(shù)據(jù)模型就會(huì)發(fā)出警告。
結(jié)論:數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)應(yīng)用,能夠有效對(duì)l譜監(jiān)測數(shù)據(jù)分析流程進(jìn)行簡化,在大量數(shù)據(jù)信息內(nèi)高效率的找到針對(duì)性數(shù)據(jù)信息,提高信息挖掘質(zhì)量,進(jìn)而為管理人員提供針對(duì)性意見。正式由于數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)所具有的作用,所以對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析研究,能夠有效推動(dòng)頻譜監(jiān)測數(shù)據(jù)發(fā)展。
參 考 文 獻(xiàn)
隨著信息技術(shù)的發(fā)展以及計(jì)算機(jī)的數(shù)據(jù)存儲(chǔ)和處理能力的提升,數(shù)據(jù)分析技術(shù)的應(yīng)用領(lǐng)域逐漸拓展,各種技術(shù)也日趨成熟。目前,在數(shù)據(jù)挖掘分析技術(shù)上已經(jīng)形成了較為完備的體系,在大多數(shù)行業(yè)的業(yè)務(wù)數(shù)據(jù)分析領(lǐng)域已經(jīng)形成了固定的技術(shù)模式。
1數(shù)據(jù)源準(zhǔn)備
數(shù)據(jù)源是數(shù)據(jù)分析技術(shù)應(yīng)用的重要前提,數(shù)據(jù)來源關(guān)系到各種業(yè)務(wù)分析所需要的數(shù)據(jù)是否齊全、原始數(shù)據(jù)質(zhì)量是否可靠、數(shù)據(jù)提供的性能方面是否滿足相關(guān)要求等。對(duì)于不同的行業(yè)領(lǐng)域,數(shù)據(jù)來源的渠道各不相同,對(duì)于數(shù)據(jù)分析應(yīng)用而言,也需要在眾多的數(shù)據(jù)中選取合適的部分進(jìn)行后續(xù)加工和處理。對(duì)于大多數(shù)信息化技術(shù)應(yīng)用比較廣泛的企業(yè)而言,主要的業(yè)務(wù)運(yùn)營數(shù)據(jù)源都可以從自身的信息管理系統(tǒng)中取得,如業(yè)務(wù)支撐系統(tǒng)、企業(yè)資源規(guī)劃和管理系統(tǒng)以及流水線作業(yè)信息管理系統(tǒng)等。有部分?jǐn)?shù)據(jù)信息是從非常專業(yè)的系統(tǒng)中直接采集到的,如專業(yè)調(diào)度系統(tǒng)、電話交換機(jī)以及生產(chǎn)線控制系統(tǒng)等。從這些系統(tǒng)中,可以取得企業(yè)運(yùn)營過程中的基礎(chǔ)信息和關(guān)鍵數(shù)據(jù),這些數(shù)據(jù)通常是最能真實(shí)客觀地反映企業(yè)運(yùn)行情況。此外,數(shù)據(jù)獲取的成本也比較低,穩(wěn)定性和質(zhì)量比較好,并且易于管理和重構(gòu)。然而,就經(jīng)營分析的角度而言,從企業(yè)內(nèi)部提供的數(shù)據(jù)還不能滿足全方位分析的需要,需要從企業(yè)外部獲取必要的信息。比如為了深入了解客戶的信息,就需要進(jìn)行相應(yīng)的市場調(diào)研工作,設(shè)計(jì)一些調(diào)查問卷,搜集與業(yè)務(wù)開展和經(jīng)營相關(guān)的重要信息。另外,在某些特定的場合下,還有可能還需要從其它一些外部渠道去集中獲得一些有關(guān)客戶和市場的數(shù)據(jù)信息,目前有不少機(jī)構(gòu)專門從事市場信息數(shù)據(jù)提供的服務(wù)工作。從企業(yè)外部獲得的業(yè)務(wù)數(shù)據(jù)往往是針對(duì)性較強(qiáng),有較高利用價(jià)值的信息。但這些信息的真實(shí)性、穩(wěn)定性程度就比內(nèi)部的數(shù)據(jù)源要低,并且數(shù)據(jù)獲得的成本相對(duì)比較高。
2數(shù)據(jù)倉庫技術(shù)的應(yīng)用
目前,數(shù)據(jù)倉庫技術(shù)對(duì)于大多數(shù)經(jīng)營業(yè)務(wù)數(shù)據(jù)分析任務(wù)而言,是必備的基礎(chǔ)條件之一,尤其是對(duì)于規(guī)模較大、業(yè)務(wù)開展較廣泛的企業(yè)。由于日常運(yùn)營涉及到的數(shù)據(jù)來源和種類較多、數(shù)據(jù)量較大,在進(jìn)行數(shù)據(jù)分析處理時(shí)需要對(duì)原始的信息進(jìn)行大量的加工處理工作,因此數(shù)據(jù)倉庫技術(shù)的應(yīng)用就是必然的選擇。應(yīng)用數(shù)據(jù)倉庫技術(shù)的主要目的是將原始的數(shù)據(jù)源按相應(yīng)的要求進(jìn)行轉(zhuǎn)換并按專門設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ)。數(shù)據(jù)倉庫技術(shù)對(duì)原始數(shù)據(jù)加工處理流程目前一般稱為ETL,即抽取(Extract)、轉(zhuǎn)換(Transform)和加載(Loading)。抽取過程是指從各類原始的數(shù)據(jù)源獲取數(shù)據(jù)的過程,綜合考慮信息系統(tǒng)的處理性能和數(shù)據(jù)時(shí)效性以及分析應(yīng)用需求等因素,數(shù)據(jù)抽取過程可以是實(shí)時(shí)的,也可以是非實(shí)時(shí)的。對(duì)于抽取出的數(shù)據(jù)需要進(jìn)行一定的轉(zhuǎn)換處理,才能夠進(jìn)行后續(xù)的應(yīng)用,轉(zhuǎn)換過程主要是根據(jù)后期應(yīng)用需求將原始的數(shù)據(jù)進(jìn)行過濾、異常處理后再進(jìn)行格式變換、維度調(diào)整以及初步分類匯總等處理。數(shù)據(jù)加載過程就是將處理后的數(shù)據(jù)裝載到倉庫模型中,并根據(jù)應(yīng)用需求進(jìn)行數(shù)據(jù)關(guān)聯(lián)關(guān)系的調(diào)整以及性能優(yōu)化。在一些專題分析應(yīng)用場合,還可以將已經(jīng)加載至數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行進(jìn)一步的歸納處理,形成相關(guān)主題的數(shù)據(jù)集市,以提高數(shù)據(jù)的可用程度。
數(shù)據(jù)分析方案的設(shè)計(jì)和實(shí)施
數(shù)據(jù)倉庫建設(shè)完成之后,為了實(shí)現(xiàn)業(yè)務(wù)分析的目標(biāo),就可以考慮實(shí)施一些數(shù)據(jù)分析方案,選擇合適的分析方法和工具建立相應(yīng)的模型,對(duì)數(shù)據(jù)進(jìn)行處理,最終得到能夠支持業(yè)務(wù)經(jīng)營分析的關(guān)鍵信息,這一步對(duì)于整個(gè)業(yè)務(wù)數(shù)據(jù)分析工作而言是一個(gè)關(guān)鍵點(diǎn)。數(shù)據(jù)分析建模工作不僅需要掌握相關(guān)分析方法技術(shù),更需要對(duì)業(yè)務(wù)背景和業(yè)務(wù)分析目標(biāo)有充分的認(rèn)識(shí)。因?yàn)閿?shù)據(jù)分析挖掘建模方法沒有嚴(yán)格的定律可以遵循,往往需要在實(shí)踐中運(yùn)用一些基本的方法去探索影響業(yè)務(wù)目標(biāo)的關(guān)鍵因素,并且需要長期跟蹤業(yè)務(wù)發(fā)展情況,不斷地完善模型、調(diào)整相關(guān)參數(shù),才能夠得到能正確輔助經(jīng)營決策制定的方案。此外,隨著業(yè)務(wù)運(yùn)營模式的調(diào)整和市場環(huán)境的變化,業(yè)務(wù)分析模型還可能隨時(shí)需要重構(gòu)并且反復(fù)驗(yàn)證。目前用于數(shù)據(jù)挖掘分析的方法有很多,從基本的數(shù)理統(tǒng)計(jì)方法到目前研究比較廣泛的神經(jīng)網(wǎng)絡(luò)、遺傳算法等。但是并不是越復(fù)雜的算法效果越好。在很多場合下,應(yīng)用較為簡便的方法得出的結(jié)論更易于描述業(yè)務(wù)信息,便于理解以及實(shí)踐操作。現(xiàn)在市場上用于進(jìn)行數(shù)據(jù)挖掘和統(tǒng)計(jì)分析產(chǎn)品也比較豐富,比較典型的分析工具如SPSS、SAS、STAT等,在一些行業(yè)應(yīng)用領(lǐng)域,還有更加專業(yè)的數(shù)據(jù)分析工具和軟件包可供使用。在實(shí)際運(yùn)用過程中,可以根據(jù)數(shù)據(jù)分析的需求和應(yīng)用范圍進(jìn)行選擇。
互動(dòng)點(diǎn)播業(yè)務(wù)的業(yè)務(wù)分析需求
以及數(shù)據(jù)分析方案設(shè)計(jì)目前,有線電視運(yùn)營商在互動(dòng)點(diǎn)播業(yè)務(wù)開展過程中關(guān)注最多的經(jīng)營目標(biāo)是如何提高用戶對(duì)服務(wù)的認(rèn)可程度、擴(kuò)大用戶規(guī)模、避免用戶流失以及提升用戶的業(yè)務(wù)貢獻(xiàn)價(jià)值等方面。在這個(gè)過程中同時(shí)也需要對(duì)點(diǎn)播內(nèi)容的使用情況進(jìn)行分析,判斷哪些產(chǎn)品的點(diǎn)播頻率比較高,以便進(jìn)行內(nèi)容安排方面的調(diào)整。為了支撐互動(dòng)點(diǎn)播業(yè)務(wù)經(jīng)營分析的目標(biāo),首先需要初步選擇可能對(duì)點(diǎn)播業(yè)務(wù)使用頻率影響比較大的一些關(guān)鍵性因素,并且判斷哪些信息是有手段可以收集到的,以及從哪些渠道收集等等。這個(gè)過程通常需要對(duì)基礎(chǔ)業(yè)務(wù)有一定的認(rèn)識(shí),此外還需要對(duì)信息數(shù)據(jù)的分布和管理有相應(yīng)的了解。通常情況下,對(duì)于大多數(shù)有線電視運(yùn)營商而言,目前都在建設(shè)和使用業(yè)務(wù)支撐系統(tǒng)。互動(dòng)業(yè)務(wù)分析所需要的基礎(chǔ)信息大多數(shù)都可以從業(yè)務(wù)支撐系統(tǒng)中獲取,例如從客戶關(guān)系管理平臺(tái)中可以收集到用戶的基本信息,如客戶名稱、聯(lián)系方式、業(yè)務(wù)使用的地址等。另外,客戶開通的業(yè)務(wù)信息以及訂購的各種產(chǎn)品信息、業(yè)務(wù)變更記錄信息以及終端信息等基本上都可以從業(yè)務(wù)支撐系統(tǒng)中獲取到。經(jīng)過一些信息轉(zhuǎn)換和匯總,我們就可以了解到用戶業(yè)務(wù)的在網(wǎng)時(shí)間、消費(fèi)情況、訂購記錄、離網(wǎng)情況等。從這些基本信息里面可以選擇一些業(yè)務(wù)上感興趣的因素進(jìn)行統(tǒng)計(jì)分析,以歸納總結(jié)出經(jīng)營分析相關(guān)的業(yè)務(wù)特征。對(duì)于互動(dòng)點(diǎn)播業(yè)務(wù)相關(guān)的另外一些信息,如客戶的點(diǎn)播行為記錄,一般就不是直接從業(yè)務(wù)支撐平臺(tái)上進(jìn)行采集到。這些數(shù)據(jù)的來源通常是在互動(dòng)業(yè)務(wù)管理平臺(tái)中,用戶在終端上進(jìn)行點(diǎn)播操作后,互動(dòng)業(yè)務(wù)管理平臺(tái)會(huì)記錄下與用戶點(diǎn)播操作相關(guān)的信息。從這些記錄中,我們可以了解到用戶的點(diǎn)播時(shí)間、點(diǎn)播內(nèi)容、收看時(shí)間等等。根據(jù)點(diǎn)播的內(nèi)容,可以在互動(dòng)業(yè)務(wù)內(nèi)容管理平臺(tái)上關(guān)聯(lián)到其價(jià)格、類型、上線時(shí)間等信息。綜合上述信息后,就可以整理出互動(dòng)點(diǎn)播業(yè)務(wù)的使用記錄,通過統(tǒng)計(jì)分析可以發(fā)現(xiàn)用戶點(diǎn)播的時(shí)間、內(nèi)容偏好和使用量發(fā)展趨勢等數(shù)據(jù),這些數(shù)據(jù)可以幫助判斷系統(tǒng)的容量以及內(nèi)容的受歡迎程度等信息。最后,為了綜合評(píng)估互動(dòng)業(yè)務(wù)的發(fā)展情況,發(fā)現(xiàn)與業(yè)務(wù)分析目標(biāo)關(guān)聯(lián)較大的一些因素,可以綜合用戶的業(yè)務(wù)記錄信息和點(diǎn)播使用情況進(jìn)行模型構(gòu)造,并且對(duì)結(jié)果進(jìn)行驗(yàn)證和評(píng)估,以得到對(duì)決策分析有價(jià)值的信息。
互動(dòng)點(diǎn)播業(yè)務(wù)的數(shù)據(jù)分析方案的實(shí)施應(yīng)用
根據(jù)業(yè)務(wù)數(shù)據(jù)分析基本方案設(shè)計(jì)的思路,可以著手開始實(shí)施相應(yīng)的分析方案。在本文中主要介紹兩類數(shù)據(jù)分析應(yīng)用案例,一個(gè)是基于基礎(chǔ)點(diǎn)播行為數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)分析應(yīng)用,另外一個(gè)是根據(jù)用戶點(diǎn)播行為數(shù)據(jù)以及基礎(chǔ)業(yè)務(wù)數(shù)據(jù)綜合分析影響用戶的互動(dòng)業(yè)務(wù)在線情況的因素。
1用戶點(diǎn)播行為數(shù)據(jù)分析案例
為了了解點(diǎn)播業(yè)務(wù)的使用情況,可以根據(jù)用戶的點(diǎn)播行為記錄進(jìn)行數(shù)據(jù)挖掘分析,以實(shí)現(xiàn)總結(jié)互動(dòng)點(diǎn)播內(nèi)容、時(shí)段和使用量趨勢等業(yè)務(wù)特征的分析目標(biāo)。根據(jù)方案設(shè)計(jì)的結(jié)論,從互動(dòng)業(yè)務(wù)管理平臺(tái)中可以取得這類業(yè)務(wù)分析所需要的全部源數(shù)據(jù)。但是,互動(dòng)業(yè)務(wù)管理平臺(tái)中的點(diǎn)播記錄通常全部是以文本記錄的方式保存的,并且由于點(diǎn)播記錄的數(shù)量較大,一般按照記錄數(shù)量或者時(shí)間間隔進(jìn)行了拆分。為了利用這些信息就有必要進(jìn)行相應(yīng)的數(shù)據(jù)抽取轉(zhuǎn)換工作。在實(shí)際應(yīng)用中可以使用預(yù)先設(shè)計(jì)的腳本定時(shí)從互動(dòng)業(yè)務(wù)管理平臺(tái)中進(jìn)行數(shù)據(jù)的抽取,然后經(jīng)過簡單的類型變換后加載至數(shù)據(jù)倉庫中。為了達(dá)到分析目標(biāo),主要抽取的信息有產(chǎn)生用戶點(diǎn)播記錄的用戶ID、點(diǎn)播內(nèi)容的代碼及分類信息、點(diǎn)播的開始和結(jié)束時(shí)間等等。原始的點(diǎn)播記錄信息轉(zhuǎn)換后,就可以進(jìn)行下一步的主題分析準(zhǔn)備了,例如可以按照點(diǎn)播的時(shí)段、點(diǎn)播的內(nèi)容,以及用戶區(qū)域等信息進(jìn)行不同維度的數(shù)據(jù)分析。圖2是對(duì)互動(dòng)點(diǎn)播類業(yè)務(wù)按每日播頻率進(jìn)行的一個(gè)分類統(tǒng)計(jì)后用SAS統(tǒng)計(jì)工具生成的圖形,在生成統(tǒng)計(jì)數(shù)據(jù)前需要從原始數(shù)據(jù)中分離出點(diǎn)播時(shí)段信息,并行分類匯總。從圖2中可以發(fā)現(xiàn),點(diǎn)播頻率在一天之中的大致分布規(guī)律。從點(diǎn)播總量上看,每天點(diǎn)播頻率最高的時(shí)段是在18:00至22:30左右,峰值在21:00到22:00左右出現(xiàn),此外在中午12:00左右也有一個(gè)高峰時(shí)期。點(diǎn)播頻率最低的時(shí)段大約在3:00至5:00左右。根據(jù)每天點(diǎn)播業(yè)務(wù)頻率的分布情況,可以進(jìn)行相應(yīng)的網(wǎng)絡(luò)容量分析,比如通過業(yè)務(wù)高峰數(shù)值可以評(píng)估出互動(dòng)點(diǎn)播平臺(tái)的并發(fā)容量是否足夠。另外,根據(jù)每日點(diǎn)播頻率的分布特征,可以安排相應(yīng)的業(yè)務(wù)運(yùn)營工作部署。例如在業(yè)務(wù)高峰時(shí)段可以集中投放一些廣告、通知信息,而一些系統(tǒng)割接和調(diào)試工作盡量應(yīng)安排在使用頻率較低的時(shí)段內(nèi)進(jìn)行。如果需要了解一些特殊的節(jié)假日的點(diǎn)播頻率分布特征,可以在原始數(shù)據(jù)中進(jìn)行重新過濾篩選,生成類似的頻率分布圖并與圖2進(jìn)行比對(duì),然后分析其特點(diǎn)。從互動(dòng)業(yè)務(wù)點(diǎn)播數(shù)據(jù)還可以按內(nèi)容代碼維度進(jìn)行分析,以統(tǒng)計(jì)出與互動(dòng)視頻節(jié)目內(nèi)容相關(guān)的數(shù)據(jù),也可以將不同維度的數(shù)據(jù)進(jìn)行組合分析,進(jìn)一步挖掘出業(yè)務(wù)方面感興趣的信息。
2影響互動(dòng)業(yè)務(wù)用戶在線狀態(tài)因素的綜合分析案例
互動(dòng)業(yè)務(wù)經(jīng)營分析的另外一個(gè)重點(diǎn)就是用戶的流失特點(diǎn)分析,其目的在于找到影響用戶在線狀態(tài)的主要因素,并且根據(jù)這些信息和目前的業(yè)務(wù)狀態(tài)去預(yù)測未來一段時(shí)間內(nèi)可能流失的用戶情況。另一方面可以針對(duì)影響用戶在線狀態(tài)的主要因素實(shí)施有針對(duì)性的市場營銷策略,盡可能避免用戶流失情況的產(chǎn)生。此外,在通過分析影響互動(dòng)在線狀態(tài)的主要因素后,也可以從中發(fā)現(xiàn)進(jìn)一步發(fā)展擴(kuò)大用戶規(guī)模的一些線索。為了實(shí)現(xiàn)上述業(yè)務(wù)目標(biāo),首先需要確定分析數(shù)據(jù)來源。由于是綜合因素分析,首先需要使用業(yè)務(wù)支撐系統(tǒng)中用戶的互動(dòng)業(yè)務(wù)狀態(tài)變更信息以及其它一些屬性特征信息。此外,用戶的點(diǎn)播行為數(shù)據(jù)也是一項(xiàng)重要的數(shù)據(jù)源,因此也需要引入到模型中。由于最終目的是需要分析影響用戶在線狀態(tài)的主要因素,而在某一個(gè)觀測時(shí)間點(diǎn)用戶的在線狀態(tài)一般認(rèn)為是一個(gè)二值型的變量,因此可以使用邏輯回歸(logisticregression)方法進(jìn)行建模。然后將在此時(shí)間點(diǎn)前一個(gè)時(shí)段的用戶點(diǎn)播次數(shù)、用戶的在網(wǎng)時(shí)長、終端特征等作為自變量。在本案例中,按照某一個(gè)時(shí)間段內(nèi)用戶在線狀態(tài)是否發(fā)生變更這一特征,選擇一個(gè)用戶的樣本使用SAS軟件的proclogistic過程進(jìn)行分析。SAS的分析報(bào)告中還給出了模型的相關(guān)參數(shù)以及各變量的參數(shù)估計(jì)情況。根據(jù)分析結(jié)果中的卡方值和P值可以了解模型對(duì)數(shù)據(jù)的適配性和穩(wěn)定性。從分析結(jié)果給出的參數(shù)估計(jì)信息中可以了解不同自變量對(duì)于互動(dòng)用戶在線狀態(tài)的影響情況。用戶的點(diǎn)播次數(shù)、在線時(shí)長以及終端屬性等參數(shù)都會(huì)影響到用戶的在線狀態(tài)。從參數(shù)估計(jì)中可以看出點(diǎn)播次數(shù)較高的用戶,其流失的比率相對(duì)較低,另外使用高清互動(dòng)終端用戶流失率也相對(duì)較低,并且終端類型因素有較高的預(yù)測能力。在網(wǎng)時(shí)長似乎對(duì)用戶的在線情況影響不大,但實(shí)際建模的過程中需要考慮套餐贈(zèng)送的情況,因此最好重新調(diào)整參數(shù)模型后再進(jìn)行分析。根據(jù)分析的結(jié)果可以得出相關(guān)的結(jié)論,互動(dòng)用戶的點(diǎn)播頻率越高,其連續(xù)使用的可能性就越大,并且使用高清終端用戶連續(xù)在線的概率比使用標(biāo)清終端的用戶更大。因此在后續(xù)的分析過程中就可以預(yù)測目前點(diǎn)播頻率較低的用戶流失的風(fēng)險(xiǎn)較大,在進(jìn)行針對(duì)性的營銷活動(dòng)時(shí)就可以設(shè)法引導(dǎo)用戶更多地進(jìn)行互動(dòng)業(yè)務(wù)的體驗(yàn),并且鼓勵(lì)其進(jìn)行終端升級(jí),以提高這部分用戶在線的概率。當(dāng)然在分析過程中可能會(huì)發(fā)現(xiàn)一些使用頻率非常高的用戶意外流失了,這就值得進(jìn)一步跟蹤分析,因?yàn)楹苡锌赡苓@些用戶選擇了競爭對(duì)手提供的類似服務(wù)。
【關(guān)鍵詞】用電信息采集系統(tǒng) 數(shù)據(jù)分析 處理技術(shù)
隨著時(shí)間的推移,用電信息采集系統(tǒng)中存儲(chǔ)的數(shù)據(jù)總量會(huì)線性遞增,龐大的信息儲(chǔ)備在反映信息愈加全面的同時(shí)增加了信息分類和處理的難度,所以其分析和處理技術(shù)需要隨著時(shí)代的發(fā)展不斷深化。
1 用電信息采集系統(tǒng)數(shù)據(jù)分析
由于用電信息采集系統(tǒng)內(nèi)的信息會(huì)隨著時(shí)間的推移而不斷增多,所以需要通過分類處理的形式對(duì)龐大的信息量進(jìn)行逐層處理,這樣才可以提升系統(tǒng)對(duì)數(shù)據(jù)庫的處理效率,目前用電信息采集系統(tǒng)以時(shí)間為劃分標(biāo)準(zhǔn),將信息分為以下三類:1類數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)不具有時(shí)間序列屬性,通常只針對(duì)其更新而很少查詢,由于數(shù)據(jù)量龐大,其通常只具有15分鐘的實(shí)效,總加數(shù)據(jù)、測量點(diǎn)數(shù)據(jù)、終端數(shù)據(jù)是其主要形式,在存儲(chǔ)的過程中應(yīng)根據(jù)其不同的物理對(duì)象選擇與其相應(yīng)的存儲(chǔ)表;2類數(shù)據(jù)其主要顯示用電戶在過去一段時(shí)間內(nèi)的用電信息,為預(yù)付費(fèi)管理、用電情況統(tǒng)計(jì)等工作提供數(shù)據(jù)支持,其與1類數(shù)據(jù)不同具有時(shí)間序列屬性,而且更新少而查詢多,15分鐘至1小時(shí),1日、一個(gè)月等都可根據(jù)實(shí)際需要作為周期,其在存儲(chǔ)的過程中也可以根據(jù)不同的物理對(duì)象,選擇不同的存儲(chǔ)表;3類數(shù)據(jù)包括參數(shù)丟失或變更、回路異常、電能表顯示出現(xiàn)偏差等情況,由于其不同時(shí)間的發(fā)生頻率、使用方式等都存在差異,所以在存儲(chǔ)的過程中應(yīng)單獨(dú)分表,將用電信息按照屬性進(jìn)行劃分極大地提升了采集系統(tǒng)的工作效率。
2 用電信息采集系統(tǒng)數(shù)據(jù)處理技術(shù)
用電信息采集系統(tǒng)其要同時(shí)對(duì)多種通信通道和終端進(jìn)行管理,從而實(shí)現(xiàn)對(duì)用電戶用電信息管理、負(fù)荷及預(yù)付費(fèi)控制,所以其并非單一計(jì)算機(jī)節(jié)點(diǎn)可獨(dú)立完成,需要以下技術(shù)輔助其實(shí)現(xiàn)如圖1所示。
2.1 集群技術(shù)
主要應(yīng)用于系統(tǒng)中的核心部位,例如數(shù)據(jù)庫、數(shù)據(jù)采集等,其主要是將多個(gè)獨(dú)立但都處于高速網(wǎng)絡(luò)中的計(jì)算機(jī)連接成一個(gè)整體,并通過單一系統(tǒng)對(duì)整體進(jìn)行管理控制,利用集群技術(shù)可以實(shí)現(xiàn)大運(yùn)量計(jì)算,目前主要應(yīng)用的集群技術(shù)主要有主/主和主/從兩種狀態(tài),其主要區(qū)別是當(dāng)一個(gè)節(jié)點(diǎn)處于正常工作狀態(tài)時(shí)是否需要有另一個(gè)節(jié)點(diǎn)處于備用狀態(tài),利用集群技術(shù)大幅度的提升了系統(tǒng)對(duì)數(shù)據(jù)的計(jì)算能力,從而提升了系統(tǒng)的數(shù)據(jù)處理效率及準(zhǔn)確性。網(wǎng)絡(luò)負(fù)載均衡技術(shù),在實(shí)際操作中系統(tǒng)要處理大量的數(shù)據(jù),用戶等待系統(tǒng)反應(yīng)的時(shí)間通常較長,而網(wǎng)絡(luò)負(fù)載均衡技術(shù)的出現(xiàn)實(shí)現(xiàn)了對(duì)大量并發(fā)訪問、數(shù)據(jù)流量合理均等的分配至多臺(tái)節(jié)點(diǎn)設(shè)備,從而實(shí)現(xiàn)多臺(tái)設(shè)備同時(shí)進(jìn)行數(shù)據(jù)處理,使原本復(fù)雜的數(shù)據(jù)處理任務(wù)被合理分化,不僅縮短了處理時(shí)間,而且有效的降低了系統(tǒng)在處理過程中出現(xiàn)信道堵塞的概率,提升了系統(tǒng)數(shù)據(jù)處理的性能,在響應(yīng)請(qǐng)求方面得到優(yōu)化。
2.2 內(nèi)存數(shù)據(jù)庫技術(shù)
是優(yōu)化系統(tǒng)數(shù)據(jù)處理能力的重要途徑,內(nèi)存數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)了采集的信息直接在內(nèi)存中存儲(chǔ),從而利用內(nèi)存隨機(jī)訪問的特點(diǎn),在信息讀寫速度方面進(jìn)行優(yōu)化,使數(shù)據(jù)信息的訪問性能得到提升,此項(xiàng)技術(shù)在數(shù)據(jù)緩存、數(shù)據(jù)算法等方面進(jìn)行了針對(duì)性的設(shè)計(jì),使系統(tǒng)的信息處理速度提升十倍以上,為實(shí)時(shí)查詢提供了可能,極大地促進(jìn)了后付費(fèi)和預(yù)付費(fèi)的融合,使系統(tǒng)數(shù)據(jù)處理性能得到完善。批量數(shù)據(jù)處理技術(shù),由于在實(shí)際工作中由于系統(tǒng)需要對(duì)大量的數(shù)據(jù)進(jìn)行分類處理,逐個(gè)信息處理的可行性非常低,需要對(duì)大批量數(shù)據(jù)進(jìn)行集中處理,但在應(yīng)用批量數(shù)據(jù)處理技術(shù)的同時(shí)要對(duì)數(shù)據(jù)庫的表結(jié)構(gòu)、SQL語句進(jìn)行優(yōu)化處理并對(duì)數(shù)據(jù)庫中的數(shù)據(jù)表合理管理,例如將個(gè)體數(shù)據(jù)表的數(shù)據(jù)量限制在2GB以內(nèi),確保其訪問性能不受影響;將數(shù)據(jù)按照分類存儲(chǔ)于不同的磁盤,保證查詢質(zhì)量;在優(yōu)化SQL語句時(shí)盡量保證帶有參數(shù)等,只有數(shù)據(jù)庫性能良好,批量數(shù)據(jù)處理技術(shù)才可以應(yīng)用,不然會(huì)適得其反。
2.3 SAN存儲(chǔ)技術(shù)
隨著系統(tǒng)采集數(shù)據(jù)量的增加,以服務(wù)器為中心的處理模式會(huì)嚴(yán)重影響網(wǎng)絡(luò)性能,從而影響系統(tǒng)對(duì)數(shù)據(jù)的處理效率,所以將備份和傳輸不占用局域網(wǎng)資源的SAN技術(shù)引入到系統(tǒng)處理中非常具有現(xiàn)實(shí)意義,其以光纖通道為途徑,使信息存儲(chǔ)不再受距離和容量的限制,系統(tǒng)的信息采集性能得到有效提升。ODI技術(shù),在實(shí)際工作中有時(shí)需要對(duì)某一類信息進(jìn)行集中處理,而系統(tǒng)中的數(shù)據(jù)復(fù)雜散落不易處理,所以需要將同類信息按模塊分類存儲(chǔ),ODI存儲(chǔ)技術(shù)恰好是以模塊或儲(chǔ)存庫為核心而展開的應(yīng)用技術(shù),它將系統(tǒng)的數(shù)據(jù)庫分為一個(gè)主存儲(chǔ)庫和多個(gè)有關(guān)聯(lián)的工作存儲(chǔ)庫,數(shù)據(jù)處理人員利用ODI存儲(chǔ)技術(shù)可以根據(jù)實(shí)際情況制定存儲(chǔ)模塊或?qū)Υ鎯?chǔ)模塊內(nèi)部信息進(jìn)行更改,從而實(shí)現(xiàn)批量數(shù)據(jù)處理腳本的集中管理,使批量處理的效率大幅度提升。
3 結(jié)論
目前電力用戶用電信息采集系統(tǒng)不僅要實(shí)現(xiàn)準(zhǔn)確、全面、及時(shí)的采集數(shù)據(jù),而且要高效、準(zhǔn)確的對(duì)采集的信息進(jìn)行計(jì)算處理,以供相關(guān)部門的查詢和應(yīng)用,所以在優(yōu)化系統(tǒng)存儲(chǔ)空間的同時(shí),要加大系統(tǒng)對(duì)數(shù)據(jù)處理的能力。
參考文獻(xiàn)
[1]朱彬若,杜衛(wèi)華,李蕊.電力用戶用電信息采集系統(tǒng)數(shù)據(jù)分析與處理技術(shù)[J].華東電力,2011,12(10):162-166.
[2]董俐君,張芊.數(shù)據(jù)處理與智能分析技術(shù)在用電信息采集系統(tǒng)中的應(yīng)用[J].華東電力,2013,12(27):255-256.
[3]況貞戎.用電信息采集系統(tǒng)中主站采集平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2014.
關(guān)鍵詞:油田生產(chǎn);大數(shù)據(jù);數(shù)據(jù)挖掘
前言
新疆油田重油開發(fā)公司是以稠油開采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營業(yè)務(wù)板塊的數(shù)據(jù)庫。數(shù)據(jù)庫包括的內(nèi)容主要有單井、區(qū)塊的日月報(bào)數(shù)據(jù)、試井與生產(chǎn)測井?dāng)?shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫的數(shù)據(jù)資源種類齊全,質(zhì)量高。2010年新疆油田重油開發(fā)公司正式開始進(jìn)行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問題,使用大數(shù)據(jù)技術(shù)對(duì)油田進(jìn)行全面感知、分析預(yù)測、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進(jìn)行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個(gè)特點(diǎn)即量大(Volume)、快速生產(chǎn)(Velocity)、類型豐富(Variety)、真實(shí)性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進(jìn)行管理、處理實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。大數(shù)據(jù)對(duì)數(shù)據(jù)庫的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識(shí),再將知識(shí)轉(zhuǎn)化為智慧。這個(gè)過程應(yīng)用于油田可以理解為是對(duì)油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個(gè)處理步驟包括:對(duì)數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價(jià)值規(guī)律、建立預(yù)測模型、對(duì)結(jié)果進(jìn)行可視化的估計(jì)、驗(yàn)證結(jié)果、評(píng)估模型。
2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究
新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個(gè)有效的大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)。此平臺(tái)主要包括四個(gè)基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺(tái)、進(jìn)行分布式的存儲(chǔ)平臺(tái)、大數(shù)據(jù)的分析與展示平臺(tái)。最底層是數(shù)據(jù)抽取平臺(tái)主要是實(shí)現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進(jìn)行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲(chǔ)平臺(tái)主要是對(duì)數(shù)據(jù)進(jìn)行匯總、建模、分析,最后將處理好的數(shù)據(jù)進(jìn)行儲(chǔ)存。其功能與數(shù)據(jù)倉庫相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進(jìn)行分類、建模,生成預(yù)測的結(jié)果,結(jié)合專家經(jīng)驗(yàn)利用測試的樣本選定評(píng)價(jià)方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計(jì)為運(yùn)行軟件,運(yùn)用建模方法實(shí)現(xiàn)數(shù)據(jù)的可視化界面設(shè)計(jì),更好的實(shí)現(xiàn)人機(jī)交互。
3 大數(shù)據(jù)分析技術(shù)研究
進(jìn)行大數(shù)據(jù)分析時(shí)我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱,不同時(shí)間,不同地點(diǎn)的多種不同結(jié)構(gòu)和類別的數(shù)據(jù)抽取處理成一種所表達(dá)的算法和內(nèi)涵一致便于處理類型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時(shí)可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計(jì)值法、填補(bǔ)平均值替換錯(cuò)誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時(shí)需要進(jìn)行數(shù)據(jù)庫的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個(gè)過程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對(duì)多個(gè)指標(biāo)和因素間的相關(guān)性進(jìn)行描述,一般將密切相關(guān)的多個(gè)變量歸納為一類,這一類數(shù)據(jù)就屬于一個(gè)影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個(gè)類型,并按照這些特性劃分為幾個(gè)類別,同種類型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征?;貧w分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個(gè)變量和其他變量間隱藏的關(guān)系。利用回歸方程,進(jìn)行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡單得表示出來。
在使用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門技術(shù)。該技術(shù)將大量復(fù)雜的、隨機(jī)性的、模糊的、不完整的數(shù)據(jù)進(jìn)行分析,挖掘出對(duì)人類未來有用的數(shù)據(jù),即提前獲得未知信息的過程[3]。數(shù)據(jù)挖掘功能分為預(yù)測功能和描述功能。數(shù)據(jù)預(yù)測是指對(duì)數(shù)據(jù)進(jìn)行處理推算,完成預(yù)測的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類型有關(guān),有的功能適用于不同類型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動(dòng)識(shí)別
油田生產(chǎn)過程中影響最大的一個(gè)因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對(duì)異常井的重視。最初,異常井的識(shí)別主要是依靠生產(chǎn)部門的生產(chǎn)人員,必須經(jīng)過人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費(fèi)時(shí)間長等,對(duì)異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個(gè)月相比波動(dòng)很大,并大于正常的波動(dòng)范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)對(duì)異常井進(jìn)行識(shí)別,提高效率。為了實(shí)現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進(jìn)行,能夠及時(shí)發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進(jìn)行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對(duì)其進(jìn)行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對(duì)后期進(jìn)行計(jì)劃實(shí)施造成很大的影響。這時(shí)可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井的特征功圖庫,對(duì)比油井當(dāng)前的功圖和所建立的特征功圖,實(shí)現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時(shí)一種工況可能會(huì)有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個(gè)工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫,對(duì)比相關(guān)因子的指標(biāo)項(xiàng),找到異常的原因,采取適合的方案進(jìn)行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開關(guān)井計(jì)劃制訂
當(dāng)油田開發(fā)進(jìn)入后期階段就會(huì)出現(xiàn)很多問題,過度開發(fā)使得地層的能量越來越少,致使更多供液不足的井開發(fā)出來。將這類井稱之為間歇出油井。新疆油田一般會(huì)使用人工方法制訂間歇出油井的開關(guān)時(shí)間計(jì)劃,但是對(duì)于計(jì)劃的合理性沒有進(jìn)行檢驗(yàn)。若是能夠控制好間歇出油井的開關(guān)時(shí)間,對(duì)油田實(shí)現(xiàn)節(jié)能減排是至關(guān)重要的。這時(shí)可以采用因子分析方法和回歸分析法進(jìn)行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開關(guān)時(shí)間的因素,建立合適的分析模型,對(duì)模型進(jìn)行線性回歸,進(jìn)行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開關(guān)時(shí)間的合理方案,達(dá)到節(jié)能減排的效果。
4.4 油井清防蠟預(yù)測
目前油田上對(duì)于油井清蠟采取平均每口井一個(gè)月清洗一次蠟的措施,按照人工計(jì)劃進(jìn)行,出現(xiàn)了許多問題。比如,一些井還沒有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒有得到及時(shí)清洗。這樣既浪費(fèi)大量的人力物力,而且還對(duì)油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進(jìn)行分析,建立油井Y蠟?zāi)P?,再利用回歸分析法對(duì)建立的模型建立曲線方程,進(jìn)行預(yù)測,找到結(jié)蠟時(shí)間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進(jìn)行,提高油田的精細(xì)化管理。
5 結(jié)束語
總之,對(duì)比以前利用人工進(jìn)行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對(duì)于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進(jìn)行可視化分析,關(guān)注問題的主要影響因素找到管理中存在的不足,預(yù)防未來問題的出現(xiàn)。大數(shù)據(jù)的核心價(jià)值就是通過以往大量數(shù)據(jù)進(jìn)行分析,預(yù)測出未來,從而更好地指導(dǎo)油田的生產(chǎn)工作。
參考文獻(xiàn)
[1]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
【關(guān)鍵詞】數(shù)據(jù)集成技術(shù) 電力營銷 具體應(yīng)用 數(shù)據(jù)分析系統(tǒng)
電力營銷數(shù)據(jù)分析系統(tǒng)的主要功能是采集數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分析處理。而在中國推行電網(wǎng)改革后,電網(wǎng)系統(tǒng)的改革重點(diǎn)在于研究電力影響。此外,在電力營銷工作中依然存在在一些問題,這些問題對(duì)中國電力營銷行業(yè)的發(fā)展產(chǎn)生不良影響,甚至?xí)?dǎo)致企業(yè)資金的流失。在此形勢下,結(jié)合數(shù)據(jù)集成技術(shù)對(duì)電力營銷數(shù)據(jù)進(jìn)行分析研究尤為重要。
1 實(shí)現(xiàn)電力營銷數(shù)據(jù)分析系統(tǒng)的困難所在
電力營銷數(shù)據(jù)分析系統(tǒng)指的是利用全球各個(gè)國家的網(wǎng)絡(luò)技術(shù)采集不同地區(qū)的電力營銷數(shù)據(jù),并進(jìn)行分析處理,然后利用遠(yuǎn)程控制技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行傳輸管理,為決策提供科學(xué)的數(shù)據(jù)依據(jù)。
1.1分布式數(shù)據(jù)的采集、傳輸與轉(zhuǎn)換的障礙
我國電力營銷系統(tǒng)從數(shù)據(jù)接口形式上來說,并沒有形成完善嚴(yán)格的規(guī)定,系統(tǒng)軟件的運(yùn)用也有一定差異。但是營銷數(shù)據(jù)的數(shù)量較為龐大,形式多種多樣,將這些數(shù)據(jù)存放在同一個(gè)系統(tǒng)中,轉(zhuǎn)換為系統(tǒng)所要求的格式進(jìn)行存儲(chǔ)。這樣勢必會(huì)使數(shù)據(jù)傳輸存在安全隱患[1]。
1.2系統(tǒng)中的算法結(jié)構(gòu)與數(shù)據(jù)結(jié)構(gòu)問題
電力營銷系統(tǒng)中的數(shù)據(jù)結(jié)構(gòu)與算法結(jié)構(gòu)需進(jìn)行改進(jìn)處理,提高數(shù)據(jù)結(jié)構(gòu)與算法結(jié)構(gòu)的通用性。在電力營銷中,數(shù)據(jù)結(jié)構(gòu)與算法結(jié)構(gòu)會(huì)因?yàn)橄到y(tǒng)的不同而存在差異。在計(jì)算與分析處理數(shù)據(jù)的過程中,要求深入了解原有系統(tǒng)的基本特征,積極做好系統(tǒng)的通用算法轉(zhuǎn)換工作,調(diào)整與處理通用設(shè)計(jì)結(jié)構(gòu)以及數(shù)據(jù)接口,在滿足相關(guān)要求后,將其應(yīng)用到系統(tǒng)中[2]。
2 在電力營銷數(shù)據(jù)分析系統(tǒng)中應(yīng)用數(shù)據(jù)集成技術(shù)
從我國從2010年,基礎(chǔ)設(shè)施建設(shè)后,有關(guān)信息系統(tǒng)建設(shè)已經(jīng)進(jìn)入到一個(gè)全新的發(fā)展階段,全年的系統(tǒng)集成服務(wù)市場總資產(chǎn)為288.69億元。2011年,中國系統(tǒng)集成服務(wù)市場的規(guī)模為349.11億元,同比增長了20.9%,而2012年、2013年系統(tǒng)集成服務(wù)的市場規(guī)模分別為419.67億元、499.06億元,詳見表1。
表1 中國從2010年至2013年系統(tǒng)集成服務(wù)的市場規(guī)模和增長率
時(shí)間(年) 2010 2011 2012 2013
市場規(guī)模(億元) 288.69 349.11 419.67 499.06
同比增長率(%) 19.7 20.9 20.2 18.9
中國內(nèi)部系統(tǒng)集成市場的發(fā)展規(guī)模呈高速增長趨勢,行業(yè)規(guī)模增長在219.5%左右。而推動(dòng)數(shù)據(jù)系統(tǒng)集成技術(shù)發(fā)展,擴(kuò)大其應(yīng)用領(lǐng)域制造業(yè)、各級(jí)各類企業(yè)信息化、教育以及政府應(yīng)用。我國其他行業(yè)信息化進(jìn)程并沒有完成,對(duì)于系統(tǒng)集成需求需要不斷增加。電信、金融、政府這三大行業(yè)在系統(tǒng)集成服務(wù)中所占比重為55.1%,其他應(yīng)用領(lǐng)域,尤其是電力營銷領(lǐng)域所占比重較低。
銀行作為金融業(yè)IT投入的主體,是總體投資規(guī)模的72.2%,而銀行業(yè)IT投入的穩(wěn)定也是金融信息化投入增長的一個(gè)主要原因。圖1為2011年至2013年國內(nèi)金融業(yè)IT投資規(guī)模。
圖1 2011年至2013年國內(nèi)金融業(yè)IT投資規(guī)模統(tǒng)計(jì)圖
此外,雖然現(xiàn)階段全球?qū)τ谙到y(tǒng)集成的市場需求較大,然而系統(tǒng)集成市場的增速并沒有因此而快速增長,如圖2所示。
圖2 2007年至2013年全球系統(tǒng)集成的市場規(guī)模
其中 市場規(guī)模(億美元)
因此筆者建議加強(qiáng)數(shù)據(jù)集成技術(shù)在電力營銷數(shù)據(jù)分析系統(tǒng)中的應(yīng)用研究。下文從兩個(gè)方面應(yīng)用思路以及實(shí)現(xiàn)應(yīng)用這兩個(gè)方面進(jìn)行探討[3]。
2.1應(yīng)用思路
根據(jù)系統(tǒng)內(nèi)部結(jié)構(gòu)可以將電力營銷數(shù)據(jù)分析系統(tǒng)劃分為兩個(gè)部分。其一,數(shù)據(jù)集成。其二,實(shí)現(xiàn)軟件功能。電力數(shù)據(jù)分析系統(tǒng)在運(yùn)行的過程中,上述兩個(gè)部分使用的是同一數(shù)據(jù)庫服務(wù)器。而在系統(tǒng)中利用數(shù)據(jù)集成技術(shù),即在全范圍內(nèi)對(duì)數(shù)據(jù)進(jìn)行總體設(shè)計(jì)與總體布局,在全部數(shù)據(jù)運(yùn)行過程中,創(chuàng)造完整、穩(wěn)定的數(shù)據(jù)環(huán)境,對(duì)系統(tǒng)基本功能以及算法結(jié)構(gòu)進(jìn)行定義,在掌握數(shù)據(jù)庫結(jié)構(gòu)的基礎(chǔ)上,開發(fā)和利用[4]。
系統(tǒng)中的數(shù)據(jù)集成部分主要利用的是中間件技術(shù),完成系統(tǒng)的再度開發(fā),保障數(shù)據(jù)集成部分的功能得到正常得發(fā)揮,從而在采集數(shù)據(jù)與傳輸數(shù)據(jù)方面得到充分的應(yīng)用。在選擇利用中間件的過程中,需要密切注意中間件的質(zhì)量,確保技術(shù)的先進(jìn)性,以此才能夠保障數(shù)據(jù)運(yùn)行的穩(wěn)定性與安全性,從而提高設(shè)計(jì)應(yīng)用的質(zhì)量,減少傳輸數(shù)據(jù)過程中所造成的損失。
此外,從數(shù)據(jù)采集方面而言,類型不同的電力營銷系統(tǒng)也存在在一定的差異,這些差異包括以下三個(gè)方面。其一,數(shù)據(jù)內(nèi)容的多樣性。數(shù)據(jù)種類較多,包括了普通文件、關(guān)系數(shù)據(jù)等,要公開分析整理這些數(shù)據(jù)。其二,每個(gè)電力營銷系統(tǒng)應(yīng)用的是不同的數(shù)據(jù)管理系統(tǒng),所以數(shù)據(jù)采集與數(shù)據(jù)管理也并不相同。其三,不同的數(shù)據(jù)訪問模式。按照數(shù)據(jù)存放形式的不同,一些數(shù)據(jù)訪問利用的是數(shù)據(jù)庫接口完成訪問,而另一些數(shù)據(jù)則利用訪問文件來完成數(shù)據(jù)訪問[5]。
2.2系統(tǒng)應(yīng)用
數(shù)據(jù)集成服務(wù)器:因?yàn)椴杉瘮?shù)據(jù)的過程中,采取的單向方式,因此服務(wù)器接收端位于本地,發(fā)送端和分布式數(shù)據(jù)庫聯(lián)系在一起,分兩端服務(wù)。
本地?cái)?shù)據(jù)庫:因?yàn)楦鱾€(gè)電力營銷系統(tǒng)中的數(shù)據(jù)量較為龐大,為了確保訪問速度與數(shù)據(jù)容量,采取的是多個(gè)數(shù)據(jù)服務(wù)器方式。在數(shù)據(jù)庫中需要設(shè)計(jì)安裝存貯設(shè)備與觸發(fā)器,用來減少系統(tǒng)工作量,確保數(shù)據(jù)傳輸與處理的一致性。
應(yīng)用服務(wù)器:從具體應(yīng)用的要求出發(fā),系統(tǒng)邏輯層的服務(wù)功能包括了兩類,其一,低級(jí)服務(wù);其二,高級(jí)服務(wù)。其中低級(jí)服務(wù)指的是本地?cái)?shù)據(jù)庫和其他數(shù)據(jù)庫的連接與維護(hù)。而高級(jí)服務(wù)功能則指的是根據(jù)要求配備不同組件,所有組件提供至少要求能夠提供一種特定服務(wù)。
數(shù)據(jù)傳輸?shù)陌踩砸螅涸趥鬏敂?shù)據(jù)的過程中,有多個(gè)渠道,而不同渠道在保障數(shù)據(jù)實(shí)時(shí)性與安全性方面并不相同,可以利用電子郵件進(jìn)行數(shù)據(jù)傳輸,也可借助信息通信中間件進(jìn)行數(shù)據(jù)傳輸,確保數(shù)據(jù)的單次傳輸。這種傳輸方式是以中間件作為渠道進(jìn)行數(shù)據(jù)菜蔬,面向的是分布式信息中間件產(chǎn)品,在消息對(duì)列的基礎(chǔ)上,為分布式應(yīng)用搭建可靠、完整的信息交換平臺(tái)。對(duì)于傳輸安全性有著較高要求的客戶,可以利用信息通信中間件作為傳輸方式。例如:以信息通信中間件為主,電子郵件為輔的傳輸方式,數(shù)據(jù)接收服務(wù)器從信息隊(duì)伍中自動(dòng)提取有關(guān)消息,從而完成數(shù)據(jù)通信[6]。
3結(jié)語
綜上所述,中國市場經(jīng)濟(jì)的穩(wěn)步發(fā)展,要求電力營銷企業(yè)不斷提高自身的市場競爭力,在實(shí)際的發(fā)展過程呢個(gè)中,應(yīng)用先進(jìn)技術(shù),不斷改進(jìn)自身的經(jīng)營管理質(zhì)量,在電力營銷數(shù)據(jù)分析系統(tǒng)中充分應(yīng)用數(shù)據(jù)集成技術(shù),提高數(shù)據(jù)采集與數(shù)據(jù)處理效率。
參考文獻(xiàn):
[1]徐晶,徐鋒.數(shù)據(jù)集成技術(shù)在電力營銷數(shù)據(jù)分析系統(tǒng)中的應(yīng)用[J].科技致富向?qū)В?014,10(25):201-202.
[2]賈玉君.國內(nèi)電力營銷監(jiān)控領(lǐng)域的研究現(xiàn)狀與發(fā)展[J].電力信息化,2010,09(15):251-252.
[3]郭航宇.電力營銷數(shù)據(jù)分析中的數(shù)據(jù)集成技術(shù)研究[J].科技與創(chuàng)新,2014,10(09):440-441.
[4]雷波.數(shù)據(jù)挖掘技術(shù)在電力營銷系統(tǒng)中的應(yīng)用研究[J].廣東科技,2014,02(08):331-333.
[5]戴小廷,陳榮思,肖冰.基于信息熵的決策樹挖掘算法在智能電力營銷中的應(yīng)用[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版),2012,03(03):901-902.