亚洲精品一区二区三区大桥未久_亚洲春色古典小说自拍_国产人妻aⅴ色偷_国产精品一区二555

挖掘技術(shù)論文8篇

時(shí)間:2023-03-16 15:51:19

緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇挖掘技術(shù)論文,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!

挖掘技術(shù)論文

篇1

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

參考文獻(xiàn):

蘇新寧楊建林鄧三鴻等:數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

篇2

[關(guān)鍵詞]數(shù)據(jù)挖掘客戶關(guān)系管理應(yīng)用步驟

根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個(gè)利益相關(guān)者,分別是客戶、競爭對(duì)手、供應(yīng)商、分銷商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶?,F(xiàn)代企業(yè)的競爭優(yōu)勢(shì)不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據(jù)優(yōu)勢(shì)和主動(dòng)。而對(duì)市場份額的爭奪實(shí)質(zhì)上是對(duì)客戶的爭奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向的轉(zhuǎn)變,對(duì)企業(yè)與客戶發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶關(guān)系管理,就要通過有效的途徑,從儲(chǔ)存大量客戶信息的數(shù)據(jù)倉庫中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作,提高企業(yè)市場競爭力的有效信息。而實(shí)現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價(jià)值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶關(guān)系管理的理念和目標(biāo)得以實(shí)現(xiàn),滿足現(xiàn)代電子商務(wù)時(shí)代的需求和挑戰(zhàn)。

一、客戶關(guān)系管理(CRM)

CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過富有意義的交流和溝通,理解并影響客戶行為,最終實(shí)現(xiàn)提高客戶獲取、客戶保留、客戶忠誠和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識(shí)別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時(shí)能提高員工的生產(chǎn)能力。

二、數(shù)據(jù)挖掘(DM)

數(shù)據(jù)挖掘(DataMining,簡稱DM),簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。

常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場通過關(guān)聯(lián)分析,可以找出若干個(gè)客戶在本商場購買商品時(shí),哪些商品被購置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫中不同商品的聯(lián)系,進(jìn)而反映客戶的購買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下)隨著購買B商品,來發(fā)現(xiàn)客戶潛在的購買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購買模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營銷方案。(5)孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話盜用等。

三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

1.進(jìn)行客戶分類

客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類,針對(duì)不同類別的客戶,提供個(gè)性化的服務(wù)來提高客戶的滿意度,提高現(xiàn)有客戶的價(jià)值。細(xì)致而可行的客戶分類對(duì)企業(yè)的經(jīng)營策略有很大益處。例如,保險(xiǎn)公司在長期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶的服務(wù)歷史、對(duì)客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來,以便在數(shù)據(jù)庫里建立起一個(gè)完整的客戶背景。在客戶背景信息中,大批客戶可能在保險(xiǎn)種類、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。

2.進(jìn)行客戶識(shí)別和保留

(1)在CRM中,首先應(yīng)識(shí)別潛在客戶,然后將他們轉(zhuǎn)化為客戶

這時(shí)可以采用DM中的分類方法。首先是通過對(duì)數(shù)據(jù)庫中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測(cè)類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來對(duì)象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫,給潛在顧客發(fā)送用于促銷的新書宣傳冊(cè)。該數(shù)據(jù)庫內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購習(xí)慣、購書資金、計(jì)劃等屬性的描述,顧客被分類為“是”或“否”會(huì)成為購買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫中時(shí),就對(duì)該新顧客的購買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊(cè)。

(2)在客戶保留中的應(yīng)用

客戶識(shí)別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失的過程。對(duì)企業(yè)來說,獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某??茖W(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識(shí),沒有實(shí)際的技能,在就業(yè)市場上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購買先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。

(3)對(duì)客戶忠誠度進(jìn)行分析

客戶的忠誠意味著客戶不斷地購買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠度分析中主要是對(duì)客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠度的變化,據(jù)此對(duì)價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。

(4)對(duì)客戶盈利能力分析和預(yù)測(cè)

對(duì)于一個(gè)企業(yè)而言,如果不知道客戶的價(jià)值,就很難做出合適的市場策略。不同的客戶對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價(jià)值的優(yōu)質(zhì)客戶。為了弄清誰才是有價(jià)值的客戶,就需要按照客戶的創(chuàng)利能力來劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來分析和預(yù)測(cè)不同市場活動(dòng)情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營銷。

(5)交叉銷售和增量銷售

交叉銷售是促使客戶購買尚未使用的產(chǎn)品和服務(wù)的營銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級(jí)的銷售活動(dòng),目的在于增強(qiáng)企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測(cè)性模型來預(yù)測(cè)什么時(shí)間會(huì)發(fā)生什么事件,判斷哪些客戶對(duì)交叉銷售和增量銷售很有意向,以達(dá)到交叉銷售和增量銷售的目的。例如,保險(xiǎn)公司的交叉營銷策略:保險(xiǎn)公司對(duì)已經(jīng)購買某險(xiǎn)種的客戶推薦其它保險(xiǎn)產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險(xiǎn)險(xiǎn)種是用戶所感興趣的,否則會(huì)造成用戶的反感。

四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟

1.需求分析

只有確定需求,才有分析和預(yù)測(cè)的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實(shí)施過程也是圍繞著這個(gè)目標(biāo)進(jìn)行的。在確定用戶的需求后,應(yīng)該明確所要解決的問題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測(cè),還是其他應(yīng)用。應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過數(shù)據(jù)挖掘技術(shù)來解決用戶的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計(jì)劃。

2.建立數(shù)據(jù)庫

這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對(duì)數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個(gè)方面的來源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉庫,并通過OLAP和報(bào)表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫用戶。

3.選擇合適的數(shù)據(jù)挖掘工具

如果從上一步的分析中發(fā)現(xiàn),所要解決的問題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測(cè),關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。

4.建立模型

建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過程。一個(gè)好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來的數(shù)據(jù)應(yīng)有較好的預(yù)測(cè)。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個(gè)事件或?qū)ο髿w類?;貧w是通過具有已知值的變量來預(yù)測(cè)其它變量的值。時(shí)間序列是用變量過去的值來預(yù)測(cè)未來的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個(gè)反復(fù)進(jìn)行的過程,它需要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最合理、最適用的模型。

5.模型評(píng)估

為了驗(yàn)證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對(duì)模型進(jìn)行評(píng)估。我們可以將數(shù)據(jù)中的一部分用于模型評(píng)估,來測(cè)試模型的準(zhǔn)確性,模型是否容易被理解模型的運(yùn)行速度、輸入結(jié)果的速度、實(shí)現(xiàn)代價(jià)、復(fù)雜度等。模型的建立和檢驗(yàn)是一個(gè)反復(fù)的過程,通過這個(gè)階段階段的工作,能使數(shù)據(jù)以用戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。

6.部署和應(yīng)用

將數(shù)據(jù)挖掘的知識(shí)歸檔和報(bào)告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)采取必要的行動(dòng),以及消除與先前知識(shí)可能存在的沖突,并將挖掘的知識(shí)應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過程中,也需要不斷地對(duì)模型進(jìn)行評(píng)估和檢驗(yàn),并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。

參考文獻(xiàn):

[1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國經(jīng)濟(jì)出版社,2002

[2]馬剛:客戶關(guān)系管理[M]大連:東北財(cái)經(jīng)大學(xué)出版社,2008

[3]朱美珍:以數(shù)據(jù)挖掘提升客戶關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)

[4]顧桂芳何世友:數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用研究[J].企業(yè)管理,2007,(7)

篇3

數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲(chǔ)以及測(cè)量技術(shù)的迅猛發(fā)展過程中,人們可以進(jìn)行信息的大量測(cè)量并進(jìn)行存儲(chǔ)。但是,在大量的信息背后卻沒有一種有效的手段和技術(shù)進(jìn)行直觀的表達(dá)和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對(duì)目前大數(shù)據(jù)時(shí)代的一種應(yīng)急手段,使得有關(guān)計(jì)算機(jī)數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機(jī)器學(xué)習(xí)的概念中而產(chǎn)生的,在對(duì)機(jī)器的學(xué)習(xí)過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機(jī)械的操作辦法。而沒有指導(dǎo)性學(xué)習(xí)的辦法一般不從這些環(huán)境得出反饋,而是通過沒有干預(yù)的情況下進(jìn)行歸納和學(xué)習(xí),并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習(xí)的一種方式,這種從例子中進(jìn)行歸納學(xué)習(xí)的方式是介于上述無指導(dǎo)性學(xué)習(xí)以及較少使用歸納學(xué)習(xí)這兩種方式之間的一種方式。因此,可以說,數(shù)據(jù)挖掘技術(shù)的特征在出自于機(jī)器學(xué)習(xí)的背景下,與其相比機(jī)器主要關(guān)心的是如何才能有效提高機(jī)器的學(xué)習(xí)能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價(jià)值的信息。其第二個(gè)特征是,與機(jī)器學(xué)習(xí)特點(diǎn)相比較而言,機(jī)器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對(duì)象則是現(xiàn)實(shí)中海量規(guī)模的數(shù)據(jù)庫,其作用主要是用來處理一些異?,F(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項(xiàng),甚至是一些不同類型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點(diǎn)是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來進(jìn)行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運(yùn)用啟發(fā)式的歸納學(xué)習(xí)進(jìn)行理論以及假設(shè)來處理的。

2、數(shù)據(jù)挖掘技術(shù)主要步驟

數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉庫,要根據(jù)實(shí)際情況而定,在易出現(xiàn)問題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫。主要是用來把數(shù)據(jù)庫中的所有的存儲(chǔ)數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫雖然可以進(jìn)行大量的存儲(chǔ)數(shù)據(jù),同時(shí)也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對(duì)手工方式進(jìn)行數(shù)據(jù)測(cè)試并建模。其次,在數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)選一數(shù)據(jù)集,作為對(duì)數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時(shí)變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對(duì)一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對(duì)數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對(duì)高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對(duì)數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測(cè)性的模型、數(shù)據(jù)的摘要等。隨后再?zèng)Q定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對(duì)當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對(duì)數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時(shí),要注意幾個(gè)問題,要充分利用結(jié)論對(duì)照其他的信息進(jìn)行校核,可對(duì)圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀點(diǎn)和看法有無差錯(cuò),使目前的結(jié)論和原先看法的矛盾有效解除。

3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營銷系統(tǒng)中的應(yīng)用和發(fā)展

數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測(cè)性建模方法,也就是對(duì)歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測(cè)性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對(duì)象屬于連續(xù)型的變量,那么此類的推斷問題可屬回歸問題。根據(jù)歷史數(shù)據(jù)來進(jìn)行分析和檢測(cè),再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問題得到解決。電力營銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測(cè)出未來情況。把關(guān)聯(lián)規(guī)則成功引入電力營銷分析,通過FP-Growth算法對(duì)電力營銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場營銷策略提供參謀和決策。對(duì)電力營銷系統(tǒng)的應(yīng)用中,時(shí)間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測(cè)方法。這種方法的應(yīng)用中,對(duì)神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時(shí)間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時(shí)間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報(bào)警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對(duì)電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對(duì)錯(cuò)誤模型的分析精度達(dá)到一定的精確度。

4、結(jié)語

篇4

電子商務(wù)既包括了低層次的電子貿(mào)易等,還包括了利用Internet網(wǎng)絡(luò)開展的貿(mào)易活動(dòng),在多個(gè)環(huán)節(jié)中實(shí)現(xiàn)。電子商務(wù)的發(fā)展極大地改變了銷售商和顧客之間的關(guān)系,在紡織業(yè)電子商務(wù)采用Web數(shù)據(jù)挖掘主要包括以下幾點(diǎn)作用。電子商務(wù)進(jìn)行Web數(shù)據(jù)挖掘的數(shù)據(jù)源主要包括查詢數(shù)據(jù)、Web頁面、在線市場數(shù)據(jù)等。服務(wù)器數(shù)據(jù)主要是指用戶在訪問電子商務(wù)網(wǎng)站中所產(chǎn)生的各種信息,如服務(wù)器Web日志文件。查詢數(shù)據(jù)通過搜索引擎產(chǎn)生的查詢數(shù)據(jù),是一種比較典型的數(shù)據(jù)。服務(wù)器數(shù)據(jù)是網(wǎng)絡(luò)信息的中轉(zhuǎn)站,服務(wù)器數(shù)據(jù)一般具有防火墻功能,是網(wǎng)絡(luò)信息的中轉(zhuǎn)站,采用緩存功能,能夠大大減少服務(wù)器的網(wǎng)絡(luò)流量,加快運(yùn)行速度。任何一個(gè)電子商務(wù)網(wǎng)站在Web數(shù)據(jù)挖掘過程開始之前需要進(jìn)行數(shù)據(jù)挖掘,包括數(shù)據(jù)的準(zhǔn)備、挖掘操作以及解釋過程等。Web數(shù)據(jù)挖掘應(yīng)用到紡織業(yè)電子商務(wù)中,能夠幫助企業(yè)更好的掌握生產(chǎn)狀態(tài),更加快速的提出企業(yè)的銷售信息,準(zhǔn)確把握市場銷售的變化,進(jìn)而提高紡織企業(yè)對(duì)市場的應(yīng)對(duì)能力,也能提高企業(yè)對(duì)生產(chǎn)的控制和管理能力,最大程度利用人力資源和物理資源,提高經(jīng)濟(jì)效益。客戶關(guān)系管理是一種以客戶為中心的經(jīng)營策略,指導(dǎo)企業(yè)的開發(fā)發(fā)展和銷售,提高企業(yè)的競爭能力,采用Web數(shù)據(jù)挖掘技術(shù)能夠最大限度的利用客戶資源,對(duì)客戶進(jìn)行分類,尋找潛在的價(jià)值,加強(qiáng)紡織業(yè)客戶的管理工作。企業(yè)的信用狀況將會(huì)嚴(yán)重影響企業(yè)的發(fā)展,利用Web數(shù)據(jù)挖掘技術(shù)能夠跟蹤調(diào)查企業(yè)的經(jīng)營情況,為保證體系提供數(shù)據(jù)資料??蛻粼谶x擇任何一種銷售商并沒有太大差別,企業(yè)本身想要留住客戶,就需要想辦法讓客戶駐留更長的時(shí)間,想要根據(jù)客戶的習(xí)慣來設(shè)計(jì),就需要了解客戶的興趣和需求,動(dòng)態(tài)調(diào)整頁面,滿足用戶的需求,挖掘客戶訪問信息,進(jìn)而了解客戶的需求。根據(jù)序列發(fā)現(xiàn)客戶瀏覽行為的信息,明白客戶的需求,根據(jù)顧客的需求來設(shè)計(jì)別出心載的界面,增加客戶的駐留時(shí)間。Web數(shù)據(jù)挖掘在應(yīng)用中能夠幫助紡織企業(yè)更好的挖掘潛在的信息,商家可以根據(jù)潛在客戶的需求和愿望來進(jìn)行分類,正確的分類新客戶,判斷潛在的新客戶,強(qiáng)化顯示客戶的需求,保證企業(yè)獲得更高的客戶收益。紡織業(yè)電子商務(wù)在應(yīng)用Web數(shù)據(jù)挖掘中能夠改進(jìn)Web站點(diǎn)的設(shè)計(jì),提高站點(diǎn)的效率。紡織業(yè)電子商務(wù)Web數(shù)據(jù)挖掘的使用不在依照專家來進(jìn)行設(shè)計(jì),而是根據(jù)客戶的意愿來進(jìn)行設(shè)計(jì),利用關(guān)聯(lián)規(guī)則來進(jìn)行推理,發(fā)現(xiàn)潛在的規(guī)律,為客戶的下次訪問提供幫助。紡織業(yè)電子商務(wù)應(yīng)用Web數(shù)據(jù)挖掘能夠改變營銷機(jī)制,在一般企業(yè)的宣傳中可以看到,花費(fèi)大量的資金來進(jìn)行宣傳,所起到的效果不是很好,若是通過電子產(chǎn)品的的方式就能得到更好的營銷效果。

2、紡織業(yè)電子商務(wù)面向Web挖掘的新型架構(gòu)

2.1Web數(shù)據(jù)挖掘的流程

采用數(shù)據(jù)挖掘技術(shù)流程為特征信息的識(shí)別制定目標(biāo)問題的描述關(guān)聯(lián)分析聚類決策樹等。紡織業(yè)電子商務(wù)網(wǎng)絡(luò)在挖掘數(shù)據(jù)中首先需要記錄調(diào)庫眼特征,包括購買歷史、廣告歷史等信息。目標(biāo)制定流程是尋找不同的隱含模式,關(guān)聯(lián)分析主要是發(fā)現(xiàn)顧客喜愛的商品組合,聚類則是找到能夠提供訪問者特征的報(bào)告,決策樹就是流程圖,采用最少的步驟解決問題。先記錄訪問者的條款特征,當(dāng)訪問者訪問網(wǎng)站時(shí)能夠逐漸積累訪問者的數(shù)據(jù),交互信息包括廣告歷史等。在網(wǎng)上進(jìn)行交易的最大優(yōu)點(diǎn)在于能夠有效的評(píng)估訪問者的反應(yīng),采用數(shù)據(jù)挖掘技術(shù)能夠得到更好的效果。電子商務(wù)網(wǎng)站想要將顧客購買信息這些信息集中在一起,容易出現(xiàn)瀏覽中出現(xiàn)遺漏的情況,在流程設(shè)計(jì)中采用聚類,能夠確定網(wǎng)站的數(shù)據(jù),向不同的訪問者提供相應(yīng)的報(bào)告。

2.2紡織業(yè)電子商務(wù)面向Web挖掘的新型架構(gòu)

2.2.1Web挖掘關(guān)鍵技術(shù)

Web服務(wù)的體系結(jié)構(gòu)主要?jiǎng)幼鳂?gòu)成包括服務(wù)注冊(cè)中心、服務(wù)請(qǐng)求者、服務(wù)提供者等,服務(wù)提供者就是一種可通過網(wǎng)絡(luò)地址訪問的實(shí)體,服務(wù)請(qǐng)求者是一個(gè)應(yīng)用程序的服務(wù),服務(wù)注冊(cè)中心是聯(lián)系服務(wù)提供者和請(qǐng)求者。Web服務(wù)協(xié)議可以分為網(wǎng)絡(luò)傳輸層、消息層、模型層等。網(wǎng)絡(luò)傳輸層是Web服務(wù)協(xié)議棧的基礎(chǔ),可以采用任何格式,要求具有安全性、性能以及可靠性。數(shù)據(jù)表示層主要是提供數(shù)據(jù)描述手段,標(biāo)準(zhǔn)數(shù)據(jù)建模語言主要是XML?;赬ML的消息層提供一個(gè)松散的、分布環(huán)境,是在分布式的環(huán)境中交換信息的輕量級(jí)協(xié)議。服務(wù)描述層主要是提供認(rèn)識(shí)機(jī)制,服務(wù)分線層在實(shí)現(xiàn)中創(chuàng)建一個(gè)獨(dú)立的開放框架,發(fā)現(xiàn)Web服務(wù)的功能,Web服務(wù)工作流語言是協(xié)議棧頂層的標(biāo)準(zhǔn)語言。Web服務(wù)的關(guān)鍵技術(shù)主要包括SOAP協(xié)議、WSDL描述方式等,SOAP協(xié)議是分布式環(huán)境中交換信息的簡單協(xié)議,能夠與現(xiàn)有通信技術(shù)最大程度地兼容,獨(dú)立于應(yīng)用程度對(duì)象模型、語言和運(yùn)行平臺(tái)等,本身不定義任何應(yīng)用語義,一個(gè)SOAP信息是一個(gè)XML文檔,AOAP規(guī)范主要由信封、編碼規(guī)則、綁定等組成,AOAP信封定義整體的消息表示框架。移動(dòng)Agent技術(shù)應(yīng)用到電子商務(wù)中有非常大的優(yōu)勢(shì),移動(dòng)Agent技術(shù)具有響應(yīng)性、自主性以及主動(dòng)性等特征,應(yīng)用到電子商務(wù)系統(tǒng)中能夠減少電子商務(wù)活動(dòng)的通信代價(jià),減少網(wǎng)上原始數(shù)據(jù)的流量。電子商務(wù)中的教育要求包括訪問流程信息,要求系統(tǒng)對(duì)環(huán)境的變化做出實(shí)時(shí)的反應(yīng),由中央處理器將移動(dòng)Agent派遣到系統(tǒng)局部點(diǎn)激活消除隱患。

2.2.2Web挖掘平臺(tái)設(shè)計(jì)

產(chǎn)品的功能實(shí)現(xiàn)在Web數(shù)據(jù)挖掘平臺(tái)的設(shè)計(jì)中至關(guān)重要,要求數(shù)據(jù)挖掘平臺(tái)具有動(dòng)態(tài)、可伸縮性,能夠根據(jù)市場需求的變化而隨之變化,還要求具有足夠的穩(wěn)定性和可靠性。在進(jìn)行架構(gòu)設(shè)計(jì)時(shí),需要注意架構(gòu)的合理性、簡潔性和可擴(kuò)展性。根據(jù)數(shù)據(jù)挖掘、Web服務(wù)和相關(guān)結(jié)束,設(shè)計(jì)數(shù)據(jù)挖掘架構(gòu),見圖1所示,Web服務(wù)的組合由Agent負(fù)責(zé),待返回結(jié)果后,能夠有效解決數(shù)據(jù)的分布性、可擴(kuò)展性等,負(fù)責(zé)服務(wù)之間的通信,降低網(wǎng)絡(luò)通信的負(fù)擔(dān),減少相應(yīng)時(shí)間,實(shí)現(xiàn)挖掘算法庫的動(dòng)態(tài)管理。在挖掘平臺(tái)的設(shè)計(jì)中,各種挖掘算法均采用采用Web服務(wù)封裝,實(shí)現(xiàn)挖掘系統(tǒng)與算法的耦合。各個(gè)Agent模塊之間相互獨(dú)立。架構(gòu)邏輯層主要分為4層,數(shù)據(jù)存儲(chǔ)層為最底層,數(shù)據(jù)處理層主要包括Web服務(wù)的架構(gòu)和數(shù)據(jù)挖掘的是吸納,在Agent環(huán)境中將XML文件轉(zhuǎn)換,將查詢結(jié)果再打包成XML文檔,形成模式集合最后提供給客戶信息,把訪問層和邏輯層設(shè)計(jì)為數(shù)據(jù)訪問的功能封裝。客戶端的設(shè)計(jì)主要包括胖客戶端和瘦客戶端,大部分的系統(tǒng)功能集中在胖客戶端。典型的Agent結(jié)構(gòu)應(yīng)用到Web服務(wù),其他的Agent搜尋和定位這些系統(tǒng)。移動(dòng)Agent應(yīng)用到Web數(shù)據(jù)挖掘中能夠彌補(bǔ)很多的不足。在Web挖掘架構(gòu)設(shè)計(jì)中,獨(dú)立出了搜索引擎,使得搜索引擎更加具有靈活性。傳統(tǒng)的數(shù)據(jù)挖掘引擎主要包括算法調(diào)用模塊和算法管理模塊等,算法分布Agent子模塊股則命令的傳輸,向UDDI請(qǐng)求,刪除已有的挖掘算法等功能,UDDI服務(wù)器與Agent相互交換信息生成算法的WSDL文檔,將信息保存到UDDI服務(wù)器上,完成任務(wù)。

3、Web挖掘原型系統(tǒng)的實(shí)現(xiàn)

篇5

要了解Web數(shù)據(jù)挖掘技術(shù),首先就必須要了解數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是指從大量不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識(shí)的過程。它的表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。Web數(shù)據(jù)挖掘是一種綜合的技術(shù),它主要是使用數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)挖掘各種有用的、有趣的、隱藏起來的信息或者是有用的模式。與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web數(shù)據(jù)挖掘所挖掘的信息更加的海量,這些信息具有異構(gòu)和分布廣的特點(diǎn)。對(duì)于服務(wù)器上的日志與用戶信息的挖掘仍然屬于傳統(tǒng)的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘由于Web的邏輯結(jié)構(gòu)其所挖掘到的模式有可能是關(guān)于Web內(nèi)容的,也有可能是關(guān)于Web結(jié)構(gòu)的。同時(shí)有些數(shù)據(jù)挖掘技術(shù)也不能直接運(yùn)用到Web數(shù)據(jù)挖掘中。Web數(shù)據(jù)挖掘的研究范圍十分廣泛,它的研究主要包括了數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)等。Web數(shù)據(jù)挖掘根據(jù)所處理的對(duì)象可以分為三類:Web文檔的內(nèi)容挖掘、Web文檔的結(jié)構(gòu)挖掘、Web使用的挖掘。Web文檔的內(nèi)容挖掘指的是從Web文檔及對(duì)其的描述內(nèi)容中獲取到有用的信息,即是對(duì)Web上大量的各種文檔集合的內(nèi)容進(jìn)行處理,例如摘要、分類、聚類、關(guān)聯(lián)分析等。同時(shí)內(nèi)容挖掘還可以對(duì)各種多媒體信息進(jìn)行挖掘。Web上的內(nèi)容摘要是用簡潔的語言和方式對(duì)文檔的內(nèi)容進(jìn)行描述和解釋,讓用戶在不用瀏覽全文的情況下就可以對(duì)全文的內(nèi)容和文章寫作的目的有一個(gè)總體的了解。文章寫作的目的有一個(gè)總體的了解。而Web內(nèi)容挖掘的這種方式非常有用,例如應(yīng)用到檢索結(jié)果的顯示中。Web分類則指的是根據(jù)已經(jīng)確定好的類別,為每一個(gè)獲得的Web文檔確定一個(gè)大類。聚類則是指的在沒有確定類別之前,將相似度高的文檔歸為一類。關(guān)聯(lián)分析指的是從文檔集合中找出不同語詞之間的具有的關(guān)系。Web文檔的結(jié)構(gòu)挖掘指的是從互聯(lián)網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁之間的相互鏈接以及網(wǎng)頁本身的結(jié)構(gòu)中獲取有用的信息和知識(shí)。目前為止針對(duì)結(jié)構(gòu)的挖掘主要還是鏈?zhǔn)浇Y(jié)構(gòu)模式。對(duì)于Web結(jié)構(gòu)的挖掘主要源于對(duì)引文的分析,引文分析的主要內(nèi)容就是通過對(duì)網(wǎng)頁的鏈接數(shù)和被連接數(shù)以及對(duì)象的分析來建立一個(gè)鏈接結(jié)構(gòu)模式,這種模式可以用來對(duì)網(wǎng)頁進(jìn)行歸類,同時(shí)還可以獲取網(wǎng)頁之間的相似度和關(guān)聯(lián)度等信息。Web使用的挖掘一般情況下指的是對(duì)Web日志的挖掘。其挖掘的對(duì)象是用戶與互聯(lián)網(wǎng)交互過程中所抽取出來的各種信息,例如訪問記錄、用戶名、用戶注冊(cè)信息以及用戶所進(jìn)行的操作等。在這一方面的研究已經(jīng)比較成熟,同時(shí)也有很多較為成熟的產(chǎn)品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術(shù)較為成熟的產(chǎn)品。

二、Web數(shù)據(jù)挖掘技術(shù)的工作流程

Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫中的動(dòng)態(tài)信息,然后生成WWW資源庫索引;第四步,進(jìn)行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。

三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用

高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會(huì)議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時(shí)常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會(huì)到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識(shí)增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個(gè)網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動(dòng)時(shí),所有這些問題只要稍加改動(dòng),容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對(duì)感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識(shí),然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個(gè)性化服務(wù)頁面,并提供用戶對(duì)站內(nèi)信息進(jìn)行搜索功能,同時(shí)可以滿足師生對(duì)于圖書館資源進(jìn)行查找訪問的需求,實(shí)現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個(gè)性化服務(wù)。

1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具

數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。

2、為以用戶為中心的服務(wù)提供幫助

通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時(shí)輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊(cè)時(shí)所填寫的,訪問記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請(qǐng)求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過Web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。

3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用

在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會(huì)根據(jù)圖書館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報(bào)告和預(yù)測(cè)報(bào)告。根據(jù)對(duì)分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。

4、使用Web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)

傳統(tǒng)的信息檢索工具在友好型、可理解性、交互性方面都存在著很大的缺陷。通常情況下都只是將各種查詢結(jié)果毫無邏輯的簡單的進(jìn)行羅列,用戶很難從其中獲取自己需要的信息,通過數(shù)據(jù)挖掘,可以對(duì)圖書館網(wǎng)站上的在線調(diào)查、留言簿、讀者調(diào)查表等數(shù)據(jù)進(jìn)行收集整理,對(duì)不需要的冗余信息進(jìn)行剔除。通過分析可以獲知用戶所喜好的瀏覽模式是哪種,他們常訪問的網(wǎng)站的路徑是什么,他們對(duì)圖書館中的那些資源比較有興趣。然后再根據(jù)用戶的普遍需求與每個(gè)人的個(gè)性需求,建立起相應(yīng)的規(guī)則,從而幫助網(wǎng)站設(shè)計(jì)人員對(duì)網(wǎng)站進(jìn)行設(shè)計(jì)和優(yōu)化,使得這些信息檢索變得更加的個(gè)性化、智能化,并根據(jù)每個(gè)用戶的偏好等特征將檢索到的信息排列處理,使得讀者可以用最快的速度獲得想要檢索的文獻(xiàn)信息。通過Web數(shù)據(jù)挖掘技術(shù)可以對(duì)用戶的特征信息進(jìn)行總結(jié),將那些從沒有發(fā)出過信息的潛在用戶進(jìn)行歸類,同時(shí)還可以免費(fèi)的為他們提供各種他們所感興趣的信息和資料,把這些潛在的用戶轉(zhuǎn)變?yōu)檎降挠脩羰褂肳eb數(shù)據(jù)挖掘可以對(duì)用戶的檢索日志進(jìn)行分析,從而得知用戶所感興趣的內(nèi)容、他們的研究方向,并根據(jù)這些內(nèi)容為用戶指定個(gè)性化服務(wù)的內(nèi)容,為用戶提供各種他們所感興趣的各種信息。

篇6

關(guān)鍵字:數(shù)據(jù)挖掘金融數(shù)據(jù)

金融部門每天的業(yè)務(wù)都會(huì)產(chǎn)生大量數(shù)據(jù),利用目前的數(shù)據(jù)庫系統(tǒng)可以有效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。與此同時(shí),金融機(jī)構(gòu)的運(yùn)作必然存在金融風(fēng)險(xiǎn),風(fēng)險(xiǎn)管理是每一個(gè)金融機(jī)構(gòu)的重要工作。利用數(shù)據(jù)挖掘技術(shù)不但可以從這海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其后的規(guī)律,而且可以很好地降低金融機(jī)構(gòu)存在的風(fēng)險(xiǎn)。學(xué)習(xí)和應(yīng)用數(shù)扼挖掘技術(shù)對(duì)我國的金融機(jī)構(gòu)有重要意義。

一、數(shù)據(jù)挖掘概述

1.數(shù)據(jù)挖掘的定義對(duì)于數(shù)據(jù)挖掘,一種比較公認(rèn)的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識(shí)、這些知識(shí)是隱含的、事先未知的、潛在有用的信息,提取的知識(shí)表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個(gè)定義把數(shù)據(jù)挖掘的對(duì)象定義為數(shù)據(jù)庫。

隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其應(yīng)用領(lǐng)域也不斷拓廣。數(shù)據(jù)挖掘的對(duì)象已不再僅是數(shù)據(jù)庫,也可以是文件系統(tǒng),或組織在一起的數(shù)據(jù)集合,還可以是數(shù)據(jù)倉庫。與此同時(shí),數(shù)據(jù)挖掘也有了越來越多不同的定義,但這些定義盡管表達(dá)方式不同,其本質(zhì)都是近似的,概括起來主要是從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。

從技術(shù)角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識(shí)的過程。它是一門廣義的交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫系統(tǒng)、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化等多學(xué)科領(lǐng)域且本身還在不斷發(fā)展。目前有許多富有挑戰(zhàn)的領(lǐng)域如文本數(shù)據(jù)挖掘、Web信息挖掘、空間數(shù)據(jù)挖掘等。

從商業(yè)角度看,數(shù)據(jù)挖掘是一種深層次的商業(yè)信息分析技術(shù)。它按照企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性并進(jìn)一步將其模型化,從而自動(dòng)地提取出用以輔助商業(yè)決策的相關(guān)商業(yè)模式。

2.數(shù)據(jù)挖掘方法

數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)技術(shù)和人工智能技術(shù)發(fā)展的產(chǎn)物。從使用的技術(shù)角度,主要的數(shù)據(jù)挖掘方法包括:

2.1決策樹方法:利用樹形結(jié)構(gòu)來表示決策集合,這些決策集合通過對(duì)數(shù)據(jù)集的分類產(chǎn)生規(guī)則。國際上最有影響和最早的決策樹方法是ID3方法,后來又發(fā)展了其它的決策樹方法。

2.2規(guī)則歸納方法:通過統(tǒng)計(jì)方法歸納,提取有價(jià)值的if-then規(guī)則。規(guī)則歸納技術(shù)在數(shù)據(jù)挖掘中被廣泛使用,其中以關(guān)聯(lián)規(guī)則挖掘的研究開展得較為積極和深入。

2.3神經(jīng)網(wǎng)絡(luò)方法:從結(jié)構(gòu)上模擬生物神經(jīng)網(wǎng)絡(luò),以模型和學(xué)習(xí)規(guī)則為基礎(chǔ),建立3種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。這種方法通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測(cè)模型,可以完成分類、聚類和特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。

2.4遺傳算法:模擬生物進(jìn)化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個(gè)基本算子組成。為了應(yīng)用遺傳算法,需要將數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問題,從而發(fā)揮遺傳算法的優(yōu)化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數(shù)學(xué)家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數(shù)學(xué)工具。它特別適合于數(shù)據(jù)簡化,數(shù)據(jù)相關(guān)性的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)意義,發(fā)現(xiàn)數(shù)據(jù)的相似或差別,發(fā)現(xiàn)數(shù)據(jù)模式和數(shù)據(jù)的近似分類等,近年來已被成功地應(yīng)用在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究領(lǐng)域中。

2.6K2最鄰近技術(shù):這種技術(shù)通過K個(gè)最相近的歷史記錄的組合來辨別新的記錄。這種技術(shù)可以作為聚類和偏差分析等挖掘任務(wù)。

2.7可視化技術(shù):將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢(shì)等以直觀的圖形方式表示,決策者可以通過可視化技術(shù)交互地分析數(shù)據(jù)關(guān)系??梢暬瘮?shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對(duì)數(shù)據(jù)的剖析更清楚。

二、數(shù)據(jù)挖掘在金融行業(yè)中的應(yīng)用數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于銀行和商業(yè)中,有以下的典型應(yīng)用:

1.對(duì)目標(biāo)市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲(chǔ)蓄和貨款償還行為的客戶分為一組。有效的聚類和協(xié)同過濾(collaborativefiltering)方法有助于識(shí)別客戶組,以及推動(dòng)目標(biāo)市場。

2..客戶價(jià)值分析。

在客戶價(jià)值分析之前一般先使用客戶分類,在實(shí)施分類之后根據(jù)“二八原則”,找出重點(diǎn)客戶,即對(duì)給銀行創(chuàng)造了80%價(jià)值的20%客戶實(shí)施最優(yōu)質(zhì)的服務(wù)。重點(diǎn)客戶的發(fā)現(xiàn)通常采用一系列數(shù)據(jù)處理、轉(zhuǎn)換過程、AI人工智能等數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)。通過分析客戶對(duì)金融產(chǎn)品的應(yīng)用頻率、持續(xù)性等指標(biāo)來判別客戶的忠誠度;通過對(duì)交易數(shù)據(jù)的詳細(xì)分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。

3.客戶行為分析。

找到重點(diǎn)客戶之后,可對(duì)其進(jìn)行客戶行為分析,發(fā)現(xiàn)客戶的行為偏好,為客戶貼身定制特色服務(wù)??蛻粜袨榉治鲇址譃檎w行為分析和群體行為分析。整體行為分析用來發(fā)現(xiàn)企業(yè)現(xiàn)有客戶的行為規(guī)律。同時(shí),通過對(duì)不同客戶群組之間的交叉挖掘分析,可以發(fā)現(xiàn)客戶群體間的變化規(guī)律,并可通過數(shù)據(jù)倉庫的數(shù)據(jù)清潔與集中過程,將客戶對(duì)市場的反饋?zhàn)詣?dòng)輸人到數(shù)據(jù)倉庫中。通過對(duì)客戶的理解和客戶行為規(guī)律的發(fā)現(xiàn),企業(yè)可以制定相應(yīng)的市場策略。

4.為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉庫。例如,人們可能希望按月、按地區(qū)、按部門、以及按其他因素查看負(fù)債和收入的變化情況,同時(shí)希望能提供諸如最大、最小、總和、平均和其他等統(tǒng)計(jì)信息。數(shù)據(jù)倉庫、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體,特征和比較分析,以及孤立點(diǎn)分析等,都會(huì)在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。

5.貨款償還預(yù)測(cè)和客戶信用政策分析。有很多因素會(huì)對(duì)貨款償還效能和客戶信用等級(jí)計(jì)算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關(guān)性計(jì)算,有助于識(shí)別重要的因素,別除非相關(guān)因素。例如,與貨款償還風(fēng)險(xiǎn)相關(guān)的因素包括貨款率、資款期限、負(fù)債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區(qū)、信用歷史,等等。而其中償還與收入比率是主導(dǎo)因素,受教育水平和負(fù)債率則不是。銀行可以據(jù)此調(diào)整貨款發(fā)放政策,以便將貨款發(fā)放給那些以前曾被拒絕,但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對(duì)低風(fēng)險(xiǎn)的申請(qǐng)。

6.業(yè)務(wù)關(guān)聯(lián)分析。通過關(guān)聯(lián)分析可找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),銀行存儲(chǔ)了大量的客戶交易信息,可對(duì)客戶的收人水平、消費(fèi)習(xí)慣、購買物種等指標(biāo)進(jìn)行挖掘分析,找出客戶的潛在需求;通過挖掘?qū)蛻粜畔?,銀行可以作為廠商和消費(fèi)者之間的中介,與廠商聯(lián)手,在掌握消費(fèi)者需求的基礎(chǔ)上,發(fā)展中間業(yè)務(wù),更好地為客戶服務(wù)。

7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點(diǎn)是要把多個(gè)數(shù)據(jù)庫的信息集成起來,然后采用多種數(shù)據(jù)分析工具找出異常模式,如在某段時(shí)間內(nèi),通過某一組人發(fā)生大量現(xiàn)金流量等,再運(yùn)用數(shù)據(jù)可視化工具、分類工具、聯(lián)接工具、孤立點(diǎn)分析工具、序列模式分析工具等,發(fā)現(xiàn)可疑線索,做出進(jìn)一步的處理。

數(shù)據(jù)挖掘技術(shù)可以用來發(fā)現(xiàn)數(shù)據(jù)庫中對(duì)象演變特征或?qū)ο笞兓厔?shì),這些信息對(duì)于決策或規(guī)劃是有用的,金融

行業(yè)數(shù)據(jù)的挖掘有助于根據(jù)顧客的流量安排工作人員??梢酝诰蚬善苯灰讛?shù)據(jù),發(fā)現(xiàn)可能幫助你制定投資策略的趨勢(shì)數(shù)據(jù)。挖掘給企業(yè)帶來的潛在的投資回報(bào)幾乎是無止境的。當(dāng)然,數(shù)據(jù)挖掘中得到的模式必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。

參考文獻(xiàn):

丁秋林,力士奇.客戶關(guān)系管理.第1版.北京:清華人學(xué)出版社,2002

張玉春.數(shù)據(jù)挖掘在金融分析中的應(yīng)用.華南金融電腦.2004

篇7

目前的垃圾短信過濾的方法主要有黑名單和白名單監(jiān)控技術(shù),但是短信中心對(duì)黑白名單處理數(shù)量有上限要求;基于關(guān)鍵字的過濾技術(shù),但是這種技術(shù)不能靈活識(shí)別和更新關(guān)鍵字;基于內(nèi)容的過濾技術(shù),可分為基于規(guī)則的過濾和基于概率統(tǒng)計(jì)的過濾;基于數(shù)據(jù)挖掘方法的垃圾短信用戶識(shí)別,目前基本上都使用IBMSPSSModeler平臺(tái)的決策樹和邏輯回歸經(jīng)典算法識(shí)別垃圾短信用戶,由于選取的建模數(shù)據(jù)不全面以及算法本身各自存在不足使得建模效果受到影響。為建立白名單和科學(xué)封堵模型相結(jié)合的垃圾短信治理模式,實(shí)現(xiàn)精細(xì)化、行為級(jí)、高效性的垃圾短信治理,本方案提出了基于客戶綜合特征分析的垃圾短信治理技術(shù)方案:基于隨機(jī)森林分類的垃圾短信用戶預(yù)測(cè)模型。通過客戶入網(wǎng)屬性,客戶通信行為信息、客戶賬單信息等多個(gè)維度構(gòu)建模型,對(duì)垃圾短信號(hào)碼進(jìn)行識(shí)別和治理。相比傳統(tǒng)基于短信內(nèi)容識(shí)別、發(fā)送量控制的事中控制,本系統(tǒng)能夠進(jìn)行垃圾短信發(fā)送行為預(yù)測(cè),配合垃圾短信攔截系統(tǒng)將垃圾短信在未形成大規(guī)模發(fā)送前攔截。實(shí)驗(yàn)結(jié)果證明該模型能夠有效的識(shí)別垃圾短信號(hào)碼,對(duì)監(jiān)控系統(tǒng)攔截垃圾短信起到很好的輔助作用。

2大數(shù)據(jù)挖掘的原理與優(yōu)勢(shì)

大數(shù)據(jù)是指數(shù)據(jù)量很大(一般是TB到PB數(shù)量級(jí))的巨量資料,無法通過主流軟件工具,在合理時(shí)間內(nèi)完成數(shù)據(jù)處理并獲取有價(jià)值的信息。數(shù)據(jù)大多以非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)為主,大數(shù)據(jù)具有4V特點(diǎn):Volume、Velocity、Variety、Veracity。大數(shù)據(jù)處理的一般思路是數(shù)據(jù)壓縮、數(shù)據(jù)抽樣、數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、推薦系統(tǒng)等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。大數(shù)據(jù)挖據(jù)的數(shù)據(jù)源和處理方式對(duì)比。

3數(shù)據(jù)挖據(jù)流程和模型選取

3.1數(shù)據(jù)挖掘的主要流程

數(shù)據(jù)挖掘主要包括以下6大步驟。

(1)商業(yè)理解:確定挖掘目標(biāo)以及產(chǎn)生一個(gè)項(xiàng)目計(jì)劃。

(2)數(shù)據(jù)理解:知曉有哪些數(shù)據(jù),以及數(shù)據(jù)的特征是什么。

(3)數(shù)據(jù)準(zhǔn)備:對(duì)數(shù)據(jù)作出轉(zhuǎn)換、清洗、選擇、合并等工作。

(4)建模:根據(jù)挖掘目標(biāo)確定適合的模型,建模并對(duì)模型進(jìn)行評(píng)估。

(5)模型評(píng)估:評(píng)估建模效果,對(duì)效果較差的結(jié)果我們需要分析原因。

(6)結(jié)果部署:用所建挖掘模型去解決實(shí)際問題,它還包括了監(jiān)督、維持、產(chǎn)生最終報(bào)表、重新評(píng)估模型等過程。

3.2垃圾短信治理指標(biāo)體系設(shè)計(jì)

垃圾短信用戶識(shí)別建模數(shù)據(jù)主要從信令監(jiān)測(cè)系統(tǒng)、經(jīng)營分析系統(tǒng)獲取,所獲取的用戶行為數(shù)據(jù)主要包括用戶通信行為信息、用戶基礎(chǔ)業(yè)務(wù)屬性、用戶通信業(yè)務(wù)信息等7個(gè)維度。其中,用戶通信行為信息包括活動(dòng)軌跡、終端IMEI和數(shù)據(jù)業(yè)務(wù)訪問等信息。

3.3模型的選取

對(duì)白名單用戶的識(shí)別可以利用社交網(wǎng)絡(luò)模型與業(yè)務(wù)規(guī)則相結(jié)合的方法。利用社交網(wǎng)絡(luò)進(jìn)行白名單用戶識(shí)別,重點(diǎn)考慮用戶之間發(fā)生的通信行為、增值業(yè)務(wù)交互行為等群體行為,通過對(duì)用戶之間關(guān)系的辨識(shí)。本文建模的重點(diǎn)著眼于垃圾短信用戶的識(shí)別及其治理。

3.3.1現(xiàn)有垃圾短信識(shí)別模型的優(yōu)勢(shì)與不足

識(shí)別垃圾短信用戶是數(shù)據(jù)挖掘中的分類問題,數(shù)據(jù)挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網(wǎng)絡(luò)等算法。其中,神經(jīng)網(wǎng)絡(luò)因本身算法的復(fù)雜性,造成模型結(jié)果解釋性較差,模型落地較困難而很少在實(shí)際項(xiàng)目中使用。目前識(shí)別垃圾短信的數(shù)據(jù)挖掘模型基本上為邏輯回歸模型和決策樹模型。決策樹模型主要具有以下優(yōu)勢(shì):模型非常直觀,容易讓人理解和應(yīng)用;決策樹搭建和應(yīng)用的速度比較快;決策樹對(duì)于數(shù)據(jù)分布沒有嚴(yán)格要求;受缺失值和極端值對(duì)模型的影響很小。但是,使用決策樹作為垃圾短信用戶識(shí)別模型主要存在以下不足。

(1)決策樹最大缺點(diǎn)是其原理中的貪心算法。貪心算法總是做出在當(dāng)前看來最好的選擇,卻不從整體上思考最優(yōu)的劃分,因此,它所做的選擇只能是某種意義上的局部最優(yōu)選擇。

(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測(cè)指標(biāo)和評(píng)價(jià)方法。

(3)容易出現(xiàn)過擬合。當(dāng)某些自變量的類別數(shù)量比較多,或者自變量是區(qū)間型時(shí),決策樹過擬合的危險(xiǎn)性會(huì)增加。

(4)決策樹算法對(duì)區(qū)間型自變量進(jìn)行分箱操作時(shí),無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當(dāng)分箱前的區(qū)間變量與目標(biāo)變量有明顯的線性關(guān)系時(shí),這種分箱操作造成的信息損失更為明顯。

相比于數(shù)據(jù)挖掘建模常用的其它算法如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,邏輯回歸技術(shù)是最成熟,得到廣泛應(yīng)用,邏輯回歸模型主要存在以下不足。

(1)變量之間的多重共線性會(huì)對(duì)模型造成影響。

(2)應(yīng)刪除異常值,否則它會(huì)給模型帶來很大干擾。

(3)邏輯回歸模型本身不能處理缺失值,所以應(yīng)用邏輯回歸算法時(shí),要注意針對(duì)缺失值進(jìn)行適當(dāng)處理,或者賦值,或者替換,或者刪除。

3.3.2垃圾短信識(shí)別預(yù)測(cè)模型選取

鑒于目前研究者對(duì)垃圾短信識(shí)別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對(duì)其進(jìn)行改進(jìn),力求得到更加科學(xué)合理的垃圾短信識(shí)別預(yù)測(cè)模型。本文使用的數(shù)據(jù)挖掘模型為隨機(jī)森林模型。

3.3.2.1模型簡介

隨機(jī)森林(RandomForest)算法是一種專門為決策樹分類器設(shè)計(jì)的優(yōu)化方法。它綜合了多棵決策樹模型的預(yù)測(cè)結(jié)果,其中的每棵樹都是基于隨機(jī)樣本的一個(gè)獨(dú)立集合的值產(chǎn)生的。隨機(jī)森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產(chǎn)生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時(shí)候沒有進(jìn)行更多的干預(yù)。而隨機(jī)森林也是進(jìn)行許多次自助法放回抽樣,所得到的樣本數(shù)目及由此建立的決策樹數(shù)量要大大多于Bagging的樣本數(shù)目。隨機(jī)森林與Bagging的關(guān)鍵區(qū)別在于,在生成每棵樹的時(shí)候,每個(gè)節(jié)點(diǎn)變量都僅僅在隨機(jī)選出的少數(shù)變量中產(chǎn)生。因此,不但樣本是隨機(jī)的,就連每個(gè)節(jié)點(diǎn)變量產(chǎn)生都有相當(dāng)大的隨機(jī)性。隨機(jī)森林讓每棵樹盡可能生長,而不進(jìn)行修剪。隨機(jī)森林算法主要包括決策樹的生長和投票過程。隨機(jī)森林中單棵樹的生長可概括為以下幾步。

(1)使用Bagging方法形成個(gè)別的訓(xùn)練集:假設(shè)原始訓(xùn)練集中的樣本數(shù)為N,從中有放回地隨機(jī)選取N個(gè)樣本形成一個(gè)新的訓(xùn)練集,以此生成一棵分類樹。

(2)隨機(jī)選擇特征(指評(píng)估指標(biāo),以下同)對(duì)分類樹的節(jié)點(diǎn)進(jìn)行分裂:假設(shè)共有M個(gè)特征,指定一個(gè)正整數(shù)m<M,在每個(gè)內(nèi)部節(jié)點(diǎn),從M個(gè)特征中隨機(jī)抽取m個(gè)特征作為候選特征,選擇這m個(gè)特征上最好的分裂方式對(duì)節(jié)點(diǎn)進(jìn)行分裂。在整個(gè)森林的生長過程中,m的值保持不變。

(3)每棵樹任其生長,不進(jìn)行剪枝。Bagging方法形成新的訓(xùn)練集和隨機(jī)選擇特征進(jìn)行分裂,使得隨機(jī)森林能較好地容忍噪聲,并且能降低單棵樹之間的相關(guān)性;單棵樹不剪枝能得到低偏差的分類樹,同時(shí)保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對(duì)新的測(cè)試數(shù)據(jù)的分類準(zhǔn)確率。

3.3.2.2隨機(jī)森林分類預(yù)測(cè)模型的主要優(yōu)勢(shì)

(1)隨機(jī)森林的預(yù)測(cè)精度高,它可以產(chǎn)生高準(zhǔn)確度的分類器。

(2)可以處理相當(dāng)多的輸入變量。隨機(jī)森林不懼怕很大的維數(shù),即使有數(shù)千個(gè)變量,也不必刪除,它也會(huì)給出分類中各個(gè)變量的重要性。

(3)當(dāng)在構(gòu)建隨機(jī)森林模型時(shí)候,對(duì)GenerlizationError估計(jì)是無偏估計(jì)。

(4)隨機(jī)森林在設(shè)計(jì)上具有很快訓(xùn)練速度,訓(xùn)練出結(jié)果模型不必花費(fèi)大量時(shí)間。

(5)對(duì)缺失值和極端值具有很強(qiáng)容忍能力,即使有較多缺失數(shù)據(jù)仍可以維持準(zhǔn)確度。

(6)當(dāng)遇到分類數(shù)據(jù)不平衡時(shí),可以較好地平衡誤差。

(7)隨機(jī)森林算法并不會(huì)導(dǎo)致過擬合。定義組合分類器的總體分類效能s為:s=Ex,ymg(x,y)。若用ρ表示每棵分類樹之間相關(guān)度的均值,則隨機(jī)森林的泛化誤差PE的上界可由下式給出:PE*≤ρ(1-s2)/s2。當(dāng)隨機(jī)森林有相當(dāng)多的分類樹時(shí),隨機(jī)森林的泛化誤差幾乎處處收斂于一個(gè)有限值。因此,隨著森林中分類樹數(shù)目的增長,隨機(jī)森林算法并不會(huì)導(dǎo)致過擬合。

(8)隨機(jī)森林在模型訓(xùn)練過程中,能夠?qū)μ卣髦g的相互影響行為做出檢測(cè)。隨機(jī)森林算法具有以上優(yōu)勢(shì),在垃圾短信治理預(yù)測(cè)中具有應(yīng)用的優(yōu)勢(shì),本文采用隨機(jī)森林模型作為垃圾短信用戶的分類預(yù)測(cè)。綜上所述,隨機(jī)森林模型主要在不會(huì)出現(xiàn)過擬合、訓(xùn)練精度高、能處理大量輸入變量并輸出變量重要性3個(gè)方面優(yōu)越于決策樹模型;在容忍缺失值和極端值方面明顯優(yōu)越于邏輯回歸模型。隨機(jī)森林模型在算法設(shè)計(jì)上有效彌補(bǔ)了決策樹和邏輯回歸模型的不足之處,在垃圾短信識(shí)別分類預(yù)測(cè)中具有較好的應(yīng)用價(jià)值。

3.3.2.3垃圾短信數(shù)據(jù)挖掘模型構(gòu)建

通過前述的商業(yè)理解確定了垃圾短信識(shí)別業(yè)務(wù)需求,并進(jìn)行數(shù)據(jù)理解構(gòu)建了垃圾短信識(shí)別指標(biāo)體系,再抽取需要的數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗、轉(zhuǎn)換、衍生變量計(jì)算等步驟,具備了建模的目標(biāo)數(shù)據(jù),接下來的任務(wù)就是通過隨機(jī)森林模型構(gòu)建垃圾短信分類預(yù)測(cè)模型,對(duì)垃圾短信用戶進(jìn)行識(shí)別。

3.4用戶分類治理策略

通過隨機(jī)森林模型的識(shí)別,根據(jù)用戶是垃圾短信發(fā)送者的可能性評(píng)估,制定不同的治理策略,如圖3所示。實(shí)際的執(zhí)行過程中,需要根據(jù)清單的范圍大小,適當(dāng)?shù)恼{(diào)整預(yù)測(cè)概率門限,以保證策略執(zhí)行的效果,同時(shí)避免過多的正常用戶的業(yè)務(wù)感知受到影響。

4垃圾短信治理平臺(tái)的實(shí)現(xiàn)

4.1系統(tǒng)架構(gòu)

垃圾短信治理平臺(tái)的數(shù)據(jù)來源較多,需要處理的數(shù)據(jù)量也非常大,因此,數(shù)據(jù)采集和數(shù)據(jù)處理過程是相互影響的過程。垃圾短信治理平臺(tái)的系統(tǒng)架構(gòu)圖如圖4所示。

(1)數(shù)據(jù)采集層:是垃圾短信治理平臺(tái)與多個(gè)數(shù)據(jù)庫來源的安全訪問接口,通過數(shù)據(jù)采集層實(shí)現(xiàn)數(shù)據(jù)挖掘和分析所需要的基礎(chǔ)信息:用戶屬性信息、用戶卡號(hào)信息、用戶業(yè)務(wù)記錄、用戶的位置信息和消費(fèi)記錄。

(2)數(shù)據(jù)處理層:需要根據(jù)數(shù)據(jù)挖掘的需求,將采集的基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)服務(wù)層可以使用的數(shù)據(jù),通過對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行整形、清洗和預(yù)處理,為后續(xù)的數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。

(3)業(yè)務(wù)服務(wù)層:主要包括應(yīng)用和安全服務(wù)兩個(gè)部分,應(yīng)用包括數(shù)據(jù)查詢統(tǒng)計(jì)服務(wù)、用戶查詢服務(wù)和GIS應(yīng)用服務(wù),同時(shí),補(bǔ)充報(bào)表服務(wù)和文件管理服務(wù)以方便日常的工作。通過外部接口服務(wù),可以部署相應(yīng)的權(quán)限管理、數(shù)據(jù)管理維護(hù)以及注冊(cè)服務(wù)等,降低系統(tǒng)的風(fēng)險(xiǎn),保證信息的安全傳遞。

(4)功能模塊:主要是根據(jù)客戶需求,定制開發(fā)的功能單元,功能模塊的個(gè)數(shù)以實(shí)際部署的情況為準(zhǔn)。以圖4垃圾短信治理平臺(tái)的系統(tǒng)架構(gòu)圖某省公司的定制模塊為例,主要包括指標(biāo)查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應(yīng)用模塊4個(gè)部分。

4.2效果展現(xiàn)

針對(duì)不同的部門或用戶,垃圾短信治理平臺(tái)展現(xiàn)不同的數(shù)據(jù),主要包括以下的結(jié)果展現(xiàn)方式。

(1)治理效果掌控:通過指標(biāo)查詢系統(tǒng),及時(shí)掌握垃圾短信的治理效果,發(fā)現(xiàn)工作的成果和風(fēng)險(xiǎn),達(dá)到及時(shí)發(fā)現(xiàn)問題并快速響應(yīng)的目的。

(2)治理效率提升:通過垃圾短信治理模塊,快速準(zhǔn)確識(shí)別垃圾短信源頭并定位區(qū)域,下發(fā)至地市公司快速處理,減小垃圾短信帶來的不良社會(huì)影響。

(3)實(shí)現(xiàn)預(yù)先管控:通過用戶綜合信息分析模塊,可以對(duì)潛在的具有垃圾短信源頭特征的風(fēng)險(xiǎn)終端進(jìn)行監(jiān)控、通過外呼、資費(fèi)信息等情況,提前發(fā)現(xiàn)和治理潛在垃圾短信源。

(4)渠道規(guī)范化:市場部門通過渠道信息和卡號(hào)信息,對(duì)一些垃圾短信來源集中的渠道的發(fā)卡進(jìn)行監(jiān)督和嚴(yán)格控制,從源頭上減少垃圾短信的源頭。

篇8

關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學(xué)管理;高校教學(xué)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)30-7150-04

隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。

畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。

1 數(shù)據(jù)挖掘簡介

數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。

1.1 數(shù)據(jù)挖掘的定義

H包含如下功能:

綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過程,有特定的步驟[3]。

1.2 數(shù)據(jù)挖掘的主要方法

數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。

數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。

2 決策樹算法基本理論

2.1 決策樹方法介紹

決策樹[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會(huì)得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(cè)。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來形成分類器和預(yù)測(cè)模型。如圖1所示,為決策樹的示意圖。

決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個(gè)屬性值要在決策樹上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹。決策樹最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹的開始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹進(jìn)行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進(jìn)而保證生成決策樹的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。

2.2 C4.5算法

1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。

C4.5通過兩個(gè)步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:

首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:

其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。

接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計(jì)算的熵為:

然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:

最后,求信息增益率,表達(dá)式為:

C4.5算法的偽代碼如下:

輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes

輸出:一棵決策樹

1)創(chuàng)建根節(jié)點(diǎn)root;

2)If Samples都在同一類C Then;

3)返回label=類C的單結(jié)點(diǎn)樹root;

4)If Attributes為空Then;

5)返回單結(jié)點(diǎn)樹root,[label=Samples]中最普遍的Target-Atribute值;

6)Else;

7)For each測(cè)試屬性列表Attributes中的屬性;

8)IF測(cè)試屬性是連續(xù)的Then;

9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;

10)Else;

11)計(jì)算測(cè)試屬性的信息增益比率;

20)添加子樹Generate Tree C4.5;

21)對(duì)已建立的決策樹計(jì)算每個(gè)結(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。

3 畢業(yè)論文成績管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)

利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績進(jìn)行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時(shí),主要操作步驟如下:

1)確定挖掘來源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對(duì)大量成績數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績的各方面因素,正確的針對(duì)問題擬定分析過程。

2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。

3)數(shù)據(jù)預(yù)處理:此過程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過程的精度和性能。

4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進(jìn)行分類建模來解決相應(yīng)的問題。

5)分類挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語言來實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。

6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。

7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。

4 結(jié)論

最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。

在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。

參考文獻(xiàn):

[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.

[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.

[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.

[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學(xué).機(jī)器學(xué)習(xí)[D].曾華軍,張銀奎,譯,北京:機(jī)械工業(yè)出版社,2003.

推薦期刊