時(shí)間:2023-01-14 09:17:20
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇數(shù)據(jù)挖掘技術(shù)研究,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
關(guān)鍵詞:Web應(yīng)用;數(shù)據(jù)挖掘技術(shù);互聯(lián)網(wǎng);研究
中圖分類號(hào):TP393.09
隨著互聯(lián)網(wǎng)的產(chǎn)生,其網(wǎng)絡(luò)上各種不同服務(wù)也正在快速產(chǎn)生而得到發(fā)展,很多公司急切需要通過利用互聯(lián)網(wǎng)巨大的信息源對(duì)客戶行為進(jìn)行分析,搜尋最佳商機(jī)。Web數(shù)據(jù)挖掘技術(shù)就是從該種商業(yè)角度進(jìn)行考慮,它是在二十世紀(jì)八十年代末的時(shí)候被研發(fā)出來,該數(shù)據(jù)挖掘技術(shù)是在Web網(wǎng)絡(luò)原有的基礎(chǔ)上納入挖掘數(shù)據(jù)的方法與思想。在Web網(wǎng)絡(luò)中通過該方法解決遇到出現(xiàn)的問題,以此形成Web的數(shù)據(jù)挖掘,基于Web網(wǎng)絡(luò)的數(shù)據(jù)挖掘,它是數(shù)據(jù)挖掘中的一個(gè)全新的研究領(lǐng)域與方向,能夠滿足對(duì)未來電子商務(wù)的發(fā)展趨勢(shì)的需求。
1 Web數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘的特點(diǎn)
在對(duì)大量的網(wǎng)絡(luò)信息進(jìn)行認(rèn)真分析研究的基礎(chǔ)上,我們才可以進(jìn)行Web數(shù)據(jù)的挖掘活動(dòng),在這個(gè)過程中一定要注意使用最佳的方式來進(jìn)行,在具體的模式可使用過程中,必須要進(jìn)行數(shù)據(jù)信息的提煉、信息選擇、信息調(diào)整、數(shù)據(jù)挖掘和模式分析,然后再進(jìn)行歸納總結(jié),對(duì)使用者的習(xí)慣以及細(xì)化哦進(jìn)行推測(cè),以實(shí)現(xiàn)合理地信息數(shù)據(jù)管理,將可能存在的安全性問題的發(fā)現(xiàn)進(jìn)行防御。Web數(shù)據(jù)挖掘所包含的內(nèi)容及其寬泛,除了對(duì)信息數(shù)據(jù)進(jìn)行的處理,還涉及計(jì)算機(jī)胡網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)儲(chǔ)、人工智能、信息檢索、可視化、自然語(yǔ)言理解等多方面的內(nèi)容。
從海量的信息中找到一個(gè)有意思的模式就是信息數(shù)據(jù)的挖掘,這些數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息存儲(chǔ)中,從學(xué)科方面來說它已經(jīng)具有了跨學(xué)科的性質(zhì),比方說數(shù)據(jù)庫(kù)體系、信息儲(chǔ)備中心、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息提取和高性能計(jì)算。
2 Web數(shù)據(jù)挖掘技術(shù)的概念與類型
所謂的Web數(shù)據(jù)挖掘技術(shù),它是在挖掘數(shù)據(jù)技術(shù)的基礎(chǔ)之上,針對(duì)網(wǎng)絡(luò)數(shù)據(jù)中的服務(wù)日志文件與Web文檔進(jìn)行分析數(shù)據(jù)、歸納與匯總,并且在當(dāng)中發(fā)掘與索取有用潛在的知識(shí)及信息的技術(shù)。應(yīng)用Web挖掘技術(shù)能夠發(fā)現(xiàn)更多的隱藏信息資源或者其他潛在的有趣應(yīng)用模式,同時(shí)在信息過濾技術(shù)的協(xié)助下使客戶獲取層次更高的知識(shí)和規(guī)律。按照有關(guān)技術(shù)原理,可把Web數(shù)據(jù)挖掘技術(shù)分如下幾大類:
2.1 Web的結(jié)構(gòu)挖掘
結(jié)構(gòu)挖掘是指在Web挖掘中運(yùn)用Web構(gòu)造組織之間的鏈接關(guān)聯(lián),從而對(duì)網(wǎng)頁(yè)系統(tǒng)里具有實(shí)用價(jià)值的形式進(jìn)行計(jì)算。在海量的Web超鏈接數(shù)據(jù)中,為Web網(wǎng)頁(yè)面創(chuàng)造出足夠的合適的數(shù)據(jù)信息資料,它可以對(duì)文檔當(dāng)中的引用、從屬及包含關(guān)系聚集地反映出來,同時(shí)經(jīng)由對(duì)Web文檔當(dāng)中信息資料體系進(jìn)行分析,能夠有效地處理掉存在的任何問題,以有便于搜尋到權(quán)威性的網(wǎng)頁(yè)面。
在Web結(jié)構(gòu)挖掘范圍內(nèi),HITS和PageRank算法是應(yīng)用最多的算法,這兩個(gè)方面都是通過固定的計(jì)算手段進(jìn)行測(cè)算的,在這種情況下可以對(duì)網(wǎng)頁(yè)超鏈接的質(zhì)量進(jìn)行有效保護(hù),比方說:在百度中搜索方式的使用可以提高計(jì)算水平。
2.2 Web的內(nèi)容挖掘
內(nèi)容挖掘主要是在Web挖掘中搜集有利的Web資源信息(例如:內(nèi)容、數(shù)據(jù)及文檔等)。Web包括許多不同種類的資源信息,現(xiàn)在絕大部分網(wǎng)絡(luò)資源信息基本上均都是從www資源信息當(dāng)中獲得,這除了這些可以個(gè)體可以直接檢索得到并加以使用達(dá)到目標(biāo)的信息資源以外,還有一些信息數(shù)據(jù)是通過加密的普通個(gè)體是無法檢索得到的,要向獲得這些信息數(shù)據(jù)必須對(duì)其采取Web挖掘的手段來進(jìn)行。
2.3 Web的使用挖掘
使用挖掘是在Web挖掘中實(shí)施挖掘網(wǎng)頁(yè)面中的對(duì)應(yīng)站點(diǎn)信息數(shù)據(jù)與日志文件,從而去對(duì)相應(yīng)的站點(diǎn)進(jìn)行有效地訪問。這是因?yàn)樵诰W(wǎng)頁(yè)面的信息訪問中,質(zhì)量具有很重要的作用、復(fù)雜的信息,而每個(gè)資源信息在服務(wù)器的上面,都存在一個(gè)形式化的日志訪問頁(yè)面,當(dāng)用戶提出了訪問頁(yè)面的要求以后,訪問服務(wù)器會(huì)自覺地將所需的數(shù)據(jù)進(jìn)行記錄。因此對(duì)Web不同的使用的日志訪問進(jìn)行分析,有助于掌控Web結(jié)構(gòu)與客戶的動(dòng)態(tài)行為,更加有利于使網(wǎng)站的工作效率得到有效提升。
3 數(shù)據(jù)挖掘工作流程
3.1 定義問題
先對(duì)信息挖掘體系的主要目的進(jìn)行評(píng)論,明確其具備的具體價(jià)值以及將會(huì)帶來的實(shí)際效果進(jìn)行分析。
3.2 形成數(shù)據(jù)挖掘庫(kù)
對(duì)于數(shù)據(jù)挖掘來說數(shù)據(jù)挖掘體系是最重要的一個(gè)關(guān)鍵點(diǎn),我們可以通過相關(guān)信息資料的搜集來證實(shí),對(duì)數(shù)據(jù)體系的行程內(nèi)容進(jìn)行研究,生成“數(shù)據(jù)表述報(bào)告”,將信息資料庫(kù)中所有的信息進(jìn)行合理地整合,把來自不同數(shù)據(jù)源的數(shù)據(jù)并到同一個(gè)數(shù)據(jù)庫(kù)中,讓沖突的以及不一致的數(shù)據(jù)統(tǒng)一化。建好數(shù)據(jù)挖掘庫(kù)以后應(yīng)該安排專門的人員對(duì)它進(jìn)行定期的檢查管理,防止任何安全隱患的存在,在對(duì)它的安全性進(jìn)行維護(hù)的過程中,需要定期備份,監(jiān)視它的性能,還需要根據(jù)實(shí)際的需要不斷地?cái)U(kuò)大它的存放空間,對(duì)那些專門用來存放復(fù)雜數(shù)據(jù)的系統(tǒng)中心,必須要將這項(xiàng)工作交給專業(yè)的工作人員來完成。
3.3 清理分析數(shù)據(jù)挖掘庫(kù)
不正確的信息數(shù)據(jù)都是廣泛地存在的,所以說對(duì)于很大的信息數(shù)據(jù)儲(chǔ)存中心來說保證數(shù)據(jù)的正確性。所以,一定要采取有效的措施對(duì)其進(jìn)行合理的管理,將數(shù)據(jù)保存與使用中可能會(huì)出現(xiàn)的機(jī)械性錯(cuò)誤率降到最低,處理好模型與整個(gè)數(shù)據(jù)體系的完整性。
3.4 探索分析數(shù)據(jù)挖掘庫(kù)
這樣做主要是為了對(duì)信息數(shù)據(jù)的模型進(jìn)行管理。主要包括選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量、探索分析。
3.5 創(chuàng)立數(shù)據(jù)挖掘模型
做好這項(xiàng)工作對(duì)于信息數(shù)據(jù)的高效保存有很重要的作用,為了讓模型更加合理,具有正確性與穩(wěn)定性,我們必須要從宏觀上來對(duì)這個(gè)模型所需的材料進(jìn)行處理,讓模型能為后續(xù)的數(shù)據(jù)保存工作提供一個(gè)依據(jù)與參考標(biāo)準(zhǔn)。
4 基于Web的數(shù)據(jù)挖掘應(yīng)用
4.1 數(shù)據(jù)控掘在高校教學(xué)中的應(yīng)用
使用該種體系有利于對(duì)學(xué)生學(xué)習(xí)生活的實(shí)際狀況進(jìn)行客觀有效地分析,掌握學(xué)生的實(shí)際學(xué)習(xí)狀況,為教師的教學(xué)活動(dòng)提供詳細(xì)的信息,提高教學(xué)效率的同時(shí)提高學(xué)生的學(xué)習(xí)效率,幫助學(xué)生在最短的時(shí)間內(nèi)提高學(xué)習(xí)成績(jī);端正學(xué)生的學(xué)習(xí)態(tài)度,提高學(xué)習(xí)方法。
4.2 數(shù)據(jù)控掘在電子商冬中的應(yīng)用
對(duì)于現(xiàn)代市場(chǎng)營(yíng)銷來說,網(wǎng)絡(luò)方式引進(jìn)就是其信息化的最有利的證明,隨著我們的商務(wù)活動(dòng)的不斷完善,網(wǎng)絡(luò)營(yíng)銷將會(huì)成為營(yíng)銷業(yè)的全新發(fā)展趨勢(shì)。因此我們可以看到,將這一技術(shù)充分地應(yīng)用到電子商務(wù)活動(dòng)中,能夠幫助企業(yè)進(jìn)行客觀的市場(chǎng)發(fā)展?fàn)顩r的分析,確定有效的發(fā)展目標(biāo),找到最佳發(fā)展方式。
5 結(jié)束語(yǔ)
總而言之,Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用有利于企業(yè)編制具有遠(yuǎn)見性的營(yíng)銷戰(zhàn)略,促使企業(yè)可以在市場(chǎng)激烈競(jìng)爭(zhēng)中掌控更加有利的發(fā)展時(shí)機(jī)。隨著迅速發(fā)展的電子商務(wù),Web數(shù)據(jù)挖掘技術(shù)在未來的發(fā)展空間將變得更加廣闊及前途無量。
參考文獻(xiàn):
[1]柴文光,周寧.網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合研究[J].情報(bào)理論與實(shí)踐,2009(03):97-101.
[2]范建中,王福慶.基于Web的數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用[J].電腦編程技巧與維護(hù),2009(12):32-33+42.
[3]居曉琴,周學(xué)全.Web數(shù)據(jù)挖掘技術(shù)探索與應(yīng)用[J].山東紡織經(jīng)濟(jì),2009(06):144-147.
關(guān)鍵詞:空間數(shù)據(jù)挖掘;地理信息系統(tǒng);研究分析
隨著數(shù)據(jù)采集技術(shù)的成熟和普及,大量的空間數(shù)據(jù)通過遙感、地理信息系統(tǒng)、多媒體系統(tǒng)、醫(yī)學(xué)和衛(wèi)星圖像等多種形式匯集成龐大而豐富的信息源。面對(duì)龐雜、繁多的數(shù)據(jù)類型,空間數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并在地理信息系統(tǒng)、遙感勘測(cè)、圖像處理、交通管理、環(huán)境研究等領(lǐng)域得到廣泛應(yīng)用。
1 空間數(shù)據(jù)挖掘研究概述
空間數(shù)據(jù)挖掘(spatial Data Mining,簡(jiǎn)稱SDM),是指從空間數(shù)據(jù)庫(kù)中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過程??臻g數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫(kù)技術(shù),可用于對(duì)空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識(shí)庫(kù)的構(gòu)造以及空間數(shù)據(jù)庫(kù)的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識(shí),發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。
空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫(kù)應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢(shì)分析和空間關(guān)聯(lián)規(guī)則四類??臻g分類的目的是在空間數(shù)據(jù)庫(kù)對(duì)象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹??臻g聚類是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法??臻g趨勢(shì)分析指離開一個(gè)給定的起始對(duì)象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢(shì)的變化趨勢(shì),空間趨勢(shì)分析需要使用回歸和相關(guān)的分析方法??臻g關(guān)聯(lián)規(guī)則是指空間鄰接圖中對(duì)象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對(duì)初始空間數(shù)據(jù)庫(kù)進(jìn)行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫(kù)上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。
空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫(kù)中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識(shí))、模式評(píng)估(根據(jù)某種興趣度度量并識(shí)別表示知識(shí)的真正有趣的模式),知識(shí)表示(使用可視化技術(shù)和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))等階段(見圖1)??臻g數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過程。
2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫(kù)看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語(yǔ)言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)如下幾種主要類型的知識(shí):普遍的幾何知識(shí)、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R(shí)。目前,這些知識(shí)已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測(cè)和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場(chǎng)分析、企業(yè)客戶關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。
3 空間數(shù)據(jù)挖掘面臨的問題
(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲(chǔ)、 處理及空間數(shù)據(jù)本身的特點(diǎn)??臻g數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對(duì)象。
(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對(duì)海量的數(shù)據(jù)庫(kù)系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識(shí)發(fā)現(xiàn)、去除與任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更有效的知識(shí)發(fā)現(xiàn)算法。
(3) 沒有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語(yǔ)言。數(shù)據(jù)庫(kù)技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫(kù)查詢語(yǔ)言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語(yǔ)言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。
(4) 空間數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識(shí)發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)<抑R(shí),用戶不能很好掌控空間數(shù)據(jù)挖掘過程。
(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對(duì)某個(gè)特定的問題,因而能夠發(fā)現(xiàn)的知識(shí)有限。
(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識(shí)發(fā)現(xiàn)過程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識(shí)系統(tǒng)僅局限于數(shù)據(jù)庫(kù)領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識(shí),知識(shí)發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。
上述問題使得從空間數(shù)據(jù)庫(kù)中提取知識(shí)比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中提取知識(shí)更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究??臻g關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。
(2) 多源空間數(shù)據(jù)的預(yù)處理??臻g數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。
(3)其他各種空間數(shù)據(jù)挖掘及其相關(guān)技術(shù)研究。如網(wǎng)絡(luò)環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識(shí)概念樹的自動(dòng)生成、基于空間不確定性(位置、屬性、時(shí)問等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)等。
關(guān)鍵詞:人工智能;數(shù)據(jù)挖掘;發(fā)展前景
當(dāng)今社會(huì)已經(jīng)進(jìn)入了人工智能時(shí)代,人工智能的應(yīng)用,大大改善了我們的生活。大數(shù)據(jù)時(shí)代已經(jīng)來臨,不論是從數(shù)據(jù)的使用,挖掘,處理等方面,都為人工智能的應(yīng)用起到了基礎(chǔ)和保障。
1人工智能
1.1人工智能的定義。人工智能(ArtificialIntelligence),簡(jiǎn)稱AI。屬于計(jì)算機(jī)學(xué)科下的分支,顧名思義,它是一門專門研究類人化的智能機(jī)器學(xué)科,即利用現(xiàn)階段科學(xué)的研究方法和技術(shù),研制出具有模仿、延伸和擴(kuò)展人類智能的機(jī)器或智能系統(tǒng),從而實(shí)現(xiàn)利用機(jī)器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達(dá)特矛斯會(huì)議上,“人工智能”這一術(shù)語(yǔ)正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進(jìn)行了許多的研究和開發(fā),人工智能這個(gè)話題也取得了飛速的發(fā)展。人工智能是一門極具挑戰(zhàn)性的科學(xué),從事這項(xiàng)工作的人必須了解計(jì)算機(jī)知識(shí)、心理學(xué)和哲學(xué)理念。人工智能的研究包涵廣泛的科學(xué)知識(shí),以及其他領(lǐng)域的知識(shí),如機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺等。一般來說,人工智能研究的主要目標(biāo)是使機(jī)器能夠做一些通常需要人工智能完成復(fù)雜工作的機(jī)器。1.3人工智能的研發(fā)歷程。早期研究領(lǐng)域:人工智能專家系統(tǒng),機(jī)器學(xué)習(xí),模式識(shí)別,自然語(yǔ)言理解,自動(dòng)定理證明,自動(dòng)編程,機(jī)器人,游戲,人工神經(jīng)網(wǎng)絡(luò)等,現(xiàn)在涉及以下研究領(lǐng)域:數(shù)據(jù)挖掘,智能決策系統(tǒng),知識(shí)工程,分布式人工智能等。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到廣泛的發(fā)展。以下簡(jiǎn)要介紹其中的幾個(gè)重要部分:(1)專家系統(tǒng)。所謂專家系統(tǒng)就是控制計(jì)算的智能化程序系統(tǒng),通過研發(fā)人員總結(jié)歸納了專業(yè)學(xué)科知識(shí)和日常經(jīng)驗(yàn),能夠知道計(jì)算機(jī)完成某個(gè)領(lǐng)域內(nèi)的專業(yè)性活動(dòng)或者解決某些專業(yè)級(jí)別的問題。人工智能技術(shù)可以合理利用已知的經(jīng)驗(yàn)體系在復(fù)雜環(huán)境中,解決和處理復(fù)雜問題。(2)機(jī)器系統(tǒng)。機(jī)器系統(tǒng)簡(jiǎn)單說就是機(jī)器人通過人造神經(jīng)系統(tǒng),借助于網(wǎng)絡(luò)或者存儲(chǔ)系統(tǒng)汲取系統(tǒng)的知識(shí)進(jìn)行開發(fā)研究。(3)感知仿生。感知仿生系統(tǒng)通過模擬人類的感官,感知生物學(xué)特征,通過人工智能機(jī)器的感部件對(duì)外界外部環(huán)境進(jìn)行感知,識(shí)別,判斷,分析的能力。能夠更好的適應(yīng)環(huán)境,做出判斷。(4)數(shù)據(jù)重組和發(fā)掘。是指通過人工智能系統(tǒng),結(jié)合當(dāng)前先進(jìn)的理念,對(duì)大數(shù)據(jù)的總結(jié)歸納,識(shí)別存儲(chǔ),調(diào)取等應(yīng)用。通過數(shù)據(jù)的加工處理,能夠主動(dòng)做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統(tǒng)利用系統(tǒng)有效的規(guī)避和克服系統(tǒng)資源在某段時(shí)間內(nèi)的局限性,并能有效地改善因資源造成的時(shí)間和空間不均衡問題。它具備,模式自動(dòng)轉(zhuǎn)換,并行處理,開放啟發(fā)方式,冗余且容錯(cuò)糾錯(cuò)的能力。
2數(shù)據(jù)挖掘
2.1數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(DataMining,DM)是揭示數(shù)據(jù)中存在的模式和數(shù)據(jù)關(guān)系的學(xué)科,強(qiáng)調(diào)處理大型可觀察數(shù)據(jù)庫(kù)。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到了廣泛的發(fā)展。這里包括數(shù)據(jù)挖掘和智能信息提取過程,前者從大量復(fù)雜的現(xiàn)實(shí)世界數(shù)據(jù)中挖掘出未知和有價(jià)值的模式或規(guī)則,后者是知識(shí)的比較,選擇和總結(jié)出來的原則和規(guī)則,形成一個(gè)智能系統(tǒng)。2.2數(shù)據(jù)挖掘的研究現(xiàn)狀。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面??此茝V泛,實(shí)際應(yīng)用還遠(yuǎn)沒有普及。而據(jù)Gartner的報(bào)告也指出,數(shù)據(jù)挖掘會(huì)成為未來10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。2.3數(shù)據(jù)挖掘的研究發(fā)展。具體發(fā)展趨勢(shì)和應(yīng)用方向主要有:性能方面:數(shù)據(jù)挖掘設(shè)計(jì)的數(shù)據(jù)量會(huì)更大,處理的效率會(huì)更高,結(jié)果也會(huì)更精確。工具方面:挖掘工具越來越強(qiáng)大,算法收斂越來越多,預(yù)測(cè)算法將吸收新穎性算法(支持向量機(jī)(SVM),粗糙集,云模型,遺傳算法等),并實(shí)現(xiàn)自動(dòng)化的實(shí)現(xiàn)算法,選擇和自動(dòng)調(diào)諧參數(shù)。應(yīng)用:數(shù)據(jù)挖掘的應(yīng)用除了應(yīng)用于大型專門問題外,還將走向嵌入式,更加智能化。例如進(jìn)一步研究知識(shí)發(fā)現(xiàn)方法,對(duì)貝葉斯定理和Boosting方法的研究和改進(jìn),以及對(duì)商業(yè)工具軟件不斷的生成和改進(jìn),著重建立整體系統(tǒng)來解決問題,如Weka等軟件。在先進(jìn)理論的指導(dǎo)下,按照國(guó)內(nèi)形態(tài)發(fā)展,至少需要20年的時(shí)間,才能改進(jìn)數(shù)據(jù)挖掘的發(fā)展。
3數(shù)據(jù)挖掘與人工智能技術(shù)的聯(lián)系
數(shù)據(jù)挖掘?qū)儆谌斯ぶ悄苤歇?dú)立系統(tǒng)。它于人工智能的存在關(guān)系屬于,并存聯(lián)系,且獨(dú)立運(yùn)行,互不從屬。此設(shè)計(jì)體系一方面可以有效促進(jìn)人工智能提升學(xué)習(xí)能力,增進(jìn)分析能力,另一方面還對(duì)分析,統(tǒng)計(jì),OLSP,以及決策支持系統(tǒng)模塊等起到推動(dòng)作用。在收挖掘應(yīng)用領(lǐng)域,處理可以對(duì)WEB挖掘,還能夠有效進(jìn)行文本,數(shù)據(jù)庫(kù),知識(shí)庫(kù),不同領(lǐng)域不同學(xué)科的信息進(jìn)行序列矩陣模式挖掘?;跀?shù)據(jù)本身的分類,辨識(shí),關(guān)聯(lián)規(guī)則,聚類算法更加博大精深。因此,獨(dú)立于人工智能的數(shù)據(jù)挖掘,更加便于科研團(tuán)體或者領(lǐng)域?qū)?shù)據(jù)的使用和分析。數(shù)據(jù)挖掘是人工智能領(lǐng)域的一部分。首先,高智能是數(shù)據(jù)挖掘和人工智能的最終目標(biāo),正是由于這個(gè)目標(biāo),人工智能和數(shù)據(jù)挖掘有很多關(guān)聯(lián)。其次,數(shù)據(jù)挖掘和人工智能是各種技術(shù)的整合。數(shù)據(jù)挖掘和人工智能是許多學(xué)科的跨學(xué)科學(xué)科。最后,數(shù)據(jù)挖掘的出現(xiàn)逐漸發(fā)展壯大,加強(qiáng)了人工智能,因此可以說,它們兩者是不可分割的。
4人工智能和數(shù)據(jù)挖掘技術(shù)的發(fā)展前景
在當(dāng)前環(huán)境下,人工智能和數(shù)據(jù)挖掘技術(shù)具有以下發(fā)展前景:(1)在大數(shù)據(jù)互聯(lián)網(wǎng)中的應(yīng)用。將人工智能的技術(shù)應(yīng)用于互聯(lián)網(wǎng)中將會(huì)使網(wǎng)絡(luò)技術(shù)帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網(wǎng)絡(luò)運(yùn)行效率、增加網(wǎng)絡(luò)安全性等。(2)智能化服務(wù)的研究。人工智能和數(shù)據(jù)挖掘都很注重對(duì)智能化服務(wù)的研究,例如很多智能機(jī)器人便應(yīng)運(yùn)而生,它們已經(jīng)能勝任許多簡(jiǎn)單的工作,可以為人們提供人性化的服務(wù)。高度的智能化是數(shù)據(jù)挖掘和人工智能研究最終追求的目標(biāo),也是二者最終合而為一的標(biāo)志。(3)使知識(shí)產(chǎn)生經(jīng)濟(jì)化。在現(xiàn)階段的知識(shí)經(jīng)濟(jì)時(shí)代,人工智能和數(shù)據(jù)挖掘勢(shì)必受到經(jīng)濟(jì)的影響,這決定了人工智能和數(shù)據(jù)挖掘?qū)⒕哂薪?jīng)濟(jì)特征。人工智能和數(shù)據(jù)挖掘技術(shù)作為無形資產(chǎn)可以直接帶來經(jīng)濟(jì)效益,通過交流,教育,生產(chǎn)和創(chuàng)新的無形資產(chǎn)將成為知識(shí)經(jīng)濟(jì)時(shí)代的主要資本??梢灶A(yù)期未來的人工智能和數(shù)據(jù)挖掘技術(shù)將更加經(jīng)濟(jì)實(shí)用。(4)交叉學(xué)科的技術(shù)融合。各行各業(yè)的理論和方法都已經(jīng)開始融入了人工智能和數(shù)據(jù)挖掘之中。未來的人工智能和數(shù)據(jù)挖掘技術(shù)必將是一個(gè)融合眾多領(lǐng)的復(fù)合學(xué)科。當(dāng)今,我們已經(jīng)在逐漸使用人工智能與數(shù)據(jù)挖掘技術(shù),去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。
作者:喻正夫 單位:漢江師范學(xué)院
參考文獻(xiàn):
[1]萬璞,王麗莎.數(shù)據(jù)挖掘與人工智能技術(shù)研究[J].無線互聯(lián)科技,2016(10):113-114.
[2]王翔.試論如何利用大數(shù)據(jù)挖掘技術(shù)推動(dòng)人工智能繼續(xù)發(fā)展[J/OL].科技創(chuàng)新報(bào),2017,14(01).
[3]秦益文.微博數(shù)據(jù)挖掘中人工智能推理引擎的應(yīng)用[J].中小企業(yè)管理與科技(中旬刊),2017(02).
[4]蒲東齊.數(shù)據(jù)挖掘在人工智能上的應(yīng)用[J].信息與電腦(理論版),2016(19).
[5]李丹丹.數(shù)據(jù)挖掘技術(shù)及其發(fā)展趨勢(shì)[J].電腦應(yīng)用技術(shù),2007(02):38-40.
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù);預(yù)處理技術(shù)
中圖分類號(hào):TP311.131
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計(jì)算機(jī)應(yīng)用的基礎(chǔ)上,提出了無紙化辦公的理念,在實(shí)際應(yīng)用的過程中,計(jì)算機(jī)需要存儲(chǔ)大量的數(shù)據(jù),對(duì)于企業(yè)用戶來說,很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會(huì)給企業(yè)的發(fā)展帶來嚴(yán)重的影響,甚至造成巨大的經(jīng)濟(jì)損失。受到特殊的歷史因素影響,我國(guó)的經(jīng)濟(jì)和科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,存在較大的差距,雖然經(jīng)過了多年改革開放的發(fā)展,我國(guó)已經(jīng)成為了世界第二大經(jīng)濟(jì)體,計(jì)算機(jī)的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對(duì)于實(shí)際的工作來說,具有非常重要的作用。
1 數(shù)據(jù)挖掘的預(yù)處理技術(shù)簡(jiǎn)析
1.1 數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫(kù)的發(fā)展,逐漸形成的一門學(xué)科,在計(jì)算機(jī)出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲(chǔ)的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計(jì)算機(jī)的性能得到了極大的提高,相應(yīng)的存儲(chǔ)設(shè)備也有了很大的進(jìn)步,計(jì)算機(jī)能夠處理的任務(wù)越來越復(fù)雜,存儲(chǔ)的數(shù)據(jù)越來越多,現(xiàn)在我國(guó)建成了多個(gè)大型數(shù)據(jù)存儲(chǔ)中心,存儲(chǔ)的數(shù)據(jù)量非常巨大。對(duì)于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學(xué)者研究的問題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫(kù)中進(jìn)行逐個(gè)的匹配,如果數(shù)據(jù)庫(kù)的存儲(chǔ)量較小,檢索的效率就比較高,而對(duì)于現(xiàn)在的海量存儲(chǔ)來說,逐個(gè)匹配顯然需要很長(zhǎng)的等待時(shí)間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對(duì)數(shù)據(jù)進(jìn)行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對(duì)現(xiàn)有的數(shù)據(jù)庫(kù)或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫(kù)中進(jìn)行挖掘,那么可以對(duì)數(shù)據(jù)庫(kù)進(jìn)行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。
1.2 數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點(diǎn)
與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫(kù)中的信息進(jìn)行對(duì)比,這樣逐條的進(jìn)行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫(kù)存儲(chǔ)的信息量較大,那么利用這樣的挖掘方式,顯然需要很長(zhǎng)的等待時(shí)間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫(kù)中添加索引,對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類,那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進(jìn)行匹配,然后在指定類別的數(shù)據(jù)中進(jìn)行對(duì)比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫(kù)中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國(guó)數(shù)據(jù)庫(kù)相關(guān)技術(shù)水平較低,目前我國(guó)建設(shè)的大型數(shù)據(jù)庫(kù),都是與國(guó)外的技術(shù)公司合建的,通過實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國(guó)還無法自主生產(chǎn)外部存儲(chǔ)設(shè)備,市面上的存儲(chǔ)設(shè)備,都是從外國(guó)引進(jìn)的,但是在實(shí)際數(shù)據(jù)庫(kù)的建設(shè)中,在外國(guó)存儲(chǔ)設(shè)備的基礎(chǔ)上,我國(guó)也進(jìn)行了大量數(shù)據(jù)挖掘等技術(shù)的研究。
1.3 數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展
從某種意義上來說,數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫(kù)的應(yīng)用,根據(jù)實(shí)際使用的需要,逐漸形成的一門技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計(jì)算機(jī)性能的限制,沒有太多的娛樂項(xiàng)目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計(jì)算機(jī)的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計(jì)調(diào)查表明,我國(guó)的網(wǎng)民數(shù)量已經(jīng)超過了6億,如果龐大的用戶群體,為我國(guó)互聯(lián)網(wǎng)的發(fā)展,提供了堅(jiān)實(shí)的基礎(chǔ),但是通過實(shí)際的調(diào)查發(fā)現(xiàn),我國(guó)的實(shí)際網(wǎng)絡(luò)帶寬,還沒有達(dá)到世界平均水平,即使實(shí)際使用的網(wǎng)絡(luò)帶寬較低,我國(guó)互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實(shí)際的網(wǎng)絡(luò)瀏覽中,面對(duì)如此大的信息量,如何找到自己想要的信息,成為了一個(gè)實(shí)際問題,為了解決這個(gè)問題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進(jìn)行必要的篩選,就能夠得到相應(yīng)的數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進(jìn)行相應(yīng)的挖掘工作,具有較大的難度。
2 影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素
2.1 預(yù)處理的方式
在實(shí)際的數(shù)據(jù)挖掘過程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來說,數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內(nèi),找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強(qiáng)的目的性,但是對(duì)于找到數(shù)據(jù)的量,并沒有明確的要求,尤其是隨著互聯(lián)網(wǎng)內(nèi)容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會(huì)附帶大量的相關(guān)信息。對(duì)于數(shù)據(jù)挖掘的預(yù)處理技術(shù)來說,預(yù)處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個(gè)一百條數(shù)據(jù)庫(kù)中進(jìn)行挖掘,為了提高實(shí)際的效率,通常情況下會(huì)采用檢索的方式,根據(jù)輸入的關(guān)鍵詞,逐條的與數(shù)據(jù)庫(kù)的信息進(jìn)行比對(duì),這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時(shí)間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進(jìn)行一百次匹配。如果采用索引的方式進(jìn)行預(yù)處理,將這一百條數(shù)據(jù)根據(jù)自身的特點(diǎn),分成十個(gè)類別,每個(gè)類別建立一個(gè)索引,那么在實(shí)際的匹配中,無論要查找的數(shù)據(jù)處于哪個(gè)位置,最多只需要十次匹配,就可以找到相應(yīng)的數(shù)據(jù),由此可以看出,預(yù)處理方式對(duì)于數(shù)據(jù)挖掘效率具有非常重要的影響。
2.2 數(shù)據(jù)量的大小
計(jì)算機(jī)經(jīng)過了多年的發(fā)展,其自身的性能有了很大的提高,在實(shí)際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經(jīng)過任何的預(yù)處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫(kù)自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫(kù)容量越來越大,在數(shù)據(jù)庫(kù)中查找指定的數(shù)據(jù),需要較長(zhǎng)的時(shí)間,要想很好的解決這個(gè)問題,必須對(duì)數(shù)據(jù)挖掘的方式等,進(jìn)行相應(yīng)的優(yōu)化。通過實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)使用的數(shù)據(jù)庫(kù),大多都是國(guó)外的技術(shù)公司設(shè)計(jì)的,為了方便數(shù)據(jù)庫(kù)的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時(shí)可以提供優(yōu)質(zhì)的軟件服務(wù)。目前市面上的數(shù)據(jù)庫(kù),大多對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過這些技術(shù)的使用,很好的提高了實(shí)際的挖掘效率,但是這些預(yù)處理技術(shù),并沒有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫(kù)中,要想建立索引機(jī)制,本身就需要很長(zhǎng)的時(shí)間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫(kù)中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲(chǔ)到指定的分類中即可。
2.3 操作人員自身的素質(zhì)
對(duì)于實(shí)際的數(shù)據(jù)挖掘工作來說,操作人員自身的素質(zhì),也可以在很大程度上影響挖掘的效率,經(jīng)過了多年的完善,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一門單獨(dú)的學(xué)科,計(jì)算機(jī)專業(yè)的學(xué)生,要進(jìn)行相應(yīng)知識(shí)的學(xué)習(xí),但是通過實(shí)際的調(diào)查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對(duì)互聯(lián)網(wǎng)上的內(nèi)容,而互聯(lián)網(wǎng)日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經(jīng)驗(yàn),顯然很難完成相應(yīng)的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學(xué)生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應(yīng)的工作,也需要較長(zhǎng)的時(shí)間,雖然這些學(xué)生在學(xué)校中,能夠?qū)W習(xí)到大量的數(shù)據(jù)挖掘知識(shí),為了提高教學(xué)的效果,老師還會(huì)講解一些數(shù)據(jù)挖掘的實(shí)例,但是實(shí)際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經(jīng)驗(yàn),在實(shí)際的工作中,必然會(huì)總結(jié)一些相應(yīng)的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時(shí)間,提高數(shù)據(jù)挖掘的準(zhǔn)確性,對(duì)于數(shù)據(jù)挖掘工作來說,具有非常重要的作用,從某種意義上來說,數(shù)據(jù)挖掘的預(yù)處理技術(shù),指的就是這些從實(shí)踐中總結(jié)出來的技巧,然后進(jìn)行科學(xué)、系統(tǒng)的分析,應(yīng)用到實(shí)際的挖掘中。
3 我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用中存在的問題
3.1 沒有意識(shí)到預(yù)處理技術(shù)的重要性
在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫(kù)自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預(yù)處理技術(shù),隨著數(shù)據(jù)庫(kù)自身的發(fā)展,計(jì)算機(jī)的性能也有了很大的提高,在很長(zhǎng)一段時(shí)間內(nèi),硬件的發(fā)展速度都要領(lǐng)先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網(wǎng)的普及應(yīng)用,在很大程度上改變了這種現(xiàn)象,尤其是云計(jì)算等理念的出現(xiàn)。在互聯(lián)網(wǎng)海量數(shù)據(jù)中進(jìn)行挖掘,依靠單獨(dú)的計(jì)算機(jī),很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術(shù),成為了很多專家和學(xué)者研究的問題,預(yù)處理技術(shù)就是根據(jù)實(shí)際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫(kù)的建設(shè)等方面,我國(guó)要落后西方國(guó)家很多,雖然近年來我國(guó)投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術(shù),但是并沒有取得明顯的效果。正是受到自身技術(shù)水平的限制,使得我國(guó)數(shù)據(jù)建設(shè)中,對(duì)數(shù)據(jù)挖掘的預(yù)處理技術(shù),沒有足夠的重視,導(dǎo)致很大數(shù)據(jù)庫(kù)中,還采用傳統(tǒng)的檢索等方式,沒有任何的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫(kù)中集成了相應(yīng)的功能,但是通過實(shí)際的調(diào)查發(fā)現(xiàn),在實(shí)際使用的過程中,并沒有啟用相應(yīng)的功能。
3.2 沒有針對(duì)性的預(yù)處理方式
由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對(duì)互聯(lián)網(wǎng)上海量的數(shù)據(jù),而互聯(lián)網(wǎng)上的數(shù)據(jù)非常復(fù)雜,尤其是近些年網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進(jìn)行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網(wǎng)的數(shù)據(jù)量較大,即使借助相應(yīng)的搜索引擎,依然需要很長(zhǎng)的挖掘時(shí)間,對(duì)于現(xiàn)在使用的一些數(shù)據(jù)挖掘預(yù)處理技術(shù),只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預(yù)處理技術(shù)出現(xiàn)的時(shí)間較短,目前還沒有形成統(tǒng)一的認(rèn)識(shí),不同學(xué)者根據(jù)實(shí)際工作的需要,提出了不同的預(yù)處理方式,通過實(shí)際的調(diào)查發(fā)現(xiàn),這些預(yù)處理方式的應(yīng)用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對(duì)于其他數(shù)據(jù)的挖掘,就無法起到相應(yīng)的作用。受到我國(guó)數(shù)據(jù)挖掘技術(shù)水平的限制,并沒有意識(shí)到這點(diǎn),在實(shí)際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預(yù)處理方式,這樣顯然無法最大成都上提高數(shù)據(jù)挖掘的效率,有時(shí)候反而會(huì)降低工作的效率,目前西方發(fā)達(dá)國(guó)家的數(shù)據(jù)挖掘預(yù)處理中,都會(huì)根據(jù)每次工作的實(shí)際情況,針對(duì)性的設(shè)計(jì)一個(gè)預(yù)處理的方式。
4 數(shù)據(jù)挖掘的預(yù)處理技術(shù)應(yīng)用措施
4.1 重視數(shù)據(jù)挖掘的預(yù)處理技術(shù)
考慮到我國(guó)的數(shù)據(jù)庫(kù)建設(shè)中,很多都沒有采用相應(yīng)的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個(gè)問題,必須對(duì)預(yù)處理技術(shù)給予足夠的重視,在數(shù)據(jù)庫(kù)的設(shè)計(jì)時(shí),就對(duì)預(yù)處理的方式等進(jìn)行考慮,如果是購(gòu)買的數(shù)據(jù)庫(kù)服務(wù),那么就要根據(jù)自身的實(shí)際情況,對(duì)預(yù)處理技術(shù)提供一定的要求,這樣可以極大的提高挖掘的效率。通過實(shí)際的調(diào)查發(fā)現(xiàn),西方國(guó)家的預(yù)處理技術(shù)水平之所以比較高,主要就是由于其重視,在實(shí)際的挖掘工作中,對(duì)于能夠提高工作效率的所有細(xì)節(jié)進(jìn)行完善,并總結(jié)相關(guān)的經(jīng)驗(yàn),方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達(dá)國(guó)家的預(yù)處理技術(shù)快速的發(fā)展。我國(guó)要想提高自身的數(shù)據(jù)挖掘預(yù)處理技術(shù),必須根據(jù)自身的實(shí)際情況,借鑒外國(guó)一些先進(jìn)的經(jīng)驗(yàn),最大程度上完善預(yù)處理技術(shù),要想達(dá)到這個(gè)目的,首先應(yīng)該提高對(duì)預(yù)處理技術(shù)的重視程度,無論是實(shí)際的操作人員,還是管理人員和開發(fā)人員,都應(yīng)該重視預(yù)處理技術(shù)的應(yīng)用,然后從自身的工作角度出發(fā),對(duì)其進(jìn)行一定的完善。
4.2 提高工作人員自身的素質(zhì)
數(shù)據(jù)挖掘預(yù)處理技術(shù)的應(yīng)用,需要實(shí)際的操作人員,而不同工作人員,由于自身經(jīng)驗(yàn)等不同,工作的效率會(huì)有一定的差距,如剛畢業(yè)的大學(xué)生,即使在學(xué)校中的成績(jī)較好,掌握了足夠的預(yù)處理知識(shí),還是無法很好的完成相應(yīng)的工作,尤其是近些年信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預(yù)處理方式等也應(yīng)該具有一定的差異,通過實(shí)際的調(diào)查發(fā)現(xiàn),目前我國(guó)的數(shù)據(jù)挖掘工作人員自身的素質(zhì)普遍較低,無法根據(jù)實(shí)際的工作情況,針對(duì)性的選擇一種預(yù)處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個(gè)問題,必須提高工作人員自身的素質(zhì),在實(shí)際的招聘過程中,盡量聘請(qǐng)一些具有豐富經(jīng)驗(yàn)的人員。對(duì)于現(xiàn)有的工作人員,可以通過定期培訓(xùn)等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預(yù)處理技術(shù)的重要性等,如果條件允許,還可以與一些先進(jìn)的企業(yè)進(jìn)行交流,學(xué)習(xí)先進(jìn)的預(yù)處理技術(shù),這樣在提高預(yù)處理技術(shù)水平的同時(shí),還可以對(duì)數(shù)據(jù)庫(kù)的其他的技術(shù),進(jìn)行一定的優(yōu)化。
4.3 采用針對(duì)性的預(yù)處理方式
經(jīng)過了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預(yù)處理技術(shù)已經(jīng)非常普遍,目前的很大數(shù)據(jù)庫(kù)建設(shè)中,都會(huì)采用預(yù)處理技術(shù),甚至在日常的數(shù)據(jù)搜索中,也開始使用預(yù)處理技術(shù),但是通過實(shí)際的調(diào)查發(fā)現(xiàn),根據(jù)實(shí)際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會(huì)具有較大的差異,而這些條件的變化,必然需要不同的預(yù)處理方式。而目前我國(guó)的數(shù)據(jù)挖掘中,顯然還沒有意識(shí)到這點(diǎn),為了提高實(shí)際的工作效率,雖然會(huì)采用一定的預(yù)處理方式,但是預(yù)處理的方式,并不會(huì)根據(jù)數(shù)據(jù)挖掘的不同,進(jìn)行針對(duì)性的變化,沒有真正的達(dá)到預(yù)處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預(yù)處理方式的不當(dāng),甚至?xí)档凸ぷ鞯男?。由此可以看出,在?shí)際的數(shù)據(jù)挖掘中,預(yù)處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對(duì)性的預(yù)處理方式,對(duì)目前已有的預(yù)處理方式進(jìn)行總結(jié)、分類,根據(jù)需要數(shù)據(jù)的情況,針對(duì)性的選擇,如果人員的自身素質(zhì)較高,還可以設(shè)計(jì)一個(gè)新的預(yù)處理方式,以此來最大程度上提高數(shù)據(jù)挖掘的效率。
5 結(jié)束語(yǔ)
通過全文的分析可以知道,隨著近些年計(jì)算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,數(shù)據(jù)的挖掘、存儲(chǔ)、調(diào)用等技術(shù)越來越重要,受到特殊的歷史因素影響,我國(guó)科技起步較晚,與西方發(fā)達(dá)國(guó)家相比,在數(shù)據(jù)挖掘等領(lǐng)域中,具有明顯的差異,雖然經(jīng)過了多年改革開放的發(fā)展,這種差距在逐漸的減小,但是很難在短時(shí)間內(nèi)趕上發(fā)達(dá)國(guó)家的技術(shù)水平,在這種背景下,要想快速的提高我國(guó)數(shù)據(jù)挖掘預(yù)處理技術(shù),必須結(jié)合我國(guó)數(shù)據(jù)挖掘的實(shí)際情況,借鑒西方國(guó)家先進(jìn)的經(jīng)驗(yàn),完善目前的預(yù)處理技術(shù)。
參考文獻(xiàn):
[1]鄭繼剛,謝芳.多媒體圖像挖掘的關(guān)聯(lián)規(guī)則挖掘[J].紅河學(xué)院學(xué)報(bào),2009(05):44-47.
[2]謝邦昌,李揚(yáng).數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來發(fā)展[J].統(tǒng)計(jì)與信息論壇,2008(05):94-96.
[3]林建勤.數(shù)據(jù)挖掘主要問題的對(duì)策研究[J].貴陽(yáng)學(xué)院學(xué)報(bào)(自然科學(xué)版),2007(02):1-4.
[4]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(01):46-49.
[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國(guó)的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報(bào),2004(03):10-15.
[6]鄭斌祥,杜秀華,席裕庚.一種時(shí)序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.
[7]臧洌.人工神經(jīng)網(wǎng)絡(luò)在混沌觀測(cè)時(shí)序數(shù)據(jù)處理中的應(yīng)用[J].數(shù)據(jù)采集與處理,2001(04):486-489.
【關(guān)鍵詞】數(shù)據(jù)挖掘;電子商務(wù)系統(tǒng)
1.前言
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學(xué)科,融合了人工智能、數(shù)據(jù)庫(kù)技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù),數(shù)據(jù)挖掘是一個(gè)包含多個(gè)處理步驟的知識(shí)發(fā)現(xiàn)過程,其主要內(nèi)容包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表達(dá)輸出等。
把數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)系統(tǒng)中,開發(fā)出基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)系統(tǒng)能夠加深和加強(qiáng)對(duì)電子商務(wù)系統(tǒng)數(shù)據(jù)的分析功能,為電子商務(wù)企業(yè)管理人員提供電子商務(wù)的預(yù)期信息,從而能很好的保證電子商務(wù)網(wǎng)站的運(yùn)行效果。
現(xiàn)在電子商務(wù)系統(tǒng)主要形式B2C,涉及的數(shù)據(jù)不僅包括客戶在電子商務(wù)網(wǎng)站上的交易數(shù)據(jù),還包括客戶的注冊(cè)信息數(shù)據(jù)和商品信息等數(shù)據(jù)。電子商務(wù)系統(tǒng)的數(shù)據(jù)有如下特點(diǎn):
(1)數(shù)據(jù)量大;
(2)數(shù)據(jù)質(zhì)量差;
(3)數(shù)據(jù)種類多。
2.電子商務(wù)系統(tǒng)功能模塊結(jié)構(gòu)設(shè)計(jì)
根據(jù)B2C電子商務(wù)系統(tǒng)設(shè)計(jì)的目標(biāo),管理業(yè)務(wù)流程,將這個(gè)B2C電子商務(wù)系統(tǒng)分為:會(huì)員注冊(cè)管理、會(huì)員帳戶管理、商品購(gòu)買管理、會(huì)員管理、商品類別管理、商品管理、優(yōu)惠券管理、訂單管理、留言板管理、商品評(píng)論管理、庫(kù)存管理、網(wǎng)站管理和數(shù)據(jù)挖掘管理等功能模塊(如圖1所示)。
3.數(shù)據(jù)挖掘管理模塊的設(shè)計(jì)
B2C電子商務(wù)數(shù)據(jù)挖掘管理模塊主要通過對(duì)電子商務(wù)企業(yè)當(dāng)前的和歷史的交易數(shù)據(jù)進(jìn)行分析。挖掘出其中隱含的知識(shí)和從中發(fā)現(xiàn)隱含的趨勢(shì)和規(guī)律。它主要包括數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)挖掘模塊和數(shù)據(jù)挖掘結(jié)果顯示模塊。B2C電子商務(wù)數(shù)據(jù)挖掘系統(tǒng)從電子商務(wù)運(yùn)行商品數(shù)據(jù)庫(kù)、客戶信息數(shù)據(jù)庫(kù)和交易數(shù)據(jù)庫(kù)中獲取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法的需要進(jìn)行數(shù)據(jù)預(yù)處理,并建立數(shù)據(jù)挖掘模型,供電子商務(wù)企業(yè)的用戶挖掘時(shí)使用。用戶只需要輸入簡(jiǎn)單的一些參數(shù),系統(tǒng)就會(huì)自動(dòng)的根據(jù)已建立的模型輸出預(yù)測(cè)結(jié)果。電子商務(wù)挖掘系統(tǒng)體系結(jié)構(gòu)如圖2所示。
3.1 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上面進(jìn)行挖掘,需要做數(shù)據(jù)預(yù)處理工作,其一般包括數(shù)據(jù)的選擇、數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換。數(shù)據(jù)預(yù)處理是否做好將影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。這些處理技術(shù)在數(shù)據(jù)挖掘之前使用可以大大提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。原始數(shù)據(jù)通過數(shù)據(jù)選擇、清理、集成和轉(zhuǎn)換后生成數(shù)據(jù)挖掘庫(kù),為下一步的數(shù)據(jù)挖掘做好準(zhǔn)備。
3.2 數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘的目的是生成可以據(jù)其所示的含義采取行動(dòng)的知識(shí),也就是建立一個(gè)現(xiàn)實(shí)世界的模型。數(shù)據(jù)挖掘的本質(zhì)就是數(shù)學(xué)建模。在數(shù)據(jù)挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時(shí)間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。針對(duì)同一模型,可以使用不同的算法進(jìn)行數(shù)據(jù)挖掘。算法的目的就是找到適合于數(shù)據(jù)的模型。數(shù)據(jù)挖掘涉及到多步驟、各系統(tǒng)間的交互、特殊解決方案及各步驟間的反復(fù)過程。
B2C電子商務(wù)網(wǎng)站中商品介紹頁(yè)面的擺放就好比商店里的貨架,商品介紹的擺放位置也會(huì)影響客戶對(duì)商品的購(gòu)買率。而商品之間的關(guān)聯(lián)性一般不是很容易看出來的,一般人很難聯(lián)想到商品之間的關(guān)聯(lián)性,只有實(shí)際上通過對(duì)大量的交易歷史數(shù)據(jù)的分析,才可以挖掘出它們之間的關(guān)聯(lián)性。在數(shù)據(jù)挖掘過程中對(duì)關(guān)聯(lián)產(chǎn)品和服務(wù)進(jìn)行深入挖掘,可以發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則,利用關(guān)聯(lián)規(guī)則模型進(jìn)行數(shù)據(jù)挖掘可以了解客戶的購(gòu)買行為,這對(duì)于改進(jìn)B2C電子商務(wù)商業(yè)活動(dòng)的決策很有幫助。例如,可以通過改進(jìn)商品介紹位置的擺放(把顧客經(jīng)常同時(shí)買的商品擺放在一起),幫助如何規(guī)劃市場(chǎng)(互相搭配進(jìn)貨)等。而作為B2C電子商務(wù)網(wǎng)站。可以針對(duì)不同客戶特點(diǎn)動(dòng)態(tài)調(diào)整網(wǎng)站結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)的網(wǎng)頁(yè)文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網(wǎng)站更能吸引客戶,提高客戶的忠誠(chéng)度,提高網(wǎng)站的效益。
B2C電子商務(wù)網(wǎng)站網(wǎng)頁(yè)主要為顧客展示商品名稱或圖片,為顧客推薦與當(dāng)前感興趣商品更詳細(xì)或相關(guān)的網(wǎng)頁(yè)是個(gè)性化推薦的關(guān)鍵。根據(jù)客戶的注冊(cè)信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個(gè)性化服務(wù),例如系統(tǒng)可以向客戶顯示那些可能引起客戶感興趣的新商品。
隨著“以客戶為中心”的經(jīng)營(yíng)理念不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營(yíng)的重要課題。通過對(duì)B2C電子商務(wù)系統(tǒng)收集的客戶的交易數(shù)據(jù)進(jìn)行聚類模型挖掘,可以確定不同類萬方數(shù)據(jù)型客戶的行為模式,電子商務(wù)企業(yè)便可以采取相應(yīng)的營(yíng)銷措施,促使企業(yè)利潤(rùn)的最大化。
3.3 數(shù)據(jù)挖掘結(jié)果顯示模塊
數(shù)據(jù)挖掘結(jié)果的顯示模塊是將數(shù)據(jù)挖掘后得到的知識(shí)和結(jié)果用可視化形式表示出來,例如采用圖形化界面把挖掘結(jié)果顯示給電子商務(wù)企業(yè)的管理人員。在建立好相關(guān)數(shù)學(xué)模型后,把實(shí)際數(shù)據(jù)作為輸入信息,通過挖掘模型的計(jì)算獲得預(yù)測(cè)結(jié)果。B2C電子商務(wù)企業(yè)要根據(jù)不同的挖掘結(jié)果做出不同的反應(yīng)。采取不同的措施,給顧客提供不同的服務(wù),在為顧客服務(wù)的同時(shí)也為自己的B2C電子商務(wù)企業(yè)獲取更多的利潤(rùn)。
4.結(jié)論
本文討論了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于B2C電子商務(wù)系統(tǒng)中,并采用J2EE的B/S架構(gòu)將其實(shí)現(xiàn),系統(tǒng)采用客戶端、中間服務(wù)器和后臺(tái)數(shù)據(jù)庫(kù)三層架構(gòu)。利用數(shù)據(jù)挖掘技術(shù)可以提高B2C電子商務(wù)企業(yè)現(xiàn)代化管理水平方面發(fā)揮著積極的作用,它能夠提高B2C電子商務(wù)企業(yè)對(duì)客戶管理和商品管理方面信息的準(zhǔn)確性和及時(shí)性,可以幫助B2C電子商務(wù)企業(yè)網(wǎng)站的開發(fā)人員及時(shí)、全面了解B2C電子商務(wù)企業(yè)網(wǎng)站運(yùn)營(yíng)情況和合理安排網(wǎng)頁(yè)的頁(yè)面布局,為不同瀏覽習(xí)慣的顧客提供個(gè)性化服務(wù),為各項(xiàng)具體工作提供技術(shù)、信息支持;有效地減少各種失誤并保證B2C電子商務(wù)企業(yè)網(wǎng)站的各項(xiàng)任務(wù)保質(zhì)保量、按計(jì)劃完成,從而提高電子商務(wù)企業(yè)網(wǎng)站的運(yùn)作效率。
參考文獻(xiàn)
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.實(shí)用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版,2004.
[3]廖芹,郝志峰.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國(guó)防工業(yè)出版社,2010.
1.1數(shù)據(jù)電子化
要讓數(shù)據(jù)電子化,首先要搭建適用的網(wǎng)絡(luò)平臺(tái),網(wǎng)絡(luò)平臺(tái)的搭建分為2個(gè)過程。如果需要收集數(shù)據(jù),則需要搭建一個(gè)面向?qū)ο蟮木W(wǎng)絡(luò)平臺(tái)。在對(duì)大學(xué)生社會(huì)體系和人際關(guān)系的研究中,采用的是在WEB上自動(dòng)收集量表數(shù)據(jù),首先將量表轉(zhuǎn)換為匯編語(yǔ)言編寫的網(wǎng)頁(yè),再采用將量表轉(zhuǎn)換后的電子版網(wǎng)頁(yè)與數(shù)據(jù)庫(kù)中的表相連接,這樣,只要被試登錄指定網(wǎng)站,就可以在網(wǎng)上完成量表的填寫,數(shù)據(jù)則直接存入數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)管理系統(tǒng)使用的是SQLServer2000,在網(wǎng)絡(luò)成癮和注意關(guān)系偏向的研究中,也采用了同樣的方法。如果對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行分析,則可以略過數(shù)據(jù)收集這個(gè)步驟,直接將數(shù)據(jù)輸入數(shù)據(jù)處理軟件中。在對(duì)于青少年同伴關(guān)系的研究中,創(chuàng)建了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來存放現(xiàn)有數(shù)據(jù),選用SQLServer2000作為數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建平臺(tái)。由于青少年同伴關(guān)系的研究中的維度不是太多,維度層次也不復(fù)雜,出于對(duì)查詢效率和使用者是否容易理解的角度考慮,決定使用星型結(jié)構(gòu)來創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù),青少年同伴關(guān)系研究的星型結(jié)構(gòu)。最后一種方法是直接將數(shù)據(jù)輸入SPSS中,這種方法這樣需要大量人力物力,而且效率難以提高,存在誤錄的可能。
1.2數(shù)據(jù)挖掘分析
將數(shù)據(jù)轉(zhuǎn)換為需要的電子文本格式以后,進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理。在剔除了部分缺失或者明顯錯(cuò)誤的數(shù)據(jù)后,就可以進(jìn)行數(shù)據(jù)挖掘工作了。數(shù)據(jù)挖掘的常用算法為關(guān)聯(lián)規(guī)則挖掘、決策樹算法和聚類挖掘算法。在此選用關(guān)聯(lián)規(guī)則挖掘算法做詳細(xì)說明,在大學(xué)生社會(huì)網(wǎng)絡(luò)和人際關(guān)系研究中,選取被試人際關(guān)系滿意度為例進(jìn)行關(guān)聯(lián)規(guī)則挖掘。表1被試人際關(guān)系滿意度關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘的步驟如下:
①選擇數(shù)據(jù)根據(jù)關(guān)聯(lián)規(guī)則挖掘的目標(biāo),選擇如上表所示的屬性,通過下面的sql語(yǔ)句選擇數(shù)據(jù),并將jibenxinxi表和zongjie表通過學(xué)號(hào)連接起來。select性別,是否獨(dú)生子女,你對(duì)自己的人際關(guān)系滿意嗎,你對(duì)自己與父母的關(guān)系滿意嗎,你對(duì)自己與同伴的關(guān)系滿意嗎,你對(duì)自己與老師的關(guān)系滿意嗎,你認(rèn)為比較了解你的人會(huì)對(duì)你的人際關(guān)系給出一個(gè)怎樣的評(píng)價(jià),你對(duì)自己人際關(guān)系的關(guān)注程度fromjibenxinxia,zongjiebwherea.學(xué)號(hào)=b.學(xué)號(hào);
②保存選擇的數(shù)據(jù):首先將第一步選擇的數(shù)據(jù)插入到一張表中,sql語(yǔ)句如下:insertintoguanlianguize1select性別,是否獨(dú)生子女,你對(duì)自己的人際關(guān)系滿意嗎,你對(duì)自己與父母的關(guān)系滿意嗎,你對(duì)自己與同伴的關(guān)系滿意嗎,你對(duì)自己與老師的關(guān)系滿意嗎,你認(rèn)為比較了解你的人會(huì)對(duì)你的人際關(guān)系給出一個(gè)怎樣的評(píng)價(jià),你對(duì)自己人際關(guān)系的關(guān)注程度fromjibenxinxia,zongjiebwherea.學(xué)號(hào)=b.學(xué)號(hào);
③構(gòu)造滿足關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)庫(kù)在guanlianguize1表中增加一個(gè)屬性item,通過下面的sql語(yǔ)句給item賦值。注意各屬性的數(shù)據(jù)挖掘映射代碼如上表所示。新建表social_guanlian_1作為數(shù)據(jù)挖掘的事務(wù)數(shù)據(jù)庫(kù),導(dǎo)入item。Insertintosocial_guanlian_1(item)selectitemfromguanlianguize1以上關(guān)聯(lián)規(guī)則挖掘的結(jié)果,結(jié)果表明:對(duì)自己圖人際關(guān)系評(píng)價(jià)較高的大學(xué)生,同時(shí)對(duì)自己人際關(guān)系的滿意度也較高。對(duì)自己人際關(guān)系評(píng)價(jià)較低的大學(xué)生,同時(shí)對(duì)自己人際關(guān)系的滿意度也較低。對(duì)人際關(guān)系關(guān)注程度較低的同學(xué),人際關(guān)系滿意度也較低。這些數(shù)據(jù)之間是互相有關(guān)聯(lián)的,因此呼吁大學(xué)生多關(guān)注人際關(guān)系和人際交往的法則,有利于他們及早的認(rèn)識(shí)到自己在人際交往方面的不足,為以后步入社會(huì),創(chuàng)造更大的社會(huì)價(jià)值打好基礎(chǔ)。除此以外,對(duì)于教育學(xué)中的很多課題,例如青少年同伴關(guān)系的研究,網(wǎng)絡(luò)成癮與注意偏向關(guān)系的研究,學(xué)生成績(jī)的分析等等都可以用數(shù)據(jù)挖掘來進(jìn)行科學(xué)的數(shù)據(jù)分析,數(shù)據(jù)挖掘技術(shù)在教育學(xué)領(lǐng)域正發(fā)揮著越來越大的作用。
2結(jié)束語(yǔ)
關(guān)鍵詞:數(shù)據(jù)挖掘;計(jì)算智能;應(yīng)用領(lǐng)域
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0016-03
數(shù)據(jù)挖掘技術(shù)在當(dāng)前是人工智能和數(shù)據(jù)庫(kù)研究的熱點(diǎn)問題,它是一門涉及面比較廣的學(xué)科,應(yīng)用范圍非常廣泛。通常大家都比較清楚的是,人們可以用數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ),還能夠借助計(jì)算機(jī)等工具進(jìn)行數(shù)據(jù)的分析以及從大量數(shù)據(jù)中搜尋有用的知識(shí),正是基于二者的結(jié)合才促成了數(shù)據(jù)挖掘技術(shù)的誕生。在當(dāng)前日益激增的信息量中,傳統(tǒng)的搜索技術(shù)顯然不能滿足,通過數(shù)據(jù)挖掘技術(shù),在海量的數(shù)據(jù)庫(kù)中提取有用的信息,以供人們使用,更加符合現(xiàn)實(shí)的需求。此外,數(shù)據(jù)挖掘技術(shù)能夠被廣泛應(yīng)用于銷售、金融等多個(gè)領(lǐng)域,極大地推動(dòng)了信息技術(shù)的發(fā)展以及現(xiàn)代化進(jìn)程。
1 數(shù)據(jù)挖掘技術(shù)概述
1.1數(shù)據(jù)挖掘技術(shù)的產(chǎn)生
隨著科技的進(jìn)步以及網(wǎng)絡(luò)技術(shù)的發(fā)展,計(jì)算機(jī)從硬件到軟件都有著極大的進(jìn)步。隨著數(shù)據(jù)信息的迅猛增加,數(shù)據(jù)庫(kù)技術(shù)現(xiàn)在被廣泛用于各行各業(yè)之中,但是如果利用數(shù)據(jù)庫(kù)中的信息,利用其隱藏的信息價(jià)值,獲取更大的收益,成為技術(shù)工作者不斷探究的新課題。雖然信息數(shù)據(jù)迅猛增長(zhǎng),但是現(xiàn)有的數(shù)據(jù)分析工具卻無法實(shí)現(xiàn)在海量的數(shù)據(jù)中搜尋有用的信息,為決策者提供有價(jià)值的數(shù)據(jù)作出正確的決策和發(fā)展預(yù)測(cè)。為了解決此問題,數(shù)據(jù)挖掘技術(shù)便開始發(fā)展起來。在當(dāng)前全球海量的數(shù)據(jù)資源以及各行各業(yè)巨大的需求,再加上技術(shù)工作者的不斷努力,數(shù)據(jù)挖掘技術(shù)的發(fā)展取得了巨大的成就,并被廣泛應(yīng)用于商業(yè)管理、控制、分析、設(shè)計(jì)等領(lǐng)域。
20世紀(jì)60年代,數(shù)據(jù)庫(kù)技術(shù)從基本的文件處理發(fā)展為數(shù)據(jù)庫(kù)系統(tǒng);70年代,關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)建模工具等迅速發(fā)展起來;80年代中期開始,關(guān)系數(shù)據(jù)庫(kù)被普遍采用,促進(jìn)了新型數(shù)據(jù)庫(kù)系統(tǒng)等發(fā)展。但是,隨著數(shù)據(jù)庫(kù)系統(tǒng)等不斷發(fā)展,海量的數(shù)據(jù)成為數(shù)據(jù)庫(kù)的負(fù)累,如何從其中搜尋有用的數(shù)據(jù)已經(jīng)成為非常困難的事,在不借助任何工具等情況下,人類已經(jīng)無法進(jìn)行數(shù)據(jù)的處理和分析,這樣不斷地存儲(chǔ)數(shù)據(jù)就像“墓地”,不能被人們利用,決策者不能從中提取有價(jià)值的數(shù)據(jù)進(jìn)行決策的制定和發(fā)展的預(yù)測(cè)[1]。在此種背景下,數(shù)據(jù)挖掘技術(shù)便開始發(fā)展起來,并取得巨大的成就,現(xiàn)在人們已經(jīng)能夠利用數(shù)據(jù)挖掘技術(shù)挖掘數(shù)據(jù)庫(kù)中有用的信息,幫助人們實(shí)現(xiàn)信息的利用和財(cái)富的轉(zhuǎn)化。
1.2 數(shù)據(jù)挖掘技術(shù)的概念
當(dāng)前,隨著科技的發(fā)展和互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)中各種信息不斷增多,數(shù)據(jù)庫(kù)技術(shù)也隨之進(jìn)步。雖然數(shù)據(jù)庫(kù)管理系統(tǒng)被運(yùn)用于各個(gè)行業(yè),但因信息量的劇增,使得數(shù)據(jù)庫(kù)管理系統(tǒng)從中提取信息的難度非常大。許多重要的信息都包含在海量的數(shù)據(jù)里面,需要我們將它們從中提取出來,利用這些數(shù)據(jù)發(fā)揮更大的作用,創(chuàng)造出更多的價(jià)值,獲取更大的利益。而將這些信息從海量的數(shù)據(jù)庫(kù)中提取出來的技術(shù),通常叫做數(shù)據(jù)挖掘技術(shù)[2]。
數(shù)據(jù)挖掘技術(shù)是從海量數(shù)據(jù)庫(kù)中搜索并挖掘有用信息的一種技術(shù),幫助企業(yè)或個(gè)人通過數(shù)據(jù)之間的聯(lián)系和不容易引起注意的信息,作出正確的決策,并且通過挖掘的信息進(jìn)行預(yù)測(cè)發(fā)展趨勢(shì)。數(shù)據(jù)挖掘技術(shù)能夠利用信息發(fā)現(xiàn)未知的東西,與先假設(shè)再驗(yàn)證的數(shù)據(jù)處理技術(shù)不同,數(shù)據(jù)挖掘技術(shù)顯然更加真實(shí)準(zhǔn)備,更加能夠被廣泛采用。目前,數(shù)據(jù)挖掘技術(shù)越來越被各行各業(yè)重視并運(yùn)用,在未來也有巨大的發(fā)展前景。
1.3 數(shù)據(jù)挖掘技術(shù)的功能
數(shù)據(jù)挖掘技術(shù)的功能非常強(qiáng)大,能夠使用此技術(shù)在數(shù)據(jù)挖掘任務(wù)中尋找需要的信息。一般數(shù)據(jù)挖掘的任務(wù)分為描述和預(yù)測(cè):簡(jiǎn)單在數(shù)據(jù)庫(kù)中搜尋數(shù)據(jù)反映數(shù)據(jù)的一般特性即為描述;利用數(shù)據(jù)信息進(jìn)行推算,進(jìn)行預(yù)測(cè)即為預(yù)測(cè)。當(dāng)前,數(shù)據(jù)挖掘技術(shù)的功能有以下幾種:
1)概念或者類描述
數(shù)據(jù)一般是與概念或者類聯(lián)系著的。能夠用總結(jié)的、簡(jiǎn)單的、正確的方法進(jìn)行概念或者類的描述就被稱為概念或類描述。通過此種描述方法能夠知道:一是任務(wù)數(shù)據(jù)的特征或者整體數(shù)據(jù)的特征,二是能夠?qū)⑷蝿?wù)數(shù)據(jù)的特征與其他數(shù)據(jù)進(jìn)行特征的對(duì)比,三是能夠利用前述二者進(jìn)行概念或者類描述。
2)關(guān)聯(lián)分析
數(shù)據(jù)挖掘技術(shù)通過關(guān)聯(lián)分析能夠發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。這些規(guī)則比較固定地展示了數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)挖掘技術(shù)的這項(xiàng)功能在事務(wù)數(shù)據(jù)分析中應(yīng)用較多。
3)分類和預(yù)測(cè)
分類是指在任務(wù)數(shù)據(jù)中找出不同類或者概念的數(shù)據(jù),而后利用分類進(jìn)行預(yù)測(cè)還沒有被發(fā)現(xiàn)的信息。預(yù)測(cè)是給建立一個(gè)模型來對(duì)不知道的數(shù)據(jù)進(jìn)行預(yù)測(cè)或者給定一個(gè)數(shù)值區(qū)間,進(jìn)行任務(wù)數(shù)據(jù)的預(yù)測(cè)。分類與預(yù)測(cè)的不同之處為:分類是利用分散的數(shù)值進(jìn)行預(yù)測(cè);而預(yù)測(cè)是利用連續(xù)數(shù)值進(jìn)行預(yù)測(cè)。
4)聚類分析
聚類就是將任務(wù)數(shù)據(jù)進(jìn)行同類的聚集,這些任務(wù)數(shù)據(jù)中有著非常高的相同點(diǎn),但是不同聚類之間的差異非常大。與分類大區(qū)別在于,聚類是進(jìn)行未知數(shù)據(jù)的類別。通過聚類,而后進(jìn)行數(shù)據(jù)的分析預(yù)測(cè)。
5)孤立點(diǎn)分析
孤立點(diǎn)一般是度量或者系統(tǒng)執(zhí)行失誤造成的,也有固定數(shù)值突變產(chǎn)生的孤立點(diǎn)。目前,很多數(shù)據(jù)挖掘技術(shù)希望通過孤立點(diǎn)分析將其影響變?yōu)樽钚 2贿^,一單操作很容易使重要信息損壞或者丟失,畢竟孤立點(diǎn)是非常重要的。
6)演變分析
數(shù)據(jù)不是固定不變的,而是會(huì)不斷地進(jìn)行變化,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行任務(wù)數(shù)據(jù)演變分析,對(duì)其規(guī)律或者趨勢(shì)進(jìn)行預(yù)測(cè)。演變分析包括對(duì)數(shù)據(jù)的時(shí)間序列、周期進(jìn)行分析或者類似性地?cái)?shù)據(jù)分析。
2 數(shù)據(jù)挖掘技術(shù)的分類
數(shù)據(jù)挖掘技術(shù)的分類能夠根據(jù)發(fā)現(xiàn)知識(shí)的種類、挖掘的數(shù)據(jù)庫(kù)種類、采用的技術(shù)等方法進(jìn)行分類。根據(jù)采用的技術(shù)進(jìn)行分類,則主要有七種。
2.1規(guī)則歸納
規(guī)則歸納就是利用設(shè)定的統(tǒng)計(jì)方法進(jìn)行歸納對(duì)挖掘者有用的規(guī)則,關(guān)聯(lián)規(guī)則挖掘就是其中的一種。
2.2決策樹方法
所謂決策樹方法就是建立樹狀模型進(jìn)行決策集合。利用已有信息挖掘數(shù)據(jù)庫(kù)中重要的有價(jià)值的信息,構(gòu)建支點(diǎn),再根據(jù)數(shù)據(jù)的不同取值進(jìn)行分支構(gòu)造,最后通過分析形成整個(gè)的決策樹。決策者可以根據(jù)此決策樹進(jìn)行決策的制定或者預(yù)測(cè)發(fā)展趨勢(shì)。
2.3人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)的應(yīng)用比較多,主要是模擬人腦進(jìn)行數(shù)據(jù)的分析,建立非線性預(yù)測(cè)模型,從而完成分類、聚類等多種任務(wù)。
2.4遺傳算法
遺傳算法是模擬生物進(jìn)化過程的算法。它是通過將一個(gè)問題分解為多個(gè)個(gè)體,然后在每個(gè)個(gè)體上進(jìn)行取值,從而完成信息搜索、任務(wù)挖掘。
2.5模糊技術(shù)
顧名思義,模糊技術(shù)即是利用模糊集合理論對(duì)實(shí)際問題進(jìn)行預(yù)測(cè)、推斷等。一般來說,數(shù)據(jù)庫(kù)數(shù)據(jù)具有模糊性,通過大概的數(shù)值估計(jì),利用期望值、隨機(jī)值進(jìn)行組合,使得信息挖掘能夠定性定量的轉(zhuǎn)換。
2.6粗集方法
1982年,Pawlak(波蘭)提出的數(shù)據(jù)分析方法。粗集方法是利用等價(jià)思想將數(shù)據(jù)分散,然后利用屬性的等價(jià)進(jìn)行集合,形成決策集合。
2.7可視化技術(shù)
可視化技術(shù)即是利用最直觀的圖形方法把數(shù)據(jù)庫(kù)信息、數(shù)據(jù)的關(guān)聯(lián)等呈現(xiàn)出來,決策者能夠直觀地通過圖形進(jìn)行發(fā)展趨勢(shì)的預(yù)測(cè),作出正確的決策。
3基于計(jì)算智能的數(shù)據(jù)挖掘技術(shù)的具體技術(shù)探究
3.1關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則挖掘是關(guān)聯(lián)分析中的一種數(shù)據(jù)挖掘技術(shù),利用數(shù)據(jù)庫(kù)中海量的數(shù)據(jù)進(jìn)行有用信息間的聯(lián)系的挖掘。當(dāng)前關(guān)聯(lián)規(guī)則的挖掘已經(jīng)取得巨大的成就,當(dāng)前,關(guān)聯(lián)規(guī)則的挖掘技術(shù)有:1)多循環(huán)方式多挖掘算法,它是基本算法,包括AIS、DHP算法、分割算法等;2)并行挖掘算法,包括CD 算法、CaD算法、DD算法等;3)增量式更新算法,主要是在數(shù)據(jù)庫(kù)增加紀(jì)錄后關(guān)聯(lián)規(guī)則的挖掘算法,包括FUP、IUA、PIUA、NEWIUA算法等;4)基于約束條件的關(guān)聯(lián)規(guī)則挖掘,就是為了發(fā)現(xiàn)更多、有用、特別的關(guān)聯(lián)規(guī)則;5)挖掘多值屬性關(guān)聯(lián)規(guī)則,包括擴(kuò)展布爾屬性的關(guān)聯(lián)規(guī)則算法、K度完全方法等 [3]。
3.2分類規(guī)則的挖掘
分類規(guī)則的挖掘就是在已有數(shù)據(jù)的基礎(chǔ)上建立分類模型,利用該模型將數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到分類中,從而進(jìn)行數(shù)據(jù)預(yù)測(cè)。分類模型的構(gòu)造方法有許多種,通常有決策樹法、神經(jīng)網(wǎng)絡(luò)算法等。由于分類模型等正確率與數(shù)據(jù)、屬性等因素有關(guān),因此在進(jìn)行分類評(píng)估時(shí)需要采用以下方法:一是保留方法,將數(shù)據(jù)庫(kù)中的一部分?jǐn)?shù)據(jù)保留,其他的用于數(shù)據(jù)分析評(píng)估;二是交叉糾錯(cuò)方法,即是將分類中有重復(fù)的數(shù)據(jù)進(jìn)行提取,而后進(jìn)行測(cè)試,提高評(píng)估正確率[4]。
3.3聚類分析
聚類分析就是將特征相似的數(shù)據(jù)進(jìn)行歸類,建立成一個(gè)集合。再聚類之時(shí)要保證數(shù)據(jù)相似性最大,而不同類別的數(shù)據(jù)相似性要最小。這些數(shù)據(jù)的特性在事前并不清楚,聚類分析就是要通過將數(shù)據(jù)進(jìn)行歸類在進(jìn)行分析,發(fā)現(xiàn)有價(jià)值的信息。聚類算法一般包括基于概率的聚類算法以及基于距離的聚類算法兩種。在實(shí)際應(yīng)用中,基于概率的聚類算法因效率低下而采用較少,基于距離的聚類算法因效率高被廣泛采用。通過聚類分析,對(duì)數(shù)據(jù)進(jìn)行挖掘分析,能夠更加準(zhǔn)確地獲得更多地具有價(jià)值的信息,為決策者作出決策或者作出發(fā)展預(yù)測(cè)提供更加有力的數(shù)據(jù)支持。
3.4離群數(shù)據(jù)挖掘
離群數(shù)據(jù)就是指那些明顯跟其他數(shù)據(jù)不同的數(shù)據(jù)類型。離群數(shù)據(jù)的挖掘時(shí)數(shù)據(jù)挖掘技術(shù)中非常重要的內(nèi)容,它通過發(fā)現(xiàn)離群數(shù)據(jù)與其他數(shù)據(jù)的區(qū)別,獲取比一般數(shù)據(jù)更有價(jià)值的信息。一般離群數(shù)據(jù)主要有以下發(fā)現(xiàn)方法:一是基于統(tǒng)計(jì),即在已知的數(shù)據(jù)上進(jìn)行離群數(shù)據(jù)的挖掘;二是基于距離,即通過計(jì)算數(shù)據(jù)間的距離進(jìn)行離群數(shù)據(jù)的挖掘;三是基于偏離,即在事前知道數(shù)據(jù)的特性前提下對(duì)數(shù)據(jù)進(jìn)行檢測(cè)發(fā)現(xiàn)離群數(shù)據(jù);四是基于規(guī)則,即是根據(jù)已有規(guī)則發(fā)現(xiàn)明顯不同規(guī)則的離群數(shù)據(jù);五是離群數(shù)據(jù)發(fā)現(xiàn)的多策略方法,即是對(duì)數(shù)據(jù)進(jìn)行聚類,進(jìn)行子集的劃分,再根據(jù)觀察發(fā)現(xiàn)明顯不同的離群數(shù)據(jù)。
4數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域
隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,各行各業(yè)越來越意識(shí)到數(shù)據(jù)挖掘技術(shù)的巨大優(yōu)勢(shì),因此其應(yīng)用前景非常廣泛。數(shù)據(jù)挖掘技術(shù)的應(yīng)用主要在以下領(lǐng)域:
4.1科學(xué)研究領(lǐng)域
科學(xué)技術(shù)領(lǐng)域需要運(yùn)用各種最新技術(shù),利用最新技術(shù)進(jìn)行科學(xué)領(lǐng)域的研究。隨著科學(xué)數(shù)據(jù)收集工具的運(yùn)用,各種科學(xué)研究收集到了海量的數(shù)據(jù),但是顯然依靠人力或者傳統(tǒng)的數(shù)據(jù)分析工具是不能夠應(yīng)付的,因此必須要使用一種能夠從海量數(shù)據(jù)中自動(dòng)搜尋分析提取的工具。正是科學(xué)技術(shù)領(lǐng)域的需求,推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展以及在科學(xué)技術(shù)領(lǐng)域的應(yīng)用,并為科學(xué)研究領(lǐng)域作出了巨大的貢獻(xiàn)。比如,在遺傳研究領(lǐng)域,涉及DNA的數(shù)據(jù)非常多,而且DNA的組合、順序等更不相同,如果想要從中找出致人疾病的基因組,依靠人力進(jìn)行數(shù)據(jù)的排練組合顯然是不可能的,所以必須采用數(shù)據(jù)挖掘工具,對(duì)不同的基因組進(jìn)行分析,剔除無害的基因組,選擇出有害的基因組,然后工作人員再根據(jù)提取的數(shù)據(jù)進(jìn)行分析[5]。此外,數(shù)據(jù)挖掘技術(shù)還能運(yùn)用于對(duì)歷史發(fā)展規(guī)律的預(yù)測(cè)、對(duì)人類行為規(guī)律的預(yù)測(cè)等等。
4.2商業(yè)零售業(yè)
眾所周知,零售業(yè)有著大量的數(shù)據(jù),從進(jìn)貨到銷售,都有大量的數(shù)據(jù),尤其是隨著電子商業(yè)的發(fā)展,數(shù)據(jù)量也劇增,而處理這些數(shù)據(jù)就需要依靠數(shù)據(jù)挖掘技術(shù)。通過數(shù)據(jù)挖掘技術(shù),對(duì)銷售數(shù)據(jù)進(jìn)行分析,就能夠知道什么商品受到顧客喜愛,銷售得最快,而后有針對(duì)性地進(jìn)貨[6]。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,就能夠通過數(shù)據(jù)分析,制定有效銷售措施,獲取最大的利益。
關(guān)鍵詞:網(wǎng)絡(luò)安全;入侵檢測(cè);數(shù)據(jù)挖掘
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2011) 08-0000-01
Research of Intrusion Detection Technology Based on Data Mining
Zhao Nan,Feng Jianlin
(College of Computer and Information Engineering,Lishui University,Lishui323000,China)
Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.
Keywords:Network security;Intrusion detection;Data mining
目前大部分入侵檢測(cè)采用特征檢測(cè)的方法,它們由安全專家預(yù)先定義出一系列特征模式(此處的特征模
式含義比較窄,如表達(dá)式、字節(jié)匹配或“特征字符串”,與后面提到的規(guī)則不同),用來識(shí)別入侵,同時(shí),入侵檢測(cè)系統(tǒng)需要不斷更新自己的模式庫(kù)以跟上入侵技術(shù)發(fā)展的步伐,僅僅采用這種入侵檢測(cè)方法將會(huì)帶來很多缺陷。
基于數(shù)據(jù)挖掘的入侵檢測(cè)技術(shù)可以自動(dòng)地從訓(xùn)練數(shù)據(jù)中提取出可用于入侵檢測(cè)的知識(shí)和模式經(jīng)過綜合地分析比較,基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)有以下幾點(diǎn)優(yōu)勢(shì):智能性好、檢測(cè)效率高、自適應(yīng)能力強(qiáng)和誤警率低。
一、入侵檢測(cè)技術(shù)簡(jiǎn)介
入侵檢測(cè)是對(duì)網(wǎng)絡(luò)系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機(jī)密性、完整性與可用性。入侵檢測(cè)系統(tǒng)是從多種計(jì)算機(jī)系統(tǒng)及網(wǎng)絡(luò)中搜集信息,再?gòu)倪@些信息中分析入侵及誤用特征。入侵是由系統(tǒng)外部發(fā)起的攻擊。誤用是由系統(tǒng)內(nèi)部發(fā)起的攻擊。所有的IDS的本質(zhì)都是基于分析一系列離散的、按先后順序發(fā)生的事件,這些事件用于誤用模式進(jìn)行匹配,入侵檢測(cè)源都是連續(xù)的紀(jì)錄,他們反映了特定的操作,間接反映了運(yùn)轉(zhuǎn)狀態(tài)。IDS一般包括三部分:信息的搜集和預(yù)處理、入侵檢測(cè)分析引擎以及響應(yīng)和恢復(fù)系統(tǒng)[1]。
絕大多數(shù)入侵檢測(cè)系統(tǒng)的處理效率低下,不能滿足大規(guī)模和高帶寬網(wǎng)絡(luò)的安全防護(hù)要求。目前使用的主要檢測(cè)方法是將審計(jì)事件同特征庫(kù)中的特征匹配,但現(xiàn)在的特征庫(kù)組織簡(jiǎn)單。導(dǎo)致的漏報(bào)率和誤報(bào)率較高,很難實(shí)現(xiàn)對(duì)分布式、協(xié)同式攻擊等復(fù)雜攻擊手段的準(zhǔn)確檢測(cè);此外,預(yù)測(cè)能力嚴(yán)重受限于攻擊特征庫(kù),缺乏對(duì)未知入侵的預(yù)測(cè)能力。
二、數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘是從海量的數(shù)據(jù)中提取或“挖掘”知識(shí),這些數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息存儲(chǔ)中[2]。于數(shù)據(jù)挖掘是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語(yǔ)名稱。數(shù)據(jù)挖掘是針對(duì)特定應(yīng)用的數(shù)據(jù)分析處理過程,如何選擇輸入數(shù)據(jù)、變換數(shù)據(jù)集對(duì)應(yīng)的挖掘算法,取決于具體的數(shù)據(jù)挖掘目標(biāo),即期望從數(shù)據(jù)中發(fā)掘出什么知識(shí)。數(shù)據(jù)挖掘可粗略地理解為三步:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘,以及結(jié)果的解釋評(píng)估。
三、基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取隱含的、以前不知道的、有潛在作用的信息。它利用統(tǒng)計(jì)與可視化技術(shù)以易于理解的形式發(fā)現(xiàn)并表現(xiàn)信息。在入侵檢測(cè)中,數(shù)據(jù)挖掘被定義為處理大量在中央位置收集得到的數(shù)據(jù),從而察看其規(guī)則模式。基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)(DMIDS)是從訓(xùn)練數(shù)據(jù)中得到規(guī)則模式,用于實(shí)時(shí)的入侵檢測(cè)系統(tǒng)中的入侵檢測(cè)。
基于數(shù)據(jù)挖掘的入侵檢測(cè)技術(shù)可以自動(dòng)地從訓(xùn)練數(shù)據(jù)中提取出可用于入侵檢測(cè)的知識(shí)和模式經(jīng)過綜合地分析比較,基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)有以下幾點(diǎn)優(yōu)勢(shì):智能性好、檢測(cè)效率高、自適應(yīng)能力強(qiáng)、誤警率低[3]。
基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)原理,DMIDS總體分為兩部分:
第一部分是數(shù)據(jù)挖掘部分,主要采用數(shù)據(jù)挖掘技術(shù)來得出規(guī)則庫(kù),為后續(xù)的檢測(cè)提供依據(jù);其中包括:訓(xùn)練數(shù)據(jù),數(shù)據(jù)挖掘模塊和規(guī)則庫(kù),
第二部分為入侵檢測(cè)部分,實(shí)時(shí)采集數(shù)據(jù),處理數(shù)據(jù),然后和規(guī)則庫(kù)進(jìn)行比較,判斷當(dāng)前用戶的操作是否合法,并相應(yīng)的作為響應(yīng)或恢復(fù)機(jī)制。該部分主要擁有以下模塊:
數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘技術(shù)是一種決策支持過程,它主要基于AI,機(jī)器學(xué)習(xí)統(tǒng)計(jì)等技術(shù),它能高度自動(dòng)化地分析原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)出客戶的行為。
數(shù)據(jù)挖掘模塊的主要作用就是從訓(xùn)練數(shù)據(jù)中挖掘正常和異常行為規(guī)則,構(gòu)建規(guī)則庫(kù),對(duì)于不同性質(zhì)的數(shù)據(jù)源,這里要求采用不同的數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的隱含規(guī)律。
DM的技術(shù)基礎(chǔ)是人工智能,它利用了人工智能的一些已經(jīng)成熟的算法和技術(shù),例如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法。決策樹、鄰近搜索算法、規(guī)則推理、模糊邏輯等DM系統(tǒng)問題利用的技術(shù)越多,得出的結(jié)果精確性就越高。這主要取決于問題的類型以及數(shù)據(jù)的類型和規(guī)模。
四、結(jié)論
由于入侵檢測(cè)系統(tǒng)本身應(yīng)用的特殊性,要求它具有準(zhǔn)確性、全局性、可擴(kuò)展性、可伸縮性以及環(huán)境適應(yīng)性和本身的健壯性。本文對(duì)基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)的信息提取技術(shù)作了較全面的研究和介紹,重點(diǎn)研究了啟發(fā)式的聚類數(shù)據(jù)挖掘算法,并對(duì)其中涉及到的概化分層和聚類算法和關(guān)聯(lián)算法,分類算法等進(jìn)行了介紹。
參考文獻(xiàn):
[1]孫鑫鴿,趙躍龍.基于數(shù)據(jù)挖掘的分布式入侵檢測(cè)系統(tǒng)[J].電子技術(shù)應(yīng)用,2008,3:126-130