時間:2023-02-27 11:10:36
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇數(shù)據(jù)挖掘學習計劃,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
關鍵詞:遠程教育;數(shù)據(jù)挖掘;個性化學習系統(tǒng)
中圖分類號:G434 文獻標識碼:A 文章編號:1007-9599 (2012) 12-0000-02
目前網(wǎng)絡遠程教育的普及使得優(yōu)質教學資源突破了時間和空間的局限性,使得終身學習成為可能。而當前網(wǎng)絡教育的開展,也出現(xiàn)了種種弊端:技術方面,多以教學資料呈現(xiàn)形式的轉換為主,只是書本搬家而缺少一定的交互模式;而其不同學習進度、不同興趣、個性化的學習需要基本不能得到一定的滿足,無法因材施教。因此,網(wǎng)絡教育需要強大的技術力量幫助學生迅速高效地搜尋到滿足其個性要求的教學資源,并對其學習整個進程進行正確指引與科學評價。本文試圖設計一種系統(tǒng)模型,利用數(shù)據(jù)挖掘技術來改進當前的網(wǎng)絡教育模式,對每一個學生都提供個性化的學習進程,達到一下學習要求:
學習系統(tǒng)可依照與當前登錄學生相似的學生的學習步驟自動的對其后續(xù)目標知識進行預測和推薦
針對學生的學習過程進行過程性考核,并依據(jù)成績動態(tài)改變學生的學習與練習進程,對此學生的掌握不好的地方進行再次督學
本文依據(jù)以上目標,構建了基于Web的個性化學習系統(tǒng)模塊(Web-based Personalized Learning Core System 下文簡稱WPLCS)來滿足遠程教育中學習者個性化學習的迫切需要。
在該系統(tǒng)核心算法的選型上鎖定了數(shù)據(jù)挖掘技術來構建WPLCS。下面圖1便是基于網(wǎng)絡的個性化學習系統(tǒng)核心模塊(Web-based Personalized Learning Core System)數(shù)據(jù)挖掘引擎的基本架構:
數(shù)據(jù)挖掘技術是從多樣的、無序的數(shù)據(jù)中,抽取提煉出有用的信息的過程。因此數(shù)據(jù)挖掘技術被廣泛商用。但在教育領域中應用此技術,就不能簡單的套用一些商用模式,因為電子商務中的服務器端在進行數(shù)據(jù)挖掘時只需知道大量的用戶在訪問了A頁面后又去訪問了B或者C頁面,證明他們對B、C頁面有潛在的興趣,從而向訪問過A頁面的用戶的客戶端動態(tài)的推薦B、C頁面,以此來達到個性化引導客戶訪問的目的。
而在網(wǎng)絡教育中,若系統(tǒng)鎖定學生感興趣的知識和關注知識頁面的時長等信息,不但可以依據(jù)此信息靈活地改變練習和考核進程,還可重構網(wǎng)站結構減少網(wǎng)絡響應時長。與此同時,在設計網(wǎng)絡課程的頁面時,力圖使嵌有某些特定知識頁面和網(wǎng)絡課程中的知識點形成映射關系,也就使得系統(tǒng)能夠清楚標記出學生對于知識的掌握情況。從而在數(shù)據(jù)挖掘過程中能夠做到以知識點為導向。
WPLCS利用數(shù)據(jù)處理模塊將系統(tǒng)的用戶訪問日志文件和數(shù)據(jù)庫構建出一個學生基本特征數(shù)據(jù)倉庫,再在此數(shù)據(jù)倉庫的基礎上,利用多種數(shù)據(jù)挖掘算法進行挖掘從而形成學生個性化數(shù)據(jù)挖掘庫。
數(shù)據(jù)預處理
本階段首要找準挖掘數(shù)據(jù)源,本文遴選出系統(tǒng)服務器中的日志文件和系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)作為數(shù)據(jù)源。抽取數(shù)據(jù)源數(shù)據(jù)形成挖掘庫,即學生特征數(shù)據(jù)倉庫。
服務器訪問日志的預處理
學生從登錄到系統(tǒng)服務器開始,便在此服務器上留下相應的日志文件。它包括登錄學生的IP、URL、Cookie等信息。首先抽取網(wǎng)絡日志中的信息,再清洗數(shù)據(jù)缺值等臟數(shù)據(jù),最后識別學生的IP及登錄Cookie值,合并同一個學生的訪問路徑請求,將時間跨度大的URL進行相應的區(qū)分和記錄。
構建數(shù)據(jù)挖掘庫
匹配系統(tǒng)數(shù)據(jù)庫預處理后的數(shù)據(jù)和服務器訪問日志預處理得到的數(shù)據(jù),構建出數(shù)據(jù)挖掘庫,即學生特征數(shù)據(jù)倉庫(學習者標識、個人信息、學業(yè)信息、偏好信息等)。
數(shù)據(jù)挖掘
綜合考慮不同數(shù)據(jù)挖掘算法有不同的特點和弊端以及前文所述的個性化學習的要求,在選擇數(shù)據(jù)挖掘算法時,本文選取了序列模式、聚類、關聯(lián)規(guī)則發(fā)現(xiàn)等不同算法,并將其有機結合。為了精確匹配當前學生特征模式與規(guī)則前項,力爭較高的推薦準確率,采取了基于關聯(lián)規(guī)則的挖掘方式進行學習頁面推薦;為了得到更高的推薦覆蓋率,采用基于聚類分析進行推薦。綜合了兩種數(shù)據(jù)挖掘算法的優(yōu)勢,從而改善了推薦的測度。本文將學生特征數(shù)據(jù)倉庫中的數(shù)據(jù)傳送到數(shù)據(jù)挖掘核心模塊來進行數(shù)據(jù)挖掘,得到的數(shù)據(jù)再存放到學生個性化數(shù)據(jù)倉庫來完成整個數(shù)據(jù)挖掘的全過程。
關聯(lián)規(guī)則發(fā)現(xiàn)
關聯(lián)規(guī)則發(fā)現(xiàn),即尋找數(shù)據(jù)項之間的聯(lián)系規(guī)則。在服務器訪問日志數(shù)據(jù)的預處理過程中,將學生訪問的頁面路徑組成了學生訪問session集,我們可以利用關聯(lián)規(guī)則挖掘得到學生訪問請求間的關聯(lián)規(guī)則。其中比較簡單的一種規(guī)則為:訪問了A頁面的學習者中,有60%又訪問過B頁面。得到這種初始化關聯(lián)規(guī)則后,再通過用戶訪問頁面與知識點的一一映射關系,我們就可以推理出更加實用的規(guī)則模式,即確定在學習過A知識點的學習者中有60%的人對B知識點表現(xiàn)出一定興趣。得到這種有用規(guī)則后我們即可對所有訪問A頁面的學習者的頁面上加上B頁面的推薦鏈接,方便學習者導航。
聚類
聚類,即將數(shù)據(jù)劃分到不同的類中,類間的差別盡可能的大,類內(nèi)的差別盡可能的小,聚類分析實現(xiàn)并不知曉將要劃分成幾個類,而是利用系統(tǒng)服務器自動化、智能化的計算而得。產(chǎn)生出不同的類后,某學生的特征模式一旦符合某個類后,系統(tǒng)推薦引擎會自動將此學生未來可能訪問的頁面鏈接推薦給學生。由此就可以智能化地將處在不同學習階段的學生匹配到此類本該獲得的學習和考核進程。
序列模式
與關聯(lián)規(guī)則發(fā)現(xiàn)相仿,序列模式是將數(shù)據(jù)間的關聯(lián)性與時間相聯(lián)系。在實際挖掘過程中,我們可以得到下列序列模式:在學習過B和C兩個知識點的學生中有81%的學生在若干天后進行A知識的學習,并且在此過程中大量地頻繁訪問A2、A5、A7、B2等知識,而且對這些知識點的掌握情況開始下滑。因此我們可以及時干預在此時間段所有學習過C、B知識點的學生,將一定量的練習和測試推薦給他們,幫其熟練掌握上述知識,從而達到因時施教的目的。
作為一種新的教學手段——基于Web的網(wǎng)絡教育,當前正方興未艾。本文旨在通過計算機數(shù)據(jù)挖掘技術構建出一個智能化的基于網(wǎng)絡的個性化學系統(tǒng),以此來輔助完成對不同學生的個性化教學。從而充分發(fā)揮網(wǎng)絡教育的優(yōu)勢。
參考文獻:
[1]W.H.Inmon 《Building the Data Warehouse》 John Wiley & Sons,Inc. 1996
Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術公選課面向全校各年級各專業(yè)本科生開課,因此選修本課程的學生來源較復雜,其計算機基礎參差不齊。過往統(tǒng)一步調(diào)的授課模式滿足不了不同層次學生的需求,所以從2011年開始,本門課程實施教學改革,以多媒體技術在線學習平臺為基礎,結合課堂授課開展個性化教學,把多媒體技術包含的四大媒體技術課程:圖像處理、音頻處理、視頻處理和動畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學生根據(jù)自己的情況選聽選學。每門媒體技術不同難易度的學習資料都放在學習平臺里,學生可以自由選擇學習資源,并通過網(wǎng)絡或課堂與同學和老師進行學習交流。考核方式為每一門課程最后一次講座講完后在學習平臺上進行隨堂考試,要求每位學生至少選考其中三門。本門課程期末考試也在學習平臺上進行,要求全體學生都必須參加。本教改實施五年來,學生反應良好,同時多媒體技術學習平臺網(wǎng)站上存在著大量學生成績和教師教學及管理過程中的相關數(shù)據(jù),那么這些數(shù)據(jù)之間存在著怎樣的聯(lián)系,是否蘊藏著教與學之間的知識和規(guī)律?由于數(shù)據(jù)挖掘技術能夠發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在聯(lián)系和規(guī)則,從而預測未來的發(fā)展趨勢[1],因此我們把該技術引入學習平臺中的信息資源管理系統(tǒng),把大量積累的教學基礎數(shù)據(jù)建立數(shù)據(jù)倉庫[2],在這基礎上運用數(shù)據(jù)挖掘手段從中快速準確地提取出重要的信息和有價值的知識,找出影響學習成績的因素,為進一步改善個性化教學的教學質量提供數(shù)據(jù)支持和決策參考。
1 數(shù)據(jù)倉庫多維數(shù)據(jù)模型的建立
數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型是多維數(shù)據(jù)模型。目前使用的多維數(shù)據(jù)模型主要有星型模型和雪花模型。一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表[3]。雪花模型是對星型模型的擴展,將星型模型的維度表進一步層次化,原來的各維度表被擴展為小的事實表,形成一些局部的層次區(qū)域[3-4]。建立本課程數(shù)據(jù)倉庫時,為了減少數(shù)據(jù)冗余,改善查詢性能我們采用雪花模型結構,如圖1所示。建立以學生選課為中心的選課事實表,三個主維度表“學生表”、“成績表”和“時間表”分別通過“學生鍵”、“成績鍵”和“時間鍵”與事實表直接關聯(lián)。其中,主維度表中的“學生表”和“成績表”都有各自的二級維度表,與事實表間接關聯(lián)[5]。
2 采用Apriori算法的關聯(lián)規(guī)則挖掘
關聯(lián)規(guī)則用于揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關系,即在給定的一個事物數(shù)據(jù)庫D,在基于支持度-置信度框架中,發(fā)現(xiàn)數(shù)據(jù)與項目之間大量有趣的相關聯(lián)系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘算法歸結為下面兩個問題:(1)找到所有支持度大于等于最小支持度(min_sup)的項目集(Item Sets),即頻繁項目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項目集,產(chǎn)生期望的規(guī)則。兩步中,第(2)步是在第(1)步的基礎上進行的,工作量非常小,因此挖掘的重點在步驟(1)上,即查找數(shù)據(jù)庫中的所有頻繁項目集和它的支持度[4]。本課題對多媒體技術課程學習平臺中所有考試成績進行關聯(lián)規(guī)則挖掘,采用Apriori算法查找頻繁項目集。
Apriori算法通過逐層迭代來找出所有的頻繁項目集L。用戶需要輸入事物數(shù)據(jù)庫D和最小支持度閥值min_sup。實現(xiàn)過程為:
1)單次掃描數(shù)據(jù)庫D計算出各個1項集的支持度,得到頻繁1項集構成的集合L1。
2)連接:為了產(chǎn)生頻繁K項集構成的集合,通過連接運算預先生成一個潛在頻繁k項集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項集必定不是頻繁k項集的子集”的性質,從Ck中刪除掉含有非頻繁子集的那些潛在k項集。
4)再次掃描數(shù)據(jù)庫D,計算Ck中各個項集的支持度。
5)剔除Ck中不滿足最小支持度的項集,得到由頻繁k項集構成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項集L后,1)對于L中的每一個頻繁項目集l,產(chǎn)生l的所有非空子集。2)對于l的每一個非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規(guī)則:SL-S[4]。
本課題對近五年選修多媒體技術的學生所有成績數(shù)據(jù)進行清洗,填補空缺值,去噪,類型轉換,集成等處理后放入數(shù)據(jù)倉庫中,系統(tǒng)采用Apriori算法找出所有的頻繁項集。為了便于進行關聯(lián)規(guī)則的挖掘,對成績數(shù)據(jù)進行離散化處理,轉變成標稱型變量[5]。成績score(簡化為“s”)在85-100區(qū)間的表示“優(yōu)秀”,標記為“1”,在70-84區(qū)間的表示“中等”,標記為“2”,在60-70區(qū)間的表示“合格”,標記為“3”。多媒體技術每門媒體技術課程:圖像處理、音頻處理、視頻處理、動畫制作和最后的期末考試分別用A、B、C、D、E表示。學生的學號用StudentID表示,那么每個學生選修的N門課和最后期末考試的成績可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學號為2011204543021的學生,選修了圖像處理,音頻處理和動畫制作這三門媒體技術,其中圖像處理成績?yōu)楹细?,音頻處理成績?yōu)閮?yōu)秀,動畫制作成績?yōu)楹细瘢谀┛荚嚦煽優(yōu)楹细?,該名學生沒有選修視頻處理,故沒有這門科目的成績。
設定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統(tǒng)采用Apriori算法進行數(shù)據(jù)挖掘,得到滿足最小置信度閥值的規(guī)則和相應的置信度如表1。
挖掘結果分析:表1的關聯(lián)規(guī)則體現(xiàn)學生選修的媒體技術課程種類、科目數(shù)量與期末考試成績之間的相互關系??梢钥吹狡谀┛荚嚦煽儗儆谥械龋‥2)或合格(E3)級別的,學生全選四門媒體技術比只選學三門的置信度高,即選課數(shù)量多的較容易及格或獲得中等的期末成績。另外,在選課種類方面,選B這門課,即選音頻處理的學生比較多,是一個概率比較高的事件,可能這門課內(nèi)容比較少和易掌握,因此選學選考的學生就多。但這門課的成績對期末考試成績影響不明顯,說明教師這門課出的考題區(qū)分度低,沒能反映出學生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動畫制作)這幾門課并獲得優(yōu)秀成績(A1,C1,D1)的很少,即小概率事件被過濾掉了,沒能挖掘出它們與期末成績之間的關聯(lián)性。但這幾門課程成績中等或合格與期末成績存在內(nèi)在關系,也就是說如果這幾門課成績都是中等的,期末考試成績大部分都為中等,一小部分可以達到優(yōu)秀。如果這幾門課成績都是合格,期末考試成績就是合格。說明這幾門課程的考題比較真實反映出學生掌握技能的實際水平,致使期末綜合性的考試成績與學生平時掌握程度相符合。這也意味著個性化教學具有一定的成效。
本課題對近五年的學生多媒體技術每科成績與期末成績進行聚類分析,把學生劃分到若干不同的類中,分析各個類的特征,從而考察實施個性化教學后的效果。設定85分,75分和65分為三個初始的聚類中心,對學生的所有成績進行聚類分析,找出同一類別學生的學號,以此為索引,查找到該類中各個學生的專業(yè)與年級,繪制出餅狀圖,再繪制出該類學生所選各門媒體技術的平均分柱狀圖,通過這幾個圖表考察不同專業(yè)不同年級學生在本門課程優(yōu)秀中等合格若干成績區(qū)間的分布情況,從而檢查實施個性化教學的效果,為今后的改進方案提供參考。例如調(diào)整后得到的最終聚類中心為82分的學生,各門媒體技術的平均分和專業(yè)、年級分布如圖3~圖5所示。
從上面幾個圖可以看出,成績?yōu)閮?yōu)秀的學生主要來自美術、計算機和電信這幾個專業(yè),大三、大四的學生比較多。分析其中的原因,主要是美術學院很多專業(yè)課需要用二維、三維圖像軟件或視頻軟件進行制作和處理,他們對這門課程已經(jīng)有一定的基礎,所以學起來比較輕松,也容易取得高分。而計算機和電信專業(yè)中高年級的學生學習和使用軟件的能力比較強,因此掌握多媒體技術各個媒體軟件較其他專業(yè)學生快,并且能夠靈活運用,因而較易取得比較優(yōu)異的成績。
最終聚類中心為64分的學生,各門媒體技術的平均分和專業(yè)、年級分布如圖6~圖8所示。
從圖中可以看出,這個類別的學生主要來自文科方向的專業(yè),年級分布差異不大,大四所占百分比稍微比其他三個年級略高,有可能是學生們最后一年為了修滿選修課學分而選了這門課,目的是混個及格拿到學分,因此學習積極性和學習態(tài)度不佳,導致大部分成績徘徊在60來分。還有一種可能性是大四學生畢業(yè)在即,需要寫簡歷找工作,做自我介紹作品等,覺得掌握一些多媒體技術可以作為輔助工具因此選了本門課程??上в行W習時間明顯不如前三年充足,加上文科方向的同學計算機基礎和軟件學習能力較理工類學生薄弱,因此成績不太理想。
關鍵詞:方劑;肺系疾??;數(shù)據(jù)挖掘;化學成分;配伍
中圖分類號:R2-05 文獻標識碼:A 文章編號:1005-5304(2013)01-0028-03
隨著大氣污染、人口老齡化、吸煙等因素,肺系疾?。ê粑到y(tǒng)疾病)的發(fā)病率呈上升之勢,已經(jīng)成為嚴重危害我國人民身體健康重要因素之一[1]。中藥尤其是復方對肺系疾病具有較好療效,古代醫(yī)籍文獻對肺系疾病的治療方劑記載頗多,近年來,有許多學者對這些方劑的有效部位進行研究,以探索其作用的物質基礎。本研究利用數(shù)據(jù)庫及數(shù)據(jù)挖掘技術對古代醫(yī)籍
基金項目:山東省博士后創(chuàng)新項目專項資金(201102036)
文獻所記載治療肺系疾病的方劑進行了分析和數(shù)據(jù)挖掘研究,探索方劑組成中藥物化學成分類別的構成情況及可能的配伍關系,以期為治療肺系疾病方劑的臨床應用、物質基礎研究與組分配伍研究提供參考。
1 資料與方法
1.1 處方來源、篩選標準與標準化處理
本研究以《中醫(yī)方劑大辭典精選本》[2]作為方劑基本信息來源。參考《中華醫(yī)典》[3]、《方劑學》[4]。
本研究所篩選方劑滿足以下要求:①《中醫(yī)方劑大辭典精選本》所列治療肺系疾病的方劑(以下簡稱“肺系方劑”);②有針對肺系病證功效的描述,如“清肺”、“潤肺”、“溫肺”、“斂肺”、“補肺”、“瀉肺”等,或“止咳”、“平喘”、“定喘”、“化痰”等;③方劑主治病證中含有“肺痿”、“肺癰”、“肺脹”、“肺癆”、“咳嗽”、“哮喘”等;④藥味≤6味;同時,要求方劑包含的信息較完整,方名、組成、功效、主治各項齊備,有較系統(tǒng)的化學成分研究。所有中藥名以《中華人民共和國藥典》[5]與《中華本草》[6]記載的正名(即目錄名稱)為準。
化學成分類別構成的文獻資料來源于中國期刊全文數(shù)據(jù)庫、中文科技期刊數(shù)據(jù)庫以及美國化學文摘(CA)數(shù)據(jù)庫,分別以中藥的中文名、英文名、拉丁名進行化學成分的資料檢索。
1.2 數(shù)據(jù)分析方法
1.2.1 頻數(shù)及頻繁項集 ①進行處方中中藥數(shù)據(jù)信息的頻數(shù)與頻率分析。數(shù)據(jù)的頻數(shù)分析是一種描述性統(tǒng)計分析[7],包含頻數(shù)與累計頻數(shù)兩個參數(shù),其中累計頻數(shù)是依次累計得到的各組頻數(shù)之和。本研究通過頻數(shù)分析挖掘處方組成藥物的化學成分類別構成情況,其中方劑化合物類別頻數(shù)是組成藥物中含某類化合物的方劑出現(xiàn)的次數(shù),在本研究中累計頻數(shù)采用向下累計頻數(shù),即由頻數(shù)值高的組向頻數(shù)值低的組依次累計頻數(shù),主要反映組成中藥含某幾類化合物方劑的頻數(shù)和在總體頻數(shù)中所占的比例。②進行頻繁項集分析。頻繁項集是數(shù)據(jù)挖掘技術中的一種常用方法,指的是支持度大于或等于用戶指定的最小支持度閾值的項集[8]。在本研究中,項集是指處方方劑組成中藥化合物類別的集合。通過頻繁項集挖掘分析處方中含2類及2類以上化合物類別組成方劑的集合。
1.2.2 關聯(lián)分析方法 采用關聯(lián)規(guī)則[9-10]挖掘方劑中不同類別化學成分之間的關聯(lián)關系,即發(fā)現(xiàn)處方中組成中藥所含化學成分類別之間出現(xiàn)的關聯(lián)關系強弱。其中支持度是組成中藥中含某類化學成分的方劑及其集合(前項)與其他組成中藥中含某類化學成分的方劑及其集合(后項)同時出現(xiàn)的頻率,亦即前項與后項同時出現(xiàn)的方劑數(shù)與總的方劑數(shù)的比值。置信度是前項出現(xiàn)時,后項中藥出現(xiàn)的概率,亦即前項與后項同時出現(xiàn)的方劑數(shù)與只有前項出現(xiàn)的方劑數(shù)的比值。
2 結果
2.1 化合物類別構成分析
按照篩選標準,共篩選了100首方劑,各類二次代謝產(chǎn)物在肺系方劑中出現(xiàn)的頻數(shù)情況見表1。通過頻繁項集挖掘,兩類化合物在一首方劑的組成藥物中同時出現(xiàn)的情況分析見表2。
從表1可以看出,100首肺系方劑中有96首組成藥物中含萜類化合物,95首組成藥物含甾體化合物,94首含生物堿,最少的是醌類化合物,只有13首。從表2可以看出,生物堿與甾體的組合在肺系方劑中出現(xiàn)的頻數(shù)最多,其次是萜類與甾體、生物堿與萜類。
2.2 化合物類別關聯(lián)分析
采用關聯(lián)規(guī)則挖掘方法,挖掘各化合物類別間的相關性,結果見表3、表4(支持度≥80%,置信度≥80%)。
上述結果顯示,在肺系方劑中,生物堿類化合物與甾體類化合物、黃酮與萜類化合物關聯(lián)關系非常強。黃酮、生物堿組合等大部分2類化合物組合與萜類或甾體類化合物關聯(lián)關系強。說明生物堿類化合物與甾體類化合物、黃酮與萜類化合物在肺系方劑組成藥物化學成分類別的構成及配伍當中具有比較重要的意義。
3 討論
中藥方劑化學成分的研究是中藥現(xiàn)代研究的一個主要方面。對“復方丹參方”的研究,通過采用藥理與化學相結合的方法,不但明確了方劑中有效成分的配伍規(guī)律,確定了丹參主要水溶性成分丹酚酸B和脂溶性成分丹參酮ⅡA的最佳配伍比例范圍,為現(xiàn)代中藥方劑的研究開創(chuàng)了一條新的思路[11]。本研究通過對100首治療肺系疾病的傳統(tǒng)方劑中藥物化學成分類別關聯(lián)關系的研究,發(fā)現(xiàn)萜類、生物堿、甾體類化合物出現(xiàn)頻數(shù)最高,生物堿類化合物與甾體類化合物、黃酮與萜類化合物關聯(lián)關系非常強。黃酮、生物堿組合等大部分2類化合物組合與萜類或甾體類化合物關聯(lián)關系強。
萜類化合物是天然物質中最多的一類化合物,如揮發(fā)油、橡膠、樹脂及胡蘿卜素等。目前發(fā)現(xiàn)的在萜類化合物已超過22 000種[12],而且許多具有較強生理或生物活性的物質被應用于臨床,如穿心蓮內(nèi)酯、甘草酸、龍腦、齊墩果酸等。萜類化合物在中藥中分布極為廣泛,藻類、菌類、地衣類、苔蘚類、蕨類、裸子植物及被子植物中均有萜類的存在,尤其在裸子植物及被子植物中萜類化合物分布得更為普遍[13]。萜類化合物種類繁多,結構復雜,性質各異,因而具有多方面的生物活性,其中不少化合物是常見的一些中藥中的有效成分,具有較為重要的生物活性[12]?,F(xiàn)代藥理研究表明,萜類化合物對肺系疾病具有明顯的藥效作用。Shin CY等[14]對桔梗三萜類化合物的祛痰活性研究表明,桔梗皂苷D和D3通過霧化給藥,能增加大鼠上皮細胞中黏液素的釋放,而且比陽性對照藥品ATP和Ambroxole的作用更強;繆氏等[15]發(fā)現(xiàn)艾葉提取物α-萜品烯醇對哮喘小鼠氣道炎癥及外周血Th1/Th2平衡具有積極影響;唐氏等[16]發(fā)現(xiàn)單萜類化合物具有良好氣管擴張和抗變態(tài)反應作用;李氏等[17]發(fā)現(xiàn)土貝母苷甲對肺部腫瘤細胞的細胞毒作用大于其他部位的腫瘤細胞。
生物堿類化合物同樣是肺經(jīng)中藥中一類重要的化合物。如
麻黃中麻黃堿具有松弛支氣管平滑肌、收縮血管和升高血壓等作用,臨床主要用于支氣管哮喘、過敏性反應、鼻黏膜腫脹及低血壓等病癥的治療;山豆根中氧化苦參堿可顯著減輕哮喘小鼠血管、氣道周圍炎性細胞浸潤,改善黏膜上皮壞死脫落情況,消除哮喘的主要病理基礎,起到抗炎、平喘的作用[18]。
從現(xiàn)代藥理研究的報道來看,萜類化合物、生物堿類化合物與肺系方劑治療肺系疾病的作用是有一定關聯(lián)作用的,但是萜類化合物、生物堿類化合物與黃酮類化合物之間的配伍組合能產(chǎn)生何種有益效應,對治療肺系疾病能產(chǎn)生何種作用,是否具有特異性,有待今后的研究進一步證實。
參考文獻:
[1] 韓世偉.《內(nèi)經(jīng)》肺系相關理論及吉林、遼寧兩省部分地區(qū)肺系疾病發(fā)病節(jié)律的流行病學調(diào)查研究[D].長春:長春中醫(yī)藥大學,2009.
[2] 彭懷仁.中醫(yī)方劑大辭典精選本[M].北京:人民衛(wèi)生出版社,1997.
[3] 長沙市宏宇科技開發(fā)有限公司.中華醫(yī)典[CD].長沙:湖南電子音像出版社,2008.
[4] 段富津.方劑學[M].上海:上??茖W技術出版社,1994.
[5] 國家藥典委員會.中華人民共和國藥典:一部[S].北京:中國醫(yī)藥科技出版社,2010.
[6] 國家中醫(yī)藥管理局《中華本草》編委會.中華本草[M].上海:上??茖W技術出版社,1999.
[7] Han JW, Kambe M. Data mining:concepts and techniques[M]. San Mateo,CA:Morgan Kaufmann Publishers,2000:70-79.
[8] 榮秋生,顏君彪.網(wǎng)格下最大頻繁項集挖掘算法的實現(xiàn)[J].計算機技術與發(fā)展,2007,17(1):98-100.
[9] Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases[C]∥Proceedings of the 1993 ACM SIGMOD Conference. Washington DC,1993:207-216.
[10] Agrawal R, Srikant R. Fast algorithm for mining association rules[C]∥Proceedings of the 20th Very Large Data Bases (VLDB'94) Conference.Santiago,Chile,1994:487-499.
[11] 嚴永清.中藥現(xiàn)代研究的思路與方法[M].北京:化學工業(yè)出版社, 2006.
[12] 李端.中藥化學[M].北京:人民衛(wèi)生出版社,2005.
[13] 姚新生.天然藥物化學[M].4版.北京:人民衛(wèi)生出版社,2001.
[14] Shin CY, Lee WJ, Lee EB. Platycodin D and D3 increase airway mucin release in vivo and in vitro in rats and hamsters[J]. Planta Med,2002,68(3):221-225.
[15] 繆衛(wèi)群.艾葉提取物α-萜品烯醇對哮喘小鼠氣道炎癥及外周血Th1Th2平衡的影響[D].杭州:浙江大學,2005.
[16] 唐法娣,王硯,謝強敏,等.單萜類的氣管擴張和抗變態(tài)反應作用[J].中藥藥理與臨床,1999,15(6):8-10.
[17] 李彤暉,李曄,池群.土貝母苷甲靶向制劑的研究[J].陜西中醫(yī),2004, 25(3):270-271.
關鍵詞:數(shù)據(jù)挖掘;教師培訓;教師專業(yè)發(fā)展
中圖分類號:TP391文獻標識碼:A文章編號:16727800(2012)007011302
作者簡介:徐海霞(1980-),女,寧夏銀川人,西北師范大學教育技術與傳播學院碩士研究生,研究方向教學設計;寇藝儒(1966-),男,寧夏銀川人,寧夏銀川一中高級教師,研究方向為物理學教育理論。
隨著教育的不斷發(fā)展,教師培訓已成為促進教師專業(yè)發(fā)展的一種有效途徑。而培訓過程中會積聚各種資源,培訓結束后也會有大量的數(shù)據(jù)需要處理。本文利用數(shù)據(jù)挖掘技術發(fā)現(xiàn)、捕獲和挖掘有效的信息資源,使分布、異構信息的智能聚合問題得到有效解決,使網(wǎng)絡平臺上豐富的信息資源得到有效利用與深度共享,以幫助培訓者更有效地制定培訓規(guī)劃與培訓策略,從而提高培訓效果。
1數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining,簡稱DM)被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases,簡稱KDD)。有一種比較公認的定義是:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。簡單地說,就是從大量數(shù)據(jù)中提取或“挖掘”知識。
這些知識是隱含的、事先未知的潛在的有用信息,提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。數(shù)據(jù)挖掘要處理的問題,就是從龐大的數(shù)據(jù)庫中尋找出有價值的隱藏事件,并加以分析,將這些有意義的信息歸納成結構模式,供有關部門決策時參考。此外,數(shù)據(jù)挖掘看重的是數(shù)據(jù)庫的再分析,包括模式的構建或是資料特征的判定,其主要目的是要從數(shù)據(jù)庫中發(fā)現(xiàn)先前未曾獲悉的有價值的信息。
2數(shù)據(jù)挖掘技術的選取
為進一步加強教師培訓,全面提高教師隊伍素質,在聯(lián)合國兒童基金會(UNICEF)的資助下,中央電教館組織實施了基于交互式電視培訓課程的“災區(qū)教師培訓”項目,加快了教師繼續(xù)教育學習與終身學習的步伐,基本上每位教師都參與了不同程度、不同學科的培訓學習。應用數(shù)據(jù)挖掘技術將培訓對象、學習內(nèi)容、模塊設計、作業(yè)、發(fā)帖量、培訓反思等數(shù)據(jù)生成數(shù)據(jù)庫,通過對這些網(wǎng)絡平臺上的數(shù)據(jù)信息進行分析,可以得到關于培訓現(xiàn)狀與效果的一些數(shù)據(jù)信息,用以改進培訓過程中存在的不足。更重要的是,通過對這些數(shù)據(jù)特征的理解與分析,可以開展有針對性的培訓預測。本文利用數(shù)據(jù)挖掘技術來挖掘網(wǎng)絡平臺上的數(shù)據(jù)資源,以此來達到資源深度共享,也為提高教師培訓網(wǎng)絡平臺系統(tǒng)的完整性、協(xié)調(diào)性和高效性。
3數(shù)據(jù)挖掘在教師培訓系統(tǒng)中的應用
在聯(lián)合國兒童基金會(UNICEF)的資助下,中央電教館組織實施了基于交互式電視培訓課程的“災區(qū)教師培訓”項目。該項目是為提高四川、甘肅地震受災地區(qū)的小學教育質量,使四川省北川縣、青川縣、什邡市、綿竹市及甘肅省西和縣這5個縣級地區(qū)的200所學校的5 000名教師和100 000 名8~12歲的小學生從高質量的教育中受益。并在教育部國家教師培訓網(wǎng)站(省略.cn)上建立網(wǎng)絡學習模塊,實施網(wǎng)絡學習遠程指導。本文就數(shù)據(jù)挖掘技術應用于教師培訓系統(tǒng)中的培訓對象、培訓內(nèi)容設置、培訓效果評價等幾個方面進行具體分析。
3.1培訓對象方面
該項目的培訓對象被分成兩部分:一部分為資源教師,另一部分為學科教師。資源教師在災區(qū)教師培訓中也被稱為骨干教師,由各學校的校長、語文、數(shù)學、科學等主要學科帶頭人組成。資源教師在接受培訓后,將負責組織和實施各自學校的校本培訓,因而在本校的校本培訓過程中是核心人物,他們所擔任的角色較多,主要是為學科教師集中授課,提供網(wǎng)絡指導,并組織、管理校本培訓,與網(wǎng)絡遠程指導團隊溝通協(xié)調(diào)。所以在“災區(qū)教師培訓”項目中,我們將資源教師作為一種寶貴的資源納入教師培訓發(fā)展的關鍵環(huán)節(jié)。利用數(shù)據(jù)挖掘技術,整理數(shù)據(jù)信息庫,充分利用資源教師和學科教師在項目培訓過程中的所有信息(包括姓名、性別、年齡、職務、教齡、學科、職稱等)和過程性資料(在項目培訓過程中資源教師的作業(yè)提交情況、網(wǎng)絡平臺注冊情況、發(fā)帖情況、回帖情況、學習成績等),在分析資源教師和學科教師特征的基礎上進行信息處理和數(shù)據(jù)分析,從中挖掘出有價值的資源信息和培訓信息。我們在數(shù)據(jù)庫的屬性中羅列出培訓對象的所有基本信息,并利用數(shù)據(jù)挖掘得到了一些意想不到的數(shù)據(jù)信息,如資源教師的教齡與發(fā)帖情況有著正向聯(lián)系,資源教師與學科教師的職務與網(wǎng)絡課程學習有著密不可分的關聯(lián)。通過數(shù)據(jù)挖掘,利用足夠的信息迭代,修正種種問題,尤其是對資源教師和學科教師的行為、需求及其在校本培訓過程中的指導研究,可為教師培訓提供科學的決策依據(jù),以此提升教師培訓的效果。
3.2培訓內(nèi)容設置方面
隨著高校辦學規(guī)模的不斷擴大以及學校專業(yè)的不斷增多,使得學校的教育管理工作變得越來越復雜化,越來越難管理,特別是針對學生成績信息的管理,由于學生的倍增,成績的管理與維護工作更是艱難。做好成績管理工作,對學校的發(fā)展有特定的實際意義,也是各個學校最為關心并且要迫切解決的重要問題,所以隨著學校對成績信息資源利用要求的提高,原本的成績管理模式已經(jīng)不能再滿足學校的實際應用需求,只有設計更為有用的,能夠挖掘出學生成績價值信息中隱藏的價值,才是最符合學校應用的應用系統(tǒng)。
二、學生成績管理的作用
在高等學校的發(fā)展過程中,教學質量一直都是各個高校最為關注的重點問題,而學生的成績是各個學校教學質量優(yōu)劣的一個最重要的體現(xiàn),因此,如何促進學校全體學生更好的提升學習成績,關系到學校的長遠發(fā)展計劃,而對學生的成績管理分析工作,是一個系統(tǒng)化的工作,所以通過對學生成績的綜合分析,明確學生在學習過程中的不足,有針對性地為學生解決學習上的困難,提升學生的整體綜合素質與學習成績,不管是對學校還是生活個人都擁有非常重要的積極促進作用。
三、數(shù)據(jù)挖掘技術成績管理分析
數(shù)據(jù)挖掘技術在成績管理中的應用,主要體現(xiàn)在學生成績分析、考試題目優(yōu)化、教學評價、教學方式選擇以及課程的合理設置等幾個方面。
1、學生成績分析
學生的主要任務就是學習,學習成績也是學生在校期間表現(xiàn)優(yōu)劣與否的最直觀的體現(xiàn),也是學生在校期間所學知識掌握程度的最直觀的表現(xiàn)方式,所以對學生提供一個全面客觀的評價,是學校應該擁有的責任,也是對學生最好的關愛表現(xiàn)方式,然而在學校的成績管理工作進行時,通常的做法只是簡單的把學生的考試成績錄入到學校的系統(tǒng)軟件,而通過數(shù)據(jù)挖掘技術對學生成績進行分析之后,可以充分的找出學生成績優(yōu)劣與否與學生自身、與學校環(huán)境以及教師的教學質量之間的關系,進而為更客觀的評價學生成績的高低是學生自身原因造成的還是與學校有直接的關聯(lián),為進一步的更好的學習計劃的制訂提供了理論依據(jù)。
2、考試題目優(yōu)化
考試的目的是為了更好的檢驗教師的教學效果以及學生的學習成果,是教學過程中一個重要的階段。學校在教學時,通常是以期末考試成績?yōu)樵u價學生的學期成績的一個重要標準,然而在不同的考試教學下,學生的考試成績是不相同的,如果僅僅以成績評定一個教師或者學生是不客觀的,為了更好的評定教學效果及學生學習的成果就要發(fā)掘學生成績高低相關的影響,是試題較難還是教師教學方式的問題,因此就需要對這些因素進行分析,以探索更為有效的方法來評價試題的難易與成績的關系,進而為下次試卷的出題提供幫助。
3、教學評價
評定學生對新接觸事物理解及掌握程度是教育工作者的一個重要職責,通過對學生學習成績的評定,可以觸發(fā)學生的學習動力,也是考查學生真實水平的一種比較有效的方式。在學生成績評價時,教師也要注意評價內(nèi)容要客觀全面、評價方式多樣并注重自評與互評的結果,獲取成績評價數(shù)據(jù)才是最可靠有效的。針對學校不同學生的不同成績評價數(shù)據(jù),可以利用數(shù)據(jù)挖掘工具,對這些數(shù)據(jù)進行挖掘分析,通過工具獲取不同學生最終的成績結果,進而可以更客觀的排除人為因素對學生評價的影響,也可以對學生的不足及時給予及時指正改正,不但減輕了教師的工作量還克服了教師主觀評價給學生造成的不利影響,為更好的營造學習氛圍以及學生之間的關系提升提供了很大幫助。
4、教學方法選擇
不同的教師在教授課程時因為人員之間的差異,使用的教學方式也互不相同,也因此導致了學生考試成績可能也互不相同,為了消除因教師教學方式差異給學生成績造成的危害,就需要對不同教師教學模式下學生的成績信息進行分析,以選擇更優(yōu)的教學方式實現(xiàn)對學生的教學,學生成績數(shù)據(jù)挖掘技術的應用正好可以滿足這一要求,通過對不同教學方式下學生成績差異的研究,可以協(xié)助教育工作者更好的判別采取何種教學方式對學生學習才更有幫助,進而提高學生的整體學習水平。
5、課程合理設置
許多課程之間往往還存在著一定的關聯(lián)關系,擁有固定的先后順序,只有把前修課程學習完成之后才可以繼續(xù)接下來的課程學習,否則會直接影響后續(xù)課程的理解與接受,影響學生的正常學習;在高等學校,通過對成績數(shù)據(jù)價值信息的挖掘,可以利用學校成績數(shù)據(jù)庫中存放的歷屆學生各科考試成績信息結合數(shù)據(jù)挖掘的相關技術進行分析,并通過相關的數(shù)據(jù)挖掘算法分析這些數(shù)據(jù)信息中隱藏的潛在的影響學生學習的價值信息,最終找出影響學生考試成績的原因,并根據(jù)這些原因制訂出相應合理的課程安排計劃,為學生更好的學生服。
6、學生特征挖掘
通過成績與環(huán)境因素的影響數(shù)據(jù)挖掘的研究,教師可以很好的掌握每個學生的學習狀況,學生個人特征,并根據(jù)學生之間的不同差異,因材施教,最終把學生往更好的學習發(fā)展方向引導。為了更好的研究這一關系,可以利用數(shù)據(jù)挖掘工具,對學生學習成績數(shù)據(jù)進行挖掘分析,通過挖掘工具的分析,不但可以獲取不同學生最終的成績結果,而且可以更客觀的排除人為因素對學生評價的影響,最終對學生的不足及時給予及時校正,不但減輕了教師的工作量還克服了教師主觀評價給學生造成的不利影響,為更好的營造學習氛圍以及學生之間的關系提升提供了很大幫助。
關鍵詞:數(shù)據(jù)挖掘 ICAI 智能化 輔助教學
中圖分類號:TP391.6 文獻標識碼:A 文章編號:1007-9416(2012)11-0077-01
1、引言
伴隨著計算機技術、信息技術的飛速發(fā)展,各行各業(yè)逐步進入了信息化的發(fā)展時期,而高校教育事業(yè)也不例外。由于社會經(jīng)濟、文化的高速發(fā)展,人們對教育質量的追求日益高漲,而傳統(tǒng)的教學手段和模式已經(jīng)無法適應這種快速增長的需求,教學環(huán)節(jié)逐步和信息化技術相結合,比如計算機輔助教學系統(tǒng)。然而,傳統(tǒng)的計算機輔助教學系統(tǒng)依舊存在多種弊端,比如個性化、智能化性能不足。而隨著數(shù)據(jù)挖掘技術、人工智能技術的快速崛起,人們將數(shù)據(jù)挖掘技術應用到ICAI中,實現(xiàn)了個性化、智能化的應用,大大提高了ICAI的性能和效率。
2、智能計算機輔助教學系統(tǒng)
2.1 概念及意義
智能計算機輔助教學系統(tǒng)ICAI主要依托豐富的教學資源,為學生提供不同層次的學習服務,為教師提供教學工作的管理平臺。學生可以根據(jù)需要制定學習計劃,然后進行有針對性的學習,教師可以對學生進行輔導工作,學生還可以根據(jù)學習進度和效果進行調(diào)整。ICAI不同于以往的計算機輔助教學系統(tǒng),它具備更多個性化、智能化的功能。
2.2 系統(tǒng)結構
ICAI系統(tǒng)通常主要包括四大功能模塊:知識庫、教師管理模塊、學生學習模塊、智能管理接口。
3、數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘簡單理解為“數(shù)據(jù)庫中的發(fā)現(xiàn)”,主要是從海量的數(shù)據(jù)中提取、分析、挖掘有用的知識信息,通過發(fā)現(xiàn)可用的模式,來發(fā)覺可用的內(nèi)涵信息,用于提供未來發(fā)展趨勢的決策信息。數(shù)據(jù)挖掘的分析方法主要包括四種:分類分析法、預測、關聯(lián)規(guī)則、聚集分析法。
4、數(shù)據(jù)挖掘應用于CAI
4.1 數(shù)據(jù)挖掘在知識庫中的應用
數(shù)據(jù)挖掘在知識庫中的應用主要表現(xiàn)在下述幾個方面:形成知識表示、改進教學模式與策略。
(1)形成知識表示。該過程主要將知識庫中的課程信息、技能信息進行分析、拆解、建模,形成一定的知識體系,然后采用人工智能技術將這些知識庫轉換為ICAI系統(tǒng)可識別的表達模式,從而形成知識表示。在此過程中,使用聚類分析法將知識信息歸類,同類的知識間距大,否則間距??;同時確定知識點的類標記,方便查找。需要注意的是,此過程要符合教學規(guī)律的需要,便于為個性化教學、啟發(fā)式教學提供知識信息儲備。接著,通過關聯(lián)規(guī)則建立知識點、題目庫、項目集的關聯(lián)信息。
(2)改進教學模式與策略。對學生信息庫中的數(shù)據(jù)進行樣本訓練,將學生對知識點學習的情況作為分類依據(jù)進行分類,標記每一個學生,并且描述學生的分類特征。根據(jù)這些分類數(shù)據(jù),可以改進教學模式和策略,比如控制學生的學習進度,還可以直接向學生提出學習建議。同時,老師可以通過從學生的聚類分析中發(fā)現(xiàn)規(guī)律,找出學生成績優(yōu)異、認知能力強、學習能力差、學習能力一般等級別的學生,實施個別輔導。
4.2 據(jù)挖掘在教師模塊中的應用
首先使用聚類分析法對學生的學習能力、成績進行分類,方便老師為學生提供個性化輔導,而重點就是如何進行分類。主要使用主成分分析法、聚類分析法對學生的信息進行提取、分析、描述,從而確定學生的能力分類,可以繼續(xù)分解為多個能力屬性的分組,形成若干小類,大類可供參考的信息包括:學生成績信息、考核信息等。對于學生成績來說,小類可能包括:單一科目、綜合成績等;考核信息可能包括:單一科目考核、綜合考核等。綜合課程的重難點特點來分析、歸類學生的學習能力趨勢,據(jù)此建立每類學生和對應學習指導知識庫的關聯(lián)關系。但是考慮到學生的基礎以及課程彼此間的關聯(lián)性,因此對于剛入學的學生成績參考性意義不大,必須要借助成分分析法對學生成績實施預處理,使用其它的分類指標進行分類,更具有科學性;同時,還可以使用樣本訓練中的“馬氏距離”規(guī)則進行聚類分析。最終的目的是形成學生綜合能力的分類,然后建立學生類分組和教學指導知識庫的關聯(lián)關系,方便教師為學生提供個性化輔導。
4.3 據(jù)挖掘在學生模塊中的應用
學生信息的內(nèi)涵較為豐富,包括基礎信息、個人高考成績信息、個人履歷信息、個人喜好信息等,豐富了知識庫信息??梢詫@些信息進行分類,對這些類分組進行關聯(lián)分析,對于綜合考評學生的綜合能力具有指導意義。另外,需要考慮到影響學生學習能力、成績的因素較多,因此需要發(fā)掘潛在的因素并進行歸類。可以使用數(shù)據(jù)挖掘技術中的決策樹算法、關聯(lián)分析法建立影響因素的實例,進行分析,然后形成關聯(lián)模型。比如,個人喜好表示個人對某方面事物、知識的特別偏好,在一定程度上反應了此人對該領域的知識掌握程度,直接影響到學生綜合能力的認定結果。通過對學生進行能力分組以后,然后建立學生類分組和其它知識庫的關聯(lián)關系,從而方便教師對學生進行有效的輔導。
5、結語
ICAI系統(tǒng)在未使用數(shù)據(jù)挖掘技術之前,無法適應學生個性化、智能化學習的需求。但是將數(shù)據(jù)挖掘技術應用到ICAI以后,學生可以進行自主學習的同時,還可以由老師提供個性化的輔導,可以有效提高學生的學習效果,同時還可以優(yōu)化教學模式。ICAI和數(shù)據(jù)挖掘技術的融合是未來高校教學管理信息化的主流發(fā)展趨勢。
參考文獻
[1]賈麗媛,張弛,周翠紅.數(shù)據(jù)挖掘在網(wǎng)絡教學評價中的應用[J].湖南城市學院學報(自然科學版),2011(02).
[2]洪潔,蔣曉川.Apriori算法在學生系統(tǒng)中的實現(xiàn)與應用[J].硅谷,2011(07).
[3]袁燕,李慧.基于數(shù)據(jù)挖掘的教學評價系統(tǒng)研究[J].計算機與現(xiàn)代化.2009(11).
決定經(jīng)濟增長的因素很多,人力資本是其中之一。鑒于人力資本系統(tǒng)構成的復雜性,通過對自組織數(shù)據(jù)挖掘理論與方法的分析,闡述它對人力資本指標體系功能和模型預測功能,并強調(diào),自組織數(shù)據(jù)挖掘理論為有效而準確的人力資本系統(tǒng)復雜性研究提供了有力的理論依據(jù),為人力資本研究提供了新的思路。
關鍵詞:
人力資本系統(tǒng);自組織數(shù)據(jù)挖掘;復雜性
舒爾茨認為,人力資本是指勞動者的勞動能力(通過五個方面投資而獲取)。在《人力資本投資》一書中,舒爾茨將人力資本投資的范圍分為五個方面,即⑴正規(guī)教育;⑵在職培訓;⑶衛(wèi)生保?。虎刃M鈱W習計劃;⑸流動遷移。我國部分學者對人力資本投資估算范圍主要有:侯鳳云對教育、科研、文化、健康、干中學和就業(yè)遷移六種類別分別進行了測算,是根據(jù)中國的實際情況而確定的測算范圍;錢雪亞對人力資本測算范圍,包括教育、在職培訓等類的投資。測算范圍的確定與測算的結果有決定性的關系。對人力資本的測算與衡量,國內(nèi)外學者未考慮到人力資本是復雜系統(tǒng)(人力資本的測算范圍與經(jīng)濟增長之間存在著某種“黑箱”,即對人力資本投資所確定的人力資本存量,并將人力資本存量通過勞動(腦力勞動或者體力勞動)物化在商品當中,這個過程能夠直接推動經(jīng)濟增長,他們(人力資本存量與經(jīng)濟增長)之間存在非線性映射關系。)所以,本文提出一個新的觀點:“自組織數(shù)據(jù)挖掘理論是人力資本系統(tǒng)復雜性研究提供了有力的理論依據(jù),為人力資本研究提供了新的思路”。
一、自組織數(shù)據(jù)挖掘理論與方法的發(fā)展過程
選擇學說是自組織數(shù)據(jù)挖掘理論基礎。是建立在“遺傳-變異-選擇-進化”的進化論原理基礎上的。自組織數(shù)據(jù)挖掘算法是從一個簡單的數(shù)學模型(根據(jù)面板數(shù)據(jù)或者截面數(shù)據(jù)、統(tǒng)計數(shù)據(jù)樣本來建模)集合出發(fā),按一定的法則(根據(jù)自己研究的目的來確定)進行組合,產(chǎn)生了新的中間待選模型(篩選條件),再經(jīng)過中間模型進行篩選(根據(jù)數(shù)據(jù)情況而定),不斷重復“遺傳-變異-選擇-進化”這個過程,使其“中間待選模型”復雜度不斷增加(從簡單到復雜逐步改進,特別是循環(huán)過程的次數(shù)),最后得到最優(yōu)的復雜模型,這個最優(yōu)模型就是與自己研究目的相關的模型。對于人力資本系統(tǒng),其特征是勞動者(衛(wèi)生保健投資維持生命的延續(xù))、自我不斷提高(教育、在職培訓投資)、不斷適應環(huán)境變化(遷移投資),所以人力資本系統(tǒng)屬于自組織系統(tǒng),把人力資本歸于自組織系統(tǒng)是一個創(chuàng)新。所以,利自組織數(shù)據(jù)挖掘理論可以建立人力資本系統(tǒng)最優(yōu)復雜模型。
二、人力資本形成與指標體系建立
本文采用侯鳳云六種類別。所以,本文將人力資本投資內(nèi)容(范圍)定為教育培訓、醫(yī)療保健、勞動力遷移、經(jīng)驗技能和科研,建立人力資本指標體系:如表1。
三、揭示人力資本指標體系功能
“競爭而產(chǎn)生的優(yōu)勝劣汰”是生物進化過程,自組織數(shù)據(jù)挖掘建立模型過程就是從簡單系統(tǒng)到復雜系統(tǒng)演化過程,本文用賀昌政自組織數(shù)據(jù)挖掘方法,揭示了人力資本存量測算因素的功能,它能夠影響的因素(19個因素)中篩選出對人力資本存量測算重要影響因素,其中外準則起著關鍵作用,外準則就是對人力資本存量測算因素進行篩選條件,篩選條件不能對存量的結果有大的偏差,最后對偏差進行檢驗。偏差越小,評價模型質量較優(yōu)。
在模型構造過程中,消除建模者參與而給計算機選擇自由是自組織數(shù)據(jù)挖掘算法的目的。建模者僅僅要做的是提供樣本數(shù)據(jù)(截面數(shù)據(jù)或者縱貫數(shù)據(jù)),外準則算法類型,只能通過選擇準則的形式來影響建模的結果(選擇最重要的影響因素來確定人力資本存量的結果),然而,建模者對研究對象模型的主觀想象(主觀性)與建模結果無關,從而保證了模型選擇的客觀性。例如人力資本指標體系中勞動力遷移研究。建模者要完成的工作:樣本區(qū)間(1990-2014年)數(shù)據(jù)采集;算法類型:用最小偏差準則;系統(tǒng)輸出Y:勞動力遷移指數(shù);系統(tǒng)輸入(可能的影響因素):x,i=1−5i,共5個變量。
用自組織數(shù)據(jù)挖掘算法,計算機自由選擇篩選出的模型含3個變量:農(nóng)村居民人均純收入,鄉(xiāng)鎮(zhèn)企業(yè)就業(yè)人數(shù),從業(yè)人員占總人口比重。自組織數(shù)挖掘算法通過最優(yōu)復雜度原理能夠對人力資本存量進行預測,是人力資本系統(tǒng)的復雜性研究的另一個重要內(nèi)容,為人力資本存量的測算提供新思路。
參考文獻:
[1]舒爾茨.人力資本投資[M].北京:北京經(jīng)濟學院出版社,1991:9-10.
[2]侯鳳云.中國人力資本投資與城鄉(xiāng)就業(yè)相關性研究[M].上海:上海人民出版社,2007.
[3]錢雪亞,王秋實,劉輝.中國人力資本水平再估算:1995—2005[J].統(tǒng)計研究,2008,(2).
關鍵詞:Web挖掘技術;遠程教育;個性化;服務
中圖分類號:TP39
1 遠程教育個性化學習模式
隨著信息技術的發(fā)展,遠程教育這種新型教育形式應運而生。現(xiàn)代遠程教育通過網(wǎng)絡技術、多媒體技術和現(xiàn)代通信技術等手段將信息技術和現(xiàn)代教育思想有機結合起來,它的開放、自主和資源共享等特點滿足了“人人能學、處處可學”終身學習理念。
隨著終身學習理念的不斷深化,遠程教育適應個性化學習需求越來越高,遠程教育服務平臺在教學設計、平臺架構和資源優(yōu)化上要滿足對學習者實施個性化的遠程學習服務。個性化學習強調(diào)學習的開放性、自主性和靈活性,這是個性化學習的主要特征。同時完成遠程教育在網(wǎng)絡環(huán)境下個性化學習需要網(wǎng)絡技術的支撐,因此,它具有明顯的技術性特征。從數(shù)據(jù)挖掘角度看,Web 挖掘技術是實現(xiàn)Web個性化服務的核心技術之一,建立個性化遠程教育服務平臺時Web 挖掘技術不失為數(shù)據(jù)挖掘技術的一個很好的選擇。
在遠程教育的個性化學習研究中,構建基于網(wǎng)路的個性化學習模式是重點。個性化學習具有開放性、自主性和靈活性特征,而基于網(wǎng)絡的個性化學習還具有明顯的技術性特征。從技術環(huán)境要素下設計個性化的學習模式,優(yōu)化現(xiàn)有遠程教育平臺。主要設計目標有:(1)重構頁面超鏈接。通過分析學生的學習需要,挖掘學生對知識的興趣點,使需求多、訪問量大的網(wǎng)頁能夠以更快捷、更有效的訪問方式展現(xiàn)給學生,并重新優(yōu)化網(wǎng)頁超鏈接。(2)挖掘潛在數(shù)據(jù)關聯(lián)。通過數(shù)據(jù)關聯(lián)之間的重要信息,教師和教育管理者可以修改教學內(nèi)容呈現(xiàn)形式,指導教學設計和修改測試難度系數(shù)等。(3)聚類分析提供導向。為學生動態(tài)提供瀏覽的建議,提供遠程教育個性化服務。
2 Web 挖掘技術
Web挖掘是數(shù)據(jù)挖掘在Web上的應用。Web挖掘內(nèi)容有:提取Web頁面數(shù)據(jù)信息,分析頁面之間的架構,挖掘站點的設計和分析用戶訪問信息等,是一種重要的數(shù)據(jù)挖掘技術。Web挖掘技術過程就是提取抽象的、潛在的和有價值知識的過程。Web結構挖掘、Web內(nèi)容挖掘和Web使用挖掘是Web挖掘技術的三個分類。
2.1 Web內(nèi)容挖掘。從內(nèi)容、數(shù)據(jù)和文檔中發(fā)現(xiàn)有價值的信息的過程稱為Web內(nèi)容挖掘。Web內(nèi)容挖掘的對象紛繁多樣,文本、圖像、音頻和視頻等多媒體數(shù)據(jù)都可成為Web內(nèi)容挖掘的對象。文本數(shù)據(jù)挖掘是Web挖掘中比較重要的技術領域,它主要針對無結構化文本,最近Web多媒體數(shù)據(jù)挖掘成為另一個研究熱點,它涉及網(wǎng)絡、多媒體的技術、數(shù)據(jù)庫以及關于知識的決策等多個領域。
2.2 Web結構挖掘。分析Web組織架構和頁面中的鏈接關系,挖掘隱藏在每個Web頁面后面的鏈接結構模式稱為Web結構挖掘。利用這種模式對網(wǎng)頁進行分門別類、按照同一類型聚合,在此基礎上尋找所需要主題的高訪問量站點和核心頁面,提升搜索引擎的性能。Web結構挖掘對提高頁面采集效率、提升采集可信度方面也發(fā)揮很大指導作用。典型的方法有Page Rank算法和HITS算法。
2.3 Web使用挖掘。Web使用挖掘技術通過用戶訪問 Web 時留下的用戶訪問行為記錄,用戶會話,Cookies Logs,Web server Logs、Browser Logs、用戶注冊、登錄、瀏覽等相關數(shù)據(jù)和用戶在使用時與網(wǎng)站、其他用戶之間的交互信息進行挖掘,了解用戶的網(wǎng)絡行為數(shù)據(jù)所具有的意義。Web使用挖掘有一般的訪問模式挖掘和個性化訪問模式挖掘兩個方向。Web使用挖掘的個性化訪問模式挖掘在遠程教育個性化服務中發(fā)揮重要作用,主要是分析特定使用群體,比如記錄使用者的登錄時長和學習習慣,分析對學習資源的使用頻度,為學生提供個性化教學服務提供有效的依據(jù),提高學生對網(wǎng)站訪問率和教學資源的使用率。
3 基于Web使用挖掘技術的個性化推薦系統(tǒng)
個性化推薦是指以遠程教育中的學生學習需求為中心,通過信息采集和與學生交互,了解學生的學習特點,將其感興趣的信息主動推薦給學生,個性化推薦系統(tǒng)是建立在Web使用挖掘技術上的一種高級智能平臺,信息檢索和智能系統(tǒng)技術集成于個性化推薦系統(tǒng)。
基于Web使用挖掘的個性化推薦系統(tǒng)分為離線準備和在線生成兩部分:(1)離線準備是個性化推薦的準備階段。首先根據(jù)用戶的基礎數(shù)據(jù),分析用戶的使用特性,挖掘用戶的訪問模式,最終得到一個模式庫,包括數(shù)據(jù)預處理和模式提取。數(shù)據(jù)預處理的作用是:清洗并刪除對挖掘無效的數(shù)據(jù),提高數(shù)據(jù)挖掘的精確度,提升數(shù)據(jù)使用效率;模式提取階段的作用是:通過聚類用戶訪問模式和頻度序列訪問模式對用戶進行推薦服務。(2)在線生成是個性化推薦的服務階段。通過目標用戶使用習慣的分析, 生成動態(tài)推薦頁面,為不同的用戶提供個性化服務。典型的推薦系統(tǒng)有優(yōu)化網(wǎng)頁搜索引擎,社會網(wǎng)絡過濾器等。
4.Web 挖掘技術在遠程教育個性化服務中的應用
4.1 Web挖掘流程
Web挖掘技術能對學生訪問信息進行挖掘,在挖掘信息的基礎上建立起一個智能化和個性化的遠程教育平臺, 使不同的求學者在登錄遠程教育平臺時能夠得到個性化的教學服務。就像聘請的“私人教練”,根據(jù)學生特點進行教和學的個性化輔導。數(shù)據(jù)采集、數(shù)據(jù)預處理、模式發(fā)現(xiàn)和模式分析及應用是Web挖掘技術四大流程。(1)數(shù)據(jù)采集。學生登錄遠程學習平臺,為Web數(shù)據(jù)挖掘提供大量有用的信息,如學習的個人信息、瀏覽的課程、訪問的URL、學習的時長、資源類型的點擊率等學習行為都為采集數(shù)據(jù)提供基礎資料。(2)數(shù)據(jù)預處理。濾掉多余的記錄,合并相關數(shù)據(jù)并將不恰當?shù)幕蛉哂嗟臄?shù)據(jù)項從數(shù)據(jù)集里清除,通過會話識別和事務識別,對用戶進行識別,準備進一步的數(shù)據(jù)挖掘。(3)模式發(fā)現(xiàn)。通過關聯(lián)規(guī)則對學生學習行為和學習記錄進行挖掘,發(fā)現(xiàn)學習者興趣并動態(tài)地呈現(xiàn)給學生;根據(jù)分類聚類結果,將學生劃分成不同的類型,提供給遠程教育導學教師,為個性化教學設計和分類教學提供依據(jù)。(4)模式分析及應用。在經(jīng)過模式發(fā)現(xiàn)處理后,生成的規(guī)則依舊數(shù)目龐大,呈現(xiàn)的信息利用率不高。模式分析就顯得尤為重要,通過模式分析,進行技術處理,構建個性特征庫,顯現(xiàn)給學習者的信息易于理解和接受,應用在學習者學習過程中,為學習者提供個性化學習資源和個性化學習指導。
4.2 Web挖掘個性化服務應用
(1)在線學習。遠程教育平臺應用Web數(shù)據(jù)挖掘技術,經(jīng)過學生數(shù)據(jù)信息采集,數(shù)據(jù)信息預處理等流程,應用適合的數(shù)據(jù)挖掘算法處理此數(shù)據(jù)信息,最后生成一種學生容易理解和接受的呈現(xiàn)方式將信息傳遞給學生。構建針對不同學生量身定做的個性化學習計劃和學習方案。(2)實時教學。通過遠程教育教學平臺,全天候二十四小時學習成為可能,Web數(shù)據(jù)挖掘技術實時了解學習者的學習能力和學習偏好,遠程教學導學教師根據(jù)這些信息有的放矢的開展實時教學。(3)智能答疑。在遠程教學平臺上建立智能答疑系統(tǒng),可以根據(jù)學習者的訪問日志文件,運用數(shù)據(jù)挖掘技術,針對學生用戶提問記錄、日志不斷更新,調(diào)整數(shù)據(jù)庫內(nèi)容,智能抽取實現(xiàn)為學生的智能答疑。(4)實時考試。基于Web的遠程在線實時考試系統(tǒng),根據(jù)課程考核目標和考核內(nèi)容要求,結合學習者求學目的和學習背景,提供多種試卷組合,做到難易相當、科學組卷。實時考試系統(tǒng)還能同步打分,實時給出考試成績,根據(jù)學生的答題情況按試題所涉及的知識點進行統(tǒng)計分析,給出試卷評價信息。
參考文獻:
[1]姚夢濤.基于Web日志的數(shù)據(jù)挖掘技術研究[D].西安理工大學,2010.
[2]劉彤.Web 數(shù)據(jù)挖掘技術在個性化遠程教育平臺中的應用[J].科技信息,2008(21).
[3]巫莉莉等.Web 數(shù)據(jù)挖掘在遠程教育個性化中的應用研究[J].微型電腦應用,2010 ,26(2).
[4]聞永萍.基于WEB數(shù)據(jù)挖掘在遠程教育中的應用研究[J].電腦編程技巧與維護,2011.12.