時(shí)間:2022-10-04 17:03:28
緒論:在尋找寫作靈感嗎?愛發(fā)表網(wǎng)為您精選了8篇關(guān)系數(shù)據(jù)庫,愿這些內(nèi)容能夠啟迪您的思維,激發(fā)您的創(chuàng)作熱情,歡迎您的閱讀與分享!
(白城師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,吉林白城137000)
【摘要】關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是作為三種獨(dú)立的信息技術(shù)出現(xiàn)的,是數(shù)據(jù)庫研究、開發(fā)和應(yīng)用最活躍的分支之一,通過對三種技術(shù)的內(nèi)在聯(lián)系性和互補(bǔ)性分析,從而更好的使用數(shù)據(jù)庫技術(shù)處理各種信息需求,建立更加完善的數(shù)據(jù)庫應(yīng)用系統(tǒng)或新的決策系統(tǒng)。
關(guān)鍵詞 關(guān)系數(shù)據(jù)庫;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;關(guān)
0引言
關(guān)系數(shù)據(jù)庫是20世紀(jì)70年代初提出來,經(jīng)過數(shù)據(jù)庫專家?guī)资甑呐?,理論和?shí)踐都取得了顯著成果,標(biāo)志著數(shù)據(jù)庫技術(shù)的日益成熟。但它仍然難以實(shí)現(xiàn)對關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的分析,不能很好地支持決策,因此在80年代,產(chǎn)生了數(shù)據(jù)倉庫的思想,90年代,數(shù)據(jù)倉庫的基本原理、架構(gòu)形式和使用原則都已確定。主要技術(shù)包括對數(shù)據(jù)庫中數(shù)據(jù)訪問、網(wǎng)絡(luò)、C/S結(jié)構(gòu)和圖形界面,一些大公司已經(jīng)開始構(gòu)建數(shù)據(jù)倉庫。針對數(shù)據(jù)倉庫中迅速增長的海量數(shù)據(jù)的收集、存放,用人力已經(jīng)不能解決,那么數(shù)據(jù)倉庫中有用的知識的提取就需要數(shù)據(jù)挖掘來實(shí)現(xiàn)。數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)子領(lǐng)域“試探性數(shù)據(jù)分析”及人工智能子領(lǐng)域“知識發(fā)現(xiàn)”和機(jī)器學(xué)有關(guān),是一門綜合性的技術(shù)學(xué)科。了解關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘三者之間的區(qū)別與聯(lián)系,使之更好的使用這3種技術(shù),處理各種信息需求是非常必要和重要的。
1關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的關(guān)系
1.1關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的聯(lián)系與區(qū)別
關(guān)系數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是一個(gè)面向主題的設(shè)計(jì);關(guān)系數(shù)據(jù)庫存儲在線事務(wù)數(shù)據(jù),數(shù)據(jù)倉庫通常存儲歷史數(shù)據(jù),關(guān)系數(shù)據(jù)庫的設(shè)計(jì)將盡量避免冗余,但數(shù)據(jù)倉庫是傾向于引入冗余;關(guān)系數(shù)據(jù)庫設(shè)計(jì)用于捕獲數(shù)據(jù),數(shù)據(jù)倉庫設(shè)計(jì)用于分析數(shù)據(jù)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫面向以事務(wù)處理為主的系統(tǒng)應(yīng)用,所以它無法滿足決策支持系統(tǒng)的分析要求。事務(wù)處理和分析處理有非常不同的性質(zhì),他們有不同的需求數(shù)據(jù)。
1.2數(shù)據(jù)倉庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù),找到數(shù)據(jù)的潛在模式進(jìn)行預(yù)測,它可以對數(shù)據(jù)進(jìn)行復(fù)雜處理。大多數(shù)情況下,數(shù)據(jù)挖掘是讓數(shù)據(jù)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)庫中。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多優(yōu)點(diǎn),因?yàn)閿?shù)據(jù)倉庫中數(shù)據(jù)的清理和數(shù)據(jù)挖掘中幾乎是相同的,如果數(shù)據(jù)在數(shù)據(jù)倉庫中已被清除,數(shù)據(jù)挖掘中不再被清除,并且數(shù)據(jù)不一致也得到了解決。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的先期步驟,通過數(shù)據(jù)倉庫的構(gòu)建,提高了數(shù)據(jù)挖掘的效率和能力,保證了數(shù)據(jù)挖掘中的數(shù)據(jù)的寬廣性和完整性。
1.3關(guān)系數(shù)據(jù)庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘的數(shù)據(jù)源不一定是數(shù)據(jù)倉庫。也可以是一個(gè)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),但要事先進(jìn)行數(shù)據(jù)預(yù)處理,才能用于數(shù)據(jù)挖掘。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的關(guān)鍵步驟,并且是數(shù)據(jù)挖掘過程中的主要工作部分。因此,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘沒有必然的聯(lián)系,有些人簡單地認(rèn)為,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的準(zhǔn)備,這種理解是不全面的,也可以使用關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)源。
2三種技術(shù)的應(yīng)用
2.1應(yīng)用價(jià)值
2.1.1關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫的主要價(jià)值體現(xiàn)在事務(wù)處理。關(guān)系數(shù)據(jù)庫已經(jīng)滲透到各行各業(yè)的日常事務(wù),該事務(wù)管理離不開關(guān)系數(shù)據(jù)庫的應(yīng)用系統(tǒng),這是對傳統(tǒng)事務(wù)管理的一個(gè)重大突破,是社會(huì)甚至家庭不可或缺的工具,它對社會(huì)的應(yīng)用價(jià)值是100%。
2.1.2數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的主要價(jià)值體現(xiàn)在為決策分析提供數(shù)據(jù)源。一方面,在一個(gè)事務(wù)中,用戶要求高效的訪問系統(tǒng)和數(shù)據(jù)庫,操作時(shí)間應(yīng)該短。在一個(gè)決策分析中,決策問題的一些請求可能會(huì)導(dǎo)致系統(tǒng)的操作,解決這一問題的決策分析需要遍歷大多數(shù)數(shù)據(jù)庫中的數(shù)據(jù),這對一般日常事務(wù)處理系統(tǒng)是困難的,所以操作數(shù)據(jù)和決策分析數(shù)據(jù)應(yīng)該分開。另一方面,決策數(shù)據(jù)需求問題。在決策分析時(shí),由于不同的應(yīng)用系統(tǒng)中,實(shí)體、字段存在數(shù)據(jù)類型、名稱和格式的不符,需要在集成時(shí)進(jìn)行轉(zhuǎn)換,這個(gè)轉(zhuǎn)換必須在決策之前完成;一些決策數(shù)據(jù)需要?jiǎng)討B(tài)更新,需要經(jīng)常進(jìn)行匯總和總結(jié),這些需求用事務(wù)處理系統(tǒng)解決比較繁瑣。三是數(shù)據(jù)的操作模式問題。決策分析人員要以專業(yè)用戶身份,使用各種工具以各種形式來操作數(shù)據(jù),對數(shù)據(jù)操作的結(jié)果以商業(yè)智能的方式表達(dá)出來。事務(wù)處理系統(tǒng)不能滿足這一要求,只有數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)環(huán)境的要求,所以使用數(shù)據(jù)倉庫中的數(shù)據(jù)省去了對數(shù)據(jù)預(yù)處理的步驟。
2.1.3數(shù)據(jù)挖掘
面對日益激烈的市場競爭,客戶對迅速應(yīng)答各種業(yè)務(wù)問題的能力要求越來越高,對過量數(shù)據(jù)的及時(shí)處理要求越來越高,帶來的挑戰(zhàn)一方面大規(guī)模、復(fù)雜數(shù)據(jù)系統(tǒng)讓用戶感覺漫無頭緒,無法開始;另一方面,這些大量數(shù)據(jù)背后隱藏很多有意義的有價(jià)值的決策信息。如計(jì)算機(jī)界都熟知的“啤酒與尿布”的故事,就是零售業(yè)巨頭“沃爾瑪”從大量銷售數(shù)據(jù)中分析出來的規(guī)律:美國的男士在下班要去超市買嬰兒尿布,同時(shí)他們還會(huì)買啤酒?!拔譅柆敗本桶堰@兩種“毫不相干”的商品擺放在靠近的貨架上,并且還擺放一些下灑小菜,使這些商品銷量大增。所以應(yīng)用數(shù)據(jù)挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,具有具體的指導(dǎo)意義。
2.2應(yīng)用領(lǐng)域
2.2.1關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫應(yīng)用領(lǐng)域非常廣泛,如:證券行業(yè)、醫(yī)院、銀行、銷售部門、公司或企業(yè),以及政府、國防工業(yè),科學(xué)和技術(shù)發(fā)展領(lǐng)域等等,這些領(lǐng)域都需要使用數(shù)據(jù)庫來存儲數(shù)據(jù)。例如:人事管理系統(tǒng)、工資管理系統(tǒng),xxx部門信息管理系統(tǒng),手機(jī)話費(fèi)管理系統(tǒng)等,都需要關(guān)系數(shù)據(jù)庫作為后臺提供數(shù)據(jù)源。
2.2.2數(shù)據(jù)倉庫
數(shù)據(jù)倉庫應(yīng)用領(lǐng)域主要有兩個(gè)方面:一是全局應(yīng)用。因?yàn)閿?shù)據(jù)倉庫獲得來自多方面的數(shù)據(jù),所以在把數(shù)據(jù)向數(shù)據(jù)倉庫輸入時(shí),要進(jìn)行轉(zhuǎn)換、計(jì)算和綜合等集成處理。通過處理把來自不同地方的數(shù)據(jù)源轉(zhuǎn)換成統(tǒng)一的格式,以促進(jìn)全局應(yīng)用。二是復(fù)雜系統(tǒng)。信息處理的要求越來越復(fù)雜,除了數(shù)據(jù)處理操作,如添加、刪除、修改、和統(tǒng)計(jì)匯總,高級管理層也希望對歷史的和現(xiàn)在的數(shù)據(jù)進(jìn)行各種復(fù)雜性分析,以支持決策。數(shù)據(jù)倉庫中就是存儲了舊的歷史數(shù)據(jù),方便復(fù)雜分析、應(yīng)用,為高層決策服務(wù)。
2.2.3數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域主要表現(xiàn)在特定應(yīng)用問題和應(yīng)用背景。數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于各行各業(yè),如電信,保險(xiǎn),交通,學(xué)校、銀行、超級市場等。例如:數(shù)據(jù)挖掘技術(shù)應(yīng)用在大學(xué)。高校擴(kuò)招,學(xué)生增加到幾萬人,但是學(xué)生的學(xué)習(xí)積極性不高,成績不好,因此引入數(shù)據(jù)挖掘技術(shù)找出影響學(xué)生學(xué)習(xí)積極性和學(xué)習(xí)成績的原因,制定措施,提高教育和教學(xué)質(zhì)量。分析的數(shù)據(jù)源是考試成績和成績之外的影響因素,分析的方法是采用關(guān)聯(lián)規(guī)則、模型庫、去“噪”處理、粗糙集等進(jìn)行數(shù)據(jù)挖掘,得出的結(jié)論是:傳統(tǒng)的學(xué)習(xí)方法不能完全滿足需要,改進(jìn)教學(xué)方法和教學(xué)模式,從而調(diào)動(dòng)學(xué)生學(xué)習(xí)的積極性,提高教學(xué)質(zhì)量。
3關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的融合
日常事務(wù)處理需要關(guān)系數(shù)據(jù)庫,構(gòu)建分析處理(下轉(zhuǎn)第318頁)(上接第59頁)環(huán)境需要數(shù)據(jù)倉庫,幫助決策者尋找數(shù)據(jù)之間的潛在的關(guān)聯(lián)需要數(shù)據(jù)挖掘。他們之間是相互聯(lián)系又有區(qū)別的,不能互相取代的,又需要相互融合。數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,專有的,而是來源于其他關(guān)系數(shù)據(jù)庫,它是建立在一個(gè)更全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析的數(shù)據(jù)基地。數(shù)據(jù)倉庫是數(shù)據(jù)庫新技術(shù),到目前為止,數(shù)據(jù)倉庫仍用關(guān)系數(shù)據(jù)庫管理系統(tǒng)管理數(shù)據(jù)。數(shù)據(jù)挖掘是從大量存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中發(fā)現(xiàn)有趣知識的過程。只有這三個(gè)數(shù)據(jù)庫技術(shù)互相融合,取長補(bǔ)短,各盡其責(zé),才能更好的為廣大用戶所使用,為社會(huì)各個(gè)領(lǐng)域所應(yīng)用。
參考文獻(xiàn)
[1]華冠萍.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP之兩兩關(guān)系[J].福建電腦,2007,8.
[2]牛承珍.馬季蘭.淺談數(shù)據(jù)挖掘應(yīng)用[J].山西科,2008.5.20.
【關(guān)鍵詞】關(guān)系數(shù)據(jù)庫;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;關(guān)系
0 引言
關(guān)系數(shù)據(jù)庫是20世紀(jì)70年代初提出來,經(jīng)過數(shù)據(jù)庫專家?guī)资甑呐?,理論和?shí)踐都取得了顯著成果,標(biāo)志著數(shù)據(jù)庫技術(shù)的日益成熟。但它仍然難以實(shí)現(xiàn)對關(guān)系數(shù)據(jù)庫中數(shù)據(jù)的分析,不能很好地支持決策,因此在80年代,產(chǎn)生了數(shù)據(jù)倉庫的思想,90年代,數(shù)據(jù)倉庫的基本原理、架構(gòu)形式和使用原則都已確定。主要技術(shù)包括對數(shù)據(jù)庫中數(shù)據(jù)訪問、網(wǎng)絡(luò)、C / S結(jié)構(gòu)和圖形界面,一些大公司已經(jīng)開始構(gòu)建數(shù)據(jù)倉庫。針對數(shù)據(jù)倉庫中迅速增長的海量數(shù)據(jù)的收集、存放,用人力已經(jīng)不能解決,那么數(shù)據(jù)倉庫中有用的知識的提取就需要數(shù)據(jù)挖掘來實(shí)現(xiàn)。數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)子領(lǐng)域“試探性數(shù)據(jù)分析”及人工智能子領(lǐng)域“知識發(fā)現(xiàn)”和機(jī)器學(xué)有關(guān),是一門綜合性的技術(shù)學(xué)科。了解關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘三者之間的區(qū)別與聯(lián)系,使之更好的使用這3種技術(shù),處理各種信息需求是非常必要和重要的。
1 關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的關(guān)系
1.1 關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫之間的聯(lián)系與區(qū)別
關(guān)系數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉庫是一個(gè)面向主題的設(shè)計(jì);關(guān)系數(shù)據(jù)庫存儲在線事務(wù)數(shù)據(jù),數(shù)據(jù)倉庫通常存儲歷史數(shù)據(jù),關(guān)系數(shù)據(jù)庫的設(shè)計(jì)將盡量避免冗余,但數(shù)據(jù)倉庫是傾向于引入冗余;關(guān)系數(shù)據(jù)庫設(shè)計(jì)用于捕獲數(shù)據(jù),數(shù)據(jù)倉庫設(shè)計(jì)用于分析數(shù)據(jù)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫面向以事務(wù)處理為主的系統(tǒng)應(yīng)用,所以它無法滿足決策支持系統(tǒng)的分析要求。事務(wù)處理和分析處理有非常不同的性質(zhì),他們有不同的需求數(shù)據(jù)。
1.2 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù),找到數(shù)據(jù)的潛在模式進(jìn)行預(yù)測,它可以對數(shù)據(jù)進(jìn)行復(fù)雜處理。大多數(shù)情況下,數(shù)據(jù)挖掘是讓數(shù)據(jù)從數(shù)據(jù)倉庫到數(shù)據(jù)挖掘數(shù)據(jù)庫中。從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多優(yōu)點(diǎn),因?yàn)閿?shù)據(jù)倉庫中數(shù)據(jù)的清理和數(shù)據(jù)挖掘中幾乎是相同的,如果數(shù)據(jù)在數(shù)據(jù)倉庫中已被清除,數(shù)據(jù)挖掘中不再被清除,并且數(shù)據(jù)不一致也得到了解決。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的先期步驟,通過數(shù)據(jù)倉庫的構(gòu)建,提高了數(shù)據(jù)挖掘的效率和能力,保證了數(shù)據(jù)挖掘中的數(shù)據(jù)的寬廣性和完整性。
1.3 關(guān)系數(shù)據(jù)庫與數(shù)據(jù)挖掘之間的聯(lián)系與區(qū)別
數(shù)據(jù)挖掘的數(shù)據(jù)源不一定是數(shù)據(jù)倉庫。也可以是一個(gè)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),但要事先進(jìn)行數(shù)據(jù)預(yù)處理,才能用于數(shù)據(jù)挖掘。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的關(guān)鍵步驟,并且是數(shù)據(jù)挖掘過程中的主要工作部分。因此,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘沒有必然的聯(lián)系,有些人簡單地認(rèn)為,數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的準(zhǔn)備,這種理解是不全面的,也可以使用關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)源。
2 三種技術(shù)的應(yīng)用
2.1 應(yīng)用價(jià)值
2.1.1 關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫的主要價(jià)值體現(xiàn)在事務(wù)處理。關(guān)系數(shù)據(jù)庫已經(jīng)滲透到各行各業(yè)的日常事務(wù),該事務(wù)管理離不開關(guān)系數(shù)據(jù)庫的應(yīng)用系統(tǒng),這是對傳統(tǒng)事務(wù)管理的一個(gè)重大突破,是社會(huì)甚至家庭不可或缺的工具,它對社會(huì)的應(yīng)用價(jià)值是100%。
2.1.2 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的主要價(jià)值體現(xiàn)在為決策分析提供數(shù)據(jù)源。一方面,在一個(gè)事務(wù)中,用戶要求高效的訪問系統(tǒng)和數(shù)據(jù)庫,操作時(shí)間應(yīng)該短。在一個(gè)決策分析中,決策問題的一些請求可能會(huì)導(dǎo)致系統(tǒng)的操作,解決這一問題的決策分析需要遍歷大多數(shù)數(shù)據(jù)庫中的數(shù)據(jù),這對一般日常事務(wù)處理系統(tǒng)是困難的,所以操作數(shù)據(jù)和決策分析數(shù)據(jù)應(yīng)該分開。另一方面,決策數(shù)據(jù)需求問題。在決策分析時(shí),由于不同的應(yīng)用系統(tǒng)中,實(shí)體、字段存在數(shù)據(jù)類型、名稱和格式的不符,需要在集成時(shí)進(jìn)行轉(zhuǎn)換,這個(gè)轉(zhuǎn)換必須在決策之前完成;一些決策數(shù)據(jù)需要?jiǎng)討B(tài)更新,需要經(jīng)常進(jìn)行匯總和總結(jié),這些需求用事務(wù)處理系統(tǒng)解決比較繁瑣。三是數(shù)據(jù)的操作模式問題。決策分析人員要以專業(yè)用戶身份,使用各種工具以各種形式來操作數(shù)據(jù),對數(shù)據(jù)操作的結(jié)果以商業(yè)智能的方式表達(dá)出來。事務(wù)處理系統(tǒng)不能滿足這一要求,只有數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)環(huán)境的要求,所以使用數(shù)據(jù)倉庫中的數(shù)據(jù)省去了對數(shù)據(jù)預(yù)處理的步驟。
2.1.3 數(shù)據(jù)挖掘
面對日益激烈的市場競爭,客戶對迅速應(yīng)答各種業(yè)務(wù)問題的能力要求越來越高,對過量數(shù)據(jù)的及時(shí)處理要求越來越高,帶來的挑戰(zhàn)一方面大規(guī)模、復(fù)雜數(shù)據(jù)系統(tǒng)讓用戶感覺漫無頭緒,無法開始;另一方面,這些大量數(shù)據(jù)背后隱藏很多有意義的有價(jià)值的決策信息。如計(jì)算機(jī)界都熟知的“啤酒與尿布”的故事,就是零售業(yè)巨頭“沃爾瑪”從大量銷售數(shù)據(jù)中分析出來的規(guī)律:美國的男士在下班要去超市買嬰兒尿布,同時(shí)他們還會(huì)買啤酒。“沃爾瑪”就把這兩種“毫不相干”的商品擺放在靠近的貨架上,并且還擺放一些下灑小菜,使這些商品銷量大增。所以應(yīng)用數(shù)據(jù)挖掘從大量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,具有具體的指導(dǎo)意義。
2.2 應(yīng)用領(lǐng)域
2.2.1 關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫應(yīng)用領(lǐng)域非常廣泛,如:證券行業(yè)、醫(yī)院、銀行、銷售部門、公司或企業(yè),以及政府、國防工業(yè),科學(xué)和技術(shù)發(fā)展領(lǐng)域等等,這些領(lǐng)域都需要使用數(shù)據(jù)庫來存儲數(shù)據(jù)。例如:人事管理系統(tǒng)、工資管理系統(tǒng),xxx部門信息管理系統(tǒng),手機(jī)話費(fèi)管理系統(tǒng)等,都需要關(guān)系數(shù)據(jù)庫作為后臺提供數(shù)據(jù)源。
2.2.2 數(shù)據(jù)倉庫
數(shù)據(jù)倉庫應(yīng)用領(lǐng)域主要有兩個(gè)方面:一是全局應(yīng)用。因?yàn)閿?shù)據(jù)倉庫獲得來自多方面的數(shù)據(jù),所以在把數(shù)據(jù)向數(shù)據(jù)倉庫輸入時(shí),要進(jìn)行轉(zhuǎn)換、計(jì)算和綜合等集成處理。通過處理把來自不同地方的數(shù)據(jù)源轉(zhuǎn)換成統(tǒng)一的格式,以促進(jìn)全局應(yīng)用。二是復(fù)雜系統(tǒng)。信息處理的要求越來越復(fù)雜,除了數(shù)據(jù)處理操作,如添加、刪除、修改、和統(tǒng)計(jì)匯總,高級管理層也希望對歷史的和現(xiàn)在的數(shù)據(jù)進(jìn)行各種復(fù)雜性分析,以支持決策。數(shù)據(jù)倉庫中就是存儲了舊的歷史數(shù)據(jù),方便復(fù)雜分析、應(yīng)用,為高層決策服務(wù)。
2.2.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域主要表現(xiàn)在特定應(yīng)用問題和應(yīng)用背景。數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于各行各業(yè),如電信,保險(xiǎn),交通,學(xué)校、銀行、超級市場等。例如:數(shù)據(jù)挖掘技術(shù)應(yīng)用在大學(xué)。高校擴(kuò)招,學(xué)生增加到幾萬人,但是學(xué)生的學(xué)習(xí)積極性不高,成績不好,因此引入數(shù)據(jù)挖掘技術(shù)找出影響學(xué)生學(xué)習(xí)積極性和學(xué)習(xí)成績的原因,制定措施,提高教育和教學(xué)質(zhì)量。分析的數(shù)據(jù)源是考試成績和成績之外的影響因素,分析的方法是采用關(guān)聯(lián)規(guī)則、模型庫、去“噪”處理、粗糙集等進(jìn)行數(shù)據(jù)挖掘,得出的結(jié)論是:傳統(tǒng)的學(xué)習(xí)方法不能完全滿足需要,改進(jìn)教學(xué)方法和教學(xué)模式,從而調(diào)動(dòng)學(xué)生學(xué)習(xí)的積極性,提高教學(xué)質(zhì)量。
3 關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的融合
日常事務(wù)處理需要關(guān)系數(shù)據(jù)庫,構(gòu)建分析處理環(huán)境需要數(shù)據(jù)倉庫,幫助決策者尋找數(shù)據(jù)之間的潛在的關(guān)聯(lián)需要數(shù)據(jù)挖掘。他們之間是相互聯(lián)系又有區(qū)別的,不能互相取代的,又需要相互融合。數(shù)據(jù)倉庫中的數(shù)據(jù)并不是最新的,專有的,而是來源于其他關(guān)系數(shù)據(jù)庫,它是建立在一個(gè)更全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析的數(shù)據(jù)基地。數(shù)據(jù)倉庫是數(shù)據(jù)庫新技術(shù),到目前為止,數(shù)據(jù)倉庫仍用關(guān)系數(shù)據(jù)庫管理系統(tǒng)管理數(shù)據(jù)。數(shù)據(jù)挖掘是從大量存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中發(fā)現(xiàn)有趣知識的過程。只有這三個(gè)數(shù)據(jù)庫技術(shù)互相融合,取長補(bǔ)短,各盡其責(zé),才能更好的為廣大用戶所使用,為社會(huì)各個(gè)領(lǐng)域所應(yīng)用。
【參考文獻(xiàn)】
[1]華冠萍.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP之兩兩關(guān)系[J].福建電腦,2007,8.
摘要:XML可以用于實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫,同時(shí)也是一種中間件和數(shù)據(jù)承
>> XML文檔與關(guān)系數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換的研究 基于DOM的XML文檔到關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換方法 基于關(guān)系數(shù)據(jù)庫的XML存儲技術(shù) 淺談數(shù)據(jù)庫記錄與XML數(shù)據(jù)的轉(zhuǎn)換 論XML文檔數(shù)據(jù)庫數(shù)據(jù)之間的轉(zhuǎn)換原理及轉(zhuǎn)換對象 基于.NET平臺的關(guān)系數(shù)據(jù)庫轉(zhuǎn)換 WebService在LDAP與關(guān)系數(shù)據(jù)庫之間數(shù)據(jù)同步的研究 基于XSD模式的XML文檔與關(guān)系數(shù)據(jù)庫的轉(zhuǎn)換 一種模仿XML的靈活的關(guān)系數(shù)據(jù)庫設(shè)計(jì) 基于關(guān)系數(shù)據(jù)庫的時(shí)態(tài)XML存取研究 運(yùn)用XML實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換 淺析Notes數(shù)據(jù)庫與關(guān)系數(shù)據(jù)庫的關(guān)系 關(guān)系數(shù)據(jù)庫的設(shè)計(jì)與測試 基于架構(gòu)的關(guān)系數(shù)據(jù)庫與云端數(shù)據(jù)庫比較分析 XML文檔與數(shù)據(jù)庫表信息互相轉(zhuǎn)換的方法研究與實(shí)踐 關(guān)系數(shù)據(jù)庫與非關(guān)系數(shù)據(jù)庫 淺析關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系 淺談關(guān)系數(shù)據(jù)庫的數(shù)據(jù)保護(hù)策略 關(guān)系數(shù)據(jù)庫查詢優(yōu)化策略與研究 關(guān)系數(shù)據(jù)庫二進(jìn)制存儲圖像數(shù)據(jù)的研究與應(yīng)用 常見問題解答 當(dāng)前所在位置:,1994.
[2]陳志煒.一種基于語義的將關(guān)系數(shù)據(jù)轉(zhuǎn)換為XML數(shù)據(jù)的方法[D].南京:東南大學(xué)碩士學(xué)位論文,2004.
[3]薩師煊,王珊.數(shù)據(jù)庫系統(tǒng)概論[M].第三版.北京:高等教育出版社,2005.
收稿日期:2016-11-25
目前世界上許多跨國信息技術(shù)行業(yè)的公司都在開發(fā)基于SaaS的產(chǎn)品和服務(wù),為未來互聯(lián)網(wǎng)的發(fā)展提供技術(shù)平臺,而電子商務(wù)是近年來互聯(lián)網(wǎng)應(yīng)用最受矚目的領(lǐng)域。因此SaaS模式的普及必將對電子商務(wù)的發(fā)展產(chǎn)生深刻的影響。
正如10Gen工程副總裁Geir Magnusson所指出那樣,在未來我們將很難找到關(guān)系數(shù)據(jù)庫的影子,這是因?yàn)殛P(guān)系數(shù)據(jù)庫不適用于分布式環(huán)境。SaaS的普及要求我們必須重新審視我們做事的方式。
時(shí)下的許多新型數(shù)據(jù)庫,包括Google的Bigtable,Amazon的SimpleDB,10Gen的Mongo,AppJet的AppJet數(shù)據(jù)庫以及甲骨文開源BerkelyDB。這些數(shù)據(jù)庫沒有一個(gè)是關(guān)系型的。而這些數(shù)據(jù)庫具有一些共同特征,就是都特別適用于服務(wù)云計(jì)算式的應(yīng)用。它們中的大多數(shù)可以在分布式環(huán)境中運(yùn)行,這意味著他們可以分布在多個(gè)地點(diǎn)的多臺服務(wù)器上。它們本質(zhì)上都不是事務(wù)性的,并且都犧牲了一些高級查詢能力以換取更好的性能。在很多情況下,這些數(shù)據(jù)庫可以通過對象調(diào)用來檢索,而不用SQL。
盡管大型關(guān)系數(shù)據(jù)庫已經(jīng)被應(yīng)用在很多數(shù)據(jù)處理中心,但SaaS需要一種不同的設(shè)置來充分發(fā)揮其潛力。試想,在跨越地理空間距離之間執(zhí)行復(fù)雜查詢以便減少響應(yīng)時(shí)間、設(shè)計(jì)和維護(hù)支持不同位置的相關(guān)數(shù)據(jù)備份、在一個(gè)點(diǎn)癱瘓時(shí)能保證該數(shù)據(jù)同步、維護(hù)和運(yùn)行這樣的體系并非易事。因此,數(shù)據(jù)庫組成部分在不同位置的分散對SaaS很必要,這也是SaaS產(chǎn)生的原因。更重要的是SaaS體系結(jié)構(gòu)具有不同于目前使用的關(guān)系型結(jié)構(gòu)的屬性,在SaaS體系結(jié)構(gòu)里,關(guān)系不復(fù)存在,人們以群集形式看待數(shù)據(jù)。
關(guān)鍵詞:關(guān)系數(shù)據(jù)庫;云端數(shù)據(jù)庫;Bigtable;時(shí)間戳
中圖分類號:TP399文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)25-7090-03
Comparison and Analysis for Relational Database and Cloud Database Based on Architecture
ZHANG Zhen-yong, WEN Jing-hua
(Guizhou College of Finance and Economics, Guiyang 550004,China)
Abstract: Aiming at the shortcoming that relational database processes a large number of video,audio,images and complex data types, this thesis compared and analyzed relational database and Bigtable representing cloud database and based on architecture. The results showed that cloud database was more advantageous than relational database in precessing a great mass of data and complex data types. With the development of the cloud database technology,cloud database will be superseding the relational database as the mainstream of the database.
Key words: ralational database; cloud database; bigtable; timestamp
關(guān)系數(shù)據(jù)庫從1970年發(fā)展至今,雖功能日趨完善,但對數(shù)據(jù)類型的處理大多采用數(shù)字、字符等基本數(shù)據(jù)類型,對多媒體信息的處理只是停留在簡單的二進(jìn)制代碼文件的存儲。隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上數(shù)據(jù)量高速增長,非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用日趨擴(kuò)大,再加上用戶應(yīng)用需求的提高、硬件技術(shù)的發(fā)展和Web2.0提供的多彩的多媒體交流方式,用戶對多媒體處理的要求從簡單的存儲上升為識別、檢索和深入加工等高級應(yīng)用。關(guān)系數(shù)據(jù)庫在處理這類數(shù)據(jù)時(shí),逐漸暴露出了一些缺陷。
如何來高效處理占數(shù)據(jù)總量70%的聲音、圖像和視頻等復(fù)雜數(shù)據(jù)類型是目前互聯(lián)網(wǎng)界亟待解決的問題。正是在這種狀態(tài)下,云端數(shù)據(jù)庫便應(yīng)運(yùn)而生并開始發(fā)展起來。目前云端數(shù)據(jù)庫技術(shù)在云計(jì)算中的應(yīng)用有Google的Bigtable系統(tǒng)[1]、Amazon公司的Dynamo系統(tǒng)、Hadoop的一個(gè)子項(xiàng)目Hbase、微軟的Live Mesh系統(tǒng)等等。無論是Bigtable還是Hbase都是采用通用的云端數(shù)據(jù)庫架構(gòu),只是核心技術(shù)不同。所以本文就以Google的Bigtable架構(gòu)為代表與傳統(tǒng)的關(guān)系數(shù)據(jù)庫架構(gòu)進(jìn)行比較和分析。
1關(guān)系數(shù)據(jù)庫
1.1關(guān)系數(shù)據(jù)庫概念及特點(diǎn)
關(guān)系數(shù)據(jù)庫在一個(gè)給定的應(yīng)用領(lǐng)域中,所有實(shí)體及實(shí)體之間聯(lián)系的關(guān)系的集合。它是建立在集合代數(shù)基礎(chǔ)上,應(yīng)用數(shù)學(xué)方法來處理數(shù)據(jù)庫中的數(shù)據(jù),現(xiàn)實(shí)世界中的各種實(shí)體以及實(shí)體之間的各種聯(lián)系均用關(guān)系模型來表示,也就是說關(guān)系數(shù)據(jù)庫是建立在關(guān)系模型基礎(chǔ)上的數(shù)據(jù)庫[2]。
關(guān)系數(shù)據(jù)庫具有數(shù)據(jù)結(jié)構(gòu)化、最低冗余度、較高的程序與數(shù)據(jù)獨(dú)立性、易于擴(kuò)充、易于編制應(yīng)用程序等優(yōu)點(diǎn),目前較大的應(yīng)用軟件系統(tǒng)都是建立在結(jié)構(gòu)化數(shù)據(jù)庫設(shè)計(jì)之上的。
1.2關(guān)系數(shù)據(jù)庫系統(tǒng)的架構(gòu)
關(guān)系數(shù)據(jù)庫的架構(gòu)包括六個(gè)部分[3]:
1) 查詢語言接口
查詢語言接口通過使用SQL語言對數(shù)據(jù)庫進(jìn)行特設(shè)查詢數(shù)據(jù)。
2)交互式查詢工具
交互式查詢工具是用于訪問,修改以及更新一個(gè)或多個(gè)關(guān)聯(lián)的數(shù)據(jù)表,并以視圖的方式返回給用戶。
3) 核心軟件
該核心軟件用于控制查詢處理,存取數(shù)據(jù)路徑,用戶訪問管理,存儲管理,索引,交易處理和讀取/更新信息。
4) 公用機(jī)制
公用機(jī)制主要用于輸入/輸出/備份調(diào)整工具及參數(shù)/報(bào)告撰寫。
5) 存儲機(jī)制
存儲機(jī)制主要進(jìn)行數(shù)據(jù)庫寫入,歸檔,用戶管理器,服務(wù)器管理,重做日志文件。
6) 數(shù)據(jù)庫
數(shù)據(jù)庫的特點(diǎn)是以數(shù)據(jù)文件的方式對數(shù)據(jù)對象進(jìn)行物理存儲,包含了系統(tǒng)目錄即數(shù)據(jù)目錄,一個(gè)或多個(gè)數(shù)據(jù)文件以結(jié)構(gòu)化形式存儲組成集合即二維表,并將不同數(shù)據(jù)集通過主鍵和外鍵進(jìn)行關(guān)聯(lián)。
關(guān)系數(shù)據(jù)庫的架構(gòu)如圖1所示。
1.3關(guān)系數(shù)據(jù)庫的缺陷
通過對關(guān)系數(shù)據(jù)庫架構(gòu)的分析,可以發(fā)現(xiàn)關(guān)系數(shù)據(jù)庫的一些不足,概括如下四點(diǎn):
1) 數(shù)據(jù)類型表達(dá)能力差
因?yàn)殛P(guān)系數(shù)據(jù)庫所處理的是結(jié)構(gòu)化的數(shù)據(jù),所以關(guān)系數(shù)據(jù)庫缺乏直接構(gòu)造與現(xiàn)代軟件應(yīng)用有關(guān)的信息的類型表達(dá)能力。隨著信息技術(shù)的飛速發(fā)展,圖像、視頻、音頻以及文檔等非結(jié)構(gòu)化的數(shù)據(jù)已被應(yīng)用到人們的日常生活當(dāng)中,利用關(guān)系數(shù)據(jù)庫來處理這些非結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)顯得有點(diǎn)力不從心了。因此目前大多數(shù)RDBMS產(chǎn)品所采用的簡單類型在重構(gòu)復(fù)雜數(shù)據(jù)的過程中將會(huì)出現(xiàn)性能問題;數(shù)據(jù)庫設(shè)計(jì)過程中的額外復(fù)雜性;RDBMS產(chǎn)品和編程語言在數(shù)據(jù)類型方面的不協(xié)調(diào),需要通過較復(fù)雜的程序化進(jìn)行數(shù)據(jù)類型之間的轉(zhuǎn)換來達(dá)到數(shù)據(jù)類型的一致性。
對于工程應(yīng)用來說,關(guān)系數(shù)據(jù)庫不能支持復(fù)雜數(shù)據(jù)類型的典型結(jié)果就是需要額外地分解數(shù)據(jù)結(jié)構(gòu)工作,這些被分解的結(jié)構(gòu)不能直接表示應(yīng)用數(shù)據(jù),且從基本成分重構(gòu)時(shí)也非常繁瑣和費(fèi)時(shí)間。
2) 復(fù)雜查詢功能比較差
在關(guān)系數(shù)據(jù)庫中,利用SQL語言進(jìn)行查詢數(shù)據(jù)。雖然SQL語言為數(shù)據(jù)查詢提供了很好的定義方法,但是當(dāng)用于復(fù)雜信息的查詢時(shí)可能會(huì)非常繁瑣。這是由于在工程應(yīng)用時(shí)規(guī)范化的過程通常會(huì)產(chǎn)生大量的簡單表,從而降低數(shù)據(jù)的冗余度。那么在這種環(huán)境下由存取信息產(chǎn)生的查詢必須處理大量的表和復(fù)雜主鍵和外鍵之間的聯(lián)系以及連接運(yùn)算,會(huì)影響系統(tǒng)的查詢效率。
3) 支持長事務(wù)能力差
由于RDBMS記錄鎖機(jī)制的顆粒度限制,對于支持多種記錄類型的大段數(shù)據(jù)的登記和檢查來說,簡單的記錄級的鎖機(jī)制是不夠的,但基于鍵值關(guān)系的較復(fù)雜的鎖機(jī)制來說卻很難推廣也難以實(shí)現(xiàn)。
4) 環(huán)境應(yīng)變能力差
在要求系統(tǒng)改變的環(huán)境下,關(guān)系數(shù)據(jù)庫從一種系統(tǒng)移植到另一個(gè)系統(tǒng)上的成本高且修改困難。再加上,關(guān)系數(shù)據(jù)庫和編程語言所提供的數(shù)據(jù)類型的不一致,使得從一個(gè)環(huán)境轉(zhuǎn)換到另一個(gè)環(huán)境時(shí)需要多至30%的附加代碼。
正是由于關(guān)系數(shù)據(jù)庫的這些缺陷,才推動(dòng)了數(shù)據(jù)庫技術(shù)的發(fā)展,產(chǎn)生了云端數(shù)據(jù)庫技術(shù),進(jìn)而彌補(bǔ)了關(guān)系數(shù)據(jù)庫的不足。
2 云端數(shù)據(jù)庫
2.1 Bigtable的介紹
Google在 2004 年初就開始研發(fā)了BigTable,到了2005年大概有100個(gè)左右的服務(wù)使用BigTable。BigTable 讓Google在提供新服務(wù)時(shí)的運(yùn)行成本降低,最大限度地利用了計(jì)算能力。
Bigtable是一個(gè)大型,容錯(cuò),自我管理的分布式存儲系統(tǒng),并用于管理分布在成千上萬臺服務(wù)器上的結(jié)構(gòu)化數(shù)據(jù)[4]。它是建立在GFS分布式文件系統(tǒng)[5]、Scheduler分布式集群調(diào)度、Lock Service分布式的鎖服務(wù)[6]和 MapReduce編程模式[7]基礎(chǔ)之上的系統(tǒng)。
2.2 Bigtable的架構(gòu)
1) Bigtable的數(shù)據(jù)模型
一個(gè)Bigtable(大表)是一個(gè)稀疏的,分布的,持續(xù)的以及多維的排序的數(shù)據(jù)映射。這個(gè)映射由行主鍵,列主鍵和時(shí)間戳進(jìn)行索引[4]。每一項(xiàng)值在映射中是一系列不被解釋的字節(jié)元組即(row:string,column:string,timestamp:int64)string。
在Bigtable的數(shù)據(jù)模型中,所有的數(shù)據(jù)都存放在表格單元中,每一行表示一個(gè)事物的數(shù)據(jù)內(nèi)容,其所在列表示這個(gè)事物的唯一標(biāo)志,其所對應(yīng)的時(shí)間戳表示這個(gè)事物在某個(gè)時(shí)間上的狀態(tài)即具體的數(shù)據(jù)內(nèi)容。關(guān)系數(shù)據(jù)庫只能反映當(dāng)前時(shí)間上事物所處的狀態(tài),而Bigtable不僅能顯示事物當(dāng)前所處的狀態(tài),而且還可以記錄某個(gè)事物的過去某個(gè)時(shí)間所處狀態(tài)。Bigtable的數(shù)據(jù)模型如圖2所示。
2) Bigtable的架構(gòu)
與目前的關(guān)系數(shù)據(jù)庫類似,BigTable也是客戶端和服務(wù)器端的聯(lián)合設(shè)計(jì),使得性能能夠最大程度地符合應(yīng)用的需求。
BigTable系統(tǒng)依賴于集群系統(tǒng)的底層結(jié)構(gòu),一個(gè)是 Google的分布式文件系統(tǒng)(GFS),一個(gè)是分布式的集群任務(wù)調(diào)度(scheduler),還有一個(gè)分布式的鎖服務(wù)(Lock Service)。BigTable使用Lock Service來保存根數(shù)據(jù)表格的指針,即客戶端用戶可以首先從Lock Service鎖服務(wù)器中獲得根表的位置,進(jìn)而對數(shù)據(jù)進(jìn)行訪問。BigTable使用一臺服務(wù)器作為主服務(wù)器,用來保存和操作元數(shù)據(jù)。主服務(wù)器除了管理元數(shù)據(jù)之外,還負(fù)責(zé)對tablet服務(wù)器(即一般意義上的數(shù)據(jù)服務(wù)器)進(jìn)行遠(yuǎn)程管理與負(fù)載調(diào)配。客戶端通過編程接口與主服務(wù)器進(jìn)行元數(shù)據(jù)通信,與tablet服務(wù)器進(jìn)行數(shù)據(jù)通信[8]。
Bigtable的架構(gòu)由Bigtable master、Bigtable tablet servers和Bigtable client library三部分組成,如圖3所示。
Bigtable master存儲了許多由大量的tablets組成的表。主要負(fù)責(zé)指派tablet到tablet的各個(gè)服務(wù)器上,并檢測tablet服務(wù)器的增減和服務(wù)程序裝載滿與否,進(jìn)行實(shí)時(shí)的分配任務(wù),使tablet服務(wù)器負(fù)載均衡并回收GFS文件系統(tǒng)中的垃圾文件。此外,它還處理模式更改,如表和列簇的創(chuàng)建。
每一個(gè)tablet服務(wù)器用于管理一部分tablets,通常有10-1000個(gè)tablet和處理客戶端用戶的讀/寫請求。tablet是由大表以行為單位分隔而成的。每個(gè)tablet保存了連續(xù)的行,然后別分配到各個(gè)tablet服務(wù)器上。
Bigtable client library是客戶端用戶和Bigtable服務(wù)器通信的接口。用戶通過Bigtable client library接口來讀數(shù)據(jù)和寫數(shù)據(jù)等操作。
3 關(guān)系數(shù)據(jù)庫與云端數(shù)據(jù)庫的比較
3.1 兩者架構(gòu)的區(qū)別
關(guān)系數(shù)據(jù)庫架構(gòu)與云端數(shù)據(jù)庫中的Bigtable架構(gòu)主要區(qū)別如表1所示。
3.2 基于架構(gòu)的比較分析
通過對關(guān)系數(shù)據(jù)庫架構(gòu)和云端數(shù)據(jù)庫中的Bigtable架構(gòu)的分析,可以從以下幾個(gè)方面對兩者進(jìn)行比較:
1) 數(shù)據(jù)模型
在關(guān)系數(shù)據(jù)庫中創(chuàng)建的表是一張二維表包括行和列,使用簡單的數(shù)據(jù)類型對結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行存儲。但對于非結(jié)構(gòu)化的數(shù)據(jù)的存儲,因?yàn)殛P(guān)系數(shù)據(jù)庫要保持?jǐn)?shù)據(jù)冗余度低這一優(yōu)點(diǎn),所以關(guān)系數(shù)據(jù)庫的設(shè)計(jì)會(huì)比較復(fù)雜且困難。而Bigtable創(chuàng)建的類似于二維表,但事實(shí)上不是二維表,它是由行主鍵、列主鍵、時(shí)間戳三個(gè)域組成的多維map。雖然Bigtable存儲數(shù)據(jù)的冗余度比較高,但是Bigtable比關(guān)系數(shù)據(jù)庫的二維表多了一個(gè)域――時(shí)間戳域,時(shí)間戳域可以記錄事物的不同時(shí)間時(shí)的狀態(tài)。另外Bigtable是以一條記錄為原子對數(shù)據(jù)進(jìn)行操作的,所以Bigtable不僅可以對事物的當(dāng)前狀態(tài)進(jìn)行更新,還可以對事物的過去狀態(tài)進(jìn)行查詢。在這一點(diǎn)上,關(guān)系數(shù)據(jù)庫是不支持歷史查詢的。
2) 數(shù)據(jù)的存取方式
在關(guān)系數(shù)據(jù)庫中用戶對數(shù)據(jù)進(jìn)行查詢、添加、修改及刪除等的操作是使用SQL語言。對于處理海量及復(fù)雜數(shù)據(jù)時(shí),使用SQL語言對多個(gè)關(guān)聯(lián)表進(jìn)行操作就可能會(huì)顯得非常繁瑣。Bigtable并非支持SQL語言的數(shù)據(jù)庫,而是以map 函數(shù)方式的,以列導(dǎo)向的數(shù)據(jù)庫。Bigtable對數(shù)據(jù)的存取是以一行記錄為原子進(jìn)行的,不必關(guān)聯(lián)其他的表,那么數(shù)據(jù)存取的速率要比關(guān)系數(shù)據(jù)庫要高。
3) 數(shù)據(jù)遷移能力
關(guān)系數(shù)據(jù)庫提供了一些簡單的數(shù)據(jù)類型,在環(huán)境發(fā)生變化比如應(yīng)用平臺或者是編程語言所提供的數(shù)據(jù)類型與關(guān)系數(shù)據(jù)庫所提供的不一致時(shí),那么數(shù)據(jù)之間的轉(zhuǎn)化過程將會(huì)相當(dāng)復(fù)雜而且還會(huì)增加成本。而Bigtable所提供的數(shù)據(jù)類型只有字符串類型,所有數(shù)據(jù)都是以字符串的形式進(jìn)行處理,因此Bigtable在進(jìn)行數(shù)據(jù)遷移時(shí)相比關(guān)系數(shù)據(jù)庫要容易并且成本也要比關(guān)系數(shù)據(jù)庫要低得多。
4) 支持事務(wù)
關(guān)系數(shù)據(jù)庫為了保持?jǐn)?shù)據(jù)的完整性和一致性,提供了事務(wù)處理功能。關(guān)系數(shù)據(jù)庫在處理簡單事務(wù)方面,顯現(xiàn)出了關(guān)系數(shù)據(jù)庫的優(yōu)勢。但是在處理繁瑣的事務(wù)方面,比如執(zhí)行了n條SQL語句來對多個(gè)關(guān)聯(lián)的數(shù)據(jù)表進(jìn)行處理,執(zhí)行效率就會(huì)顯得比較低。目前,Bigtable還不支持事務(wù)處理功能,但是Google已經(jīng)考慮到了該功能,一旦Bigtable支持了多行數(shù)據(jù)的事務(wù)支持,執(zhí)行效率將會(huì)大大提高。
總之,云端數(shù)據(jù)庫在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)要比關(guān)系數(shù)據(jù)庫的效率高,更適宜在多節(jié)點(diǎn)的服務(wù)器集群上工作,比關(guān)系數(shù)據(jù)庫更適應(yīng)環(huán)境的變化,最大的優(yōu)點(diǎn)是使用成本比關(guān)系數(shù)據(jù)庫要低得多。
4 結(jié)束語
本文通過對關(guān)系數(shù)據(jù)庫架構(gòu)和云端數(shù)據(jù)庫架構(gòu)的比較分析,可以得出云端數(shù)據(jù)庫在許多方面要比關(guān)系數(shù)據(jù)庫占優(yōu)勢,也就是說云端數(shù)據(jù)庫技術(shù)具有很大的發(fā)展前景。雖然云端數(shù)據(jù)庫技術(shù)還不夠成熟,再加上各大關(guān)系數(shù)據(jù)庫供應(yīng)商對關(guān)系數(shù)據(jù)庫技術(shù)的不斷改進(jìn)以及對查詢算法進(jìn)行優(yōu)化,但是隨著云端數(shù)據(jù)庫技術(shù)的不斷成熟,將會(huì)得到廣泛的應(yīng)用,進(jìn)而逐步會(huì)取代關(guān)系數(shù)據(jù)庫成為數(shù)據(jù)庫中的主流。
參考文獻(xiàn):
[1] Chang F,Dean J,Ghemawat S,Hsieh WC,Wallach DA,Burrows M,Chandra T,Fikes A,Gruber RE.Bigtable:A distributed storage system for structured data.In:Proc.of the 7th USENIX Symp.on Operating Systems Design and Implementation.Berkeley:USENIX Association,2006:205-218.
[2] 瞿裕忠 胡偉 鄭東棟 仲新宇. 關(guān)系數(shù)據(jù)庫模式和本體間映射的研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2008,45(2):300-309.
[3] Fay Chang,Jeffrey Dean,Sanjay Ghemawat,Wilson C.Hsieh,Deborah A.Wallach Mike Burrows, Tushar Chandra, Andrew Fikes,Robert E.Gruber.Bigtable: A Distributed Storage System for Structured Data,OSDI,2006:1-5.
[4] Ghemawat S,Gobioff H,Leung ST.The Google file system.In:Proc.of the 19th ACM Symp.on Operating Systems Principles.New York:ACM Press,2003.29-43.
[5] Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters.In:
關(guān)鍵字:優(yōu)化查詢;SQL查詢;關(guān)系數(shù)據(jù)庫
數(shù)據(jù)庫查詢操作是數(shù)據(jù)庫操作的核心操作,對數(shù)據(jù)的查詢效率及處理速度已成為衡量數(shù)據(jù)庫性能的一個(gè)重要指標(biāo)。數(shù)據(jù)庫查詢技術(shù)也是學(xué)生對《數(shù)據(jù)庫原理與應(yīng)用》這門課程所必須掌握的知識和技能,數(shù)據(jù)庫查詢技術(shù)的精通也為以后課程的學(xué)習(xí)(如:C#.NET程序設(shè)計(jì))中的數(shù)據(jù)庫應(yīng)用程序的設(shè)計(jì)打下良好的基礎(chǔ)。
為了優(yōu)化數(shù)據(jù)庫的性能,簡單、有效的方法就是優(yōu)化查詢。
1優(yōu)化原理和實(shí)質(zhì)
數(shù)據(jù)查詢處理的代價(jià)通常取決于對磁盤的訪問,因?yàn)榇疟P比內(nèi)存的訪問速度要慢。對于一個(gè)給定的查詢,有許多可能的處理策略,復(fù)雜查詢更是如此[1]。查詢優(yōu)化的實(shí)質(zhì)是在結(jié)果正確的前提下,找出與已有表達(dá)式等價(jià),但查詢效率更高的表達(dá)式。
2在教學(xué)中要注重的幾種典型的優(yōu)化方法
2.1建立視圖
視圖可簡化用戶操作數(shù)據(jù)的方式,使用戶能著重于所感興趣的特定數(shù)據(jù)和所負(fù)責(zé)的特定任務(wù)。如果該視圖數(shù)據(jù)規(guī)模小于定義的基本表,則基于視圖的查詢比原查詢的速度會(huì)快得多。
例:要查詢每門課程成績最高的學(xué)生的學(xué)號
SELECT 學(xué)號,課程號,成績
FROM 成績表 A
WHERE 成績=(SELECT MAX(成績)
FROM 成績表B
WHERE A..課程號=B.課程號)
語句缺點(diǎn):這屬嵌套查詢,子查詢的結(jié)果集將作為外層查詢的條件,查詢效率不高。
解決方案:可先建立視圖,求得每門課程的最高分,再與成績表中比較,獲取與視圖中最高分?jǐn)?shù)據(jù)相等的記錄,這就減少了內(nèi)層連接的數(shù)據(jù)量,從而提高了檢索速度。
用SQL語句優(yōu)化的步驟為:
首先,創(chuàng)建視圖
GREATE VIEW V_max_cnoscore AS
SELECT 課程號,Max(成績) AS 最高分?jǐn)?shù)
FROM 成績表 GROUP BY 課程號
其次,利用視圖檢索數(shù)據(jù)
SELECT 學(xué)號,A.課程號,A.成績
FROM 成績表A,V_max_cnoscore B
WHERE A.成績=B.最高分?jǐn)?shù) AND A.課程號=B.課程號
2.2查詢條件Where子句的優(yōu)化
2.2.1合理設(shè)置WHERE條件的先后順序。多數(shù)數(shù)據(jù)庫都是按從左到右的順序處理?xiàng)l件,把能過濾更多數(shù)據(jù)的條件放在前面,過濾少的放后面,便可提高檢索速度。
例:SELECT * FROM student
WHERE ssex=’女’ --條件1過濾的數(shù)據(jù)較少
AND sdept=’計(jì)算機(jī)系’ --條件2過濾數(shù)據(jù)比條件1多
上面的SQL就不符合上述原則,可改為:
SELECT * FROM student
WHERE sdept=’計(jì)算機(jī)系’
AND ssex=’女’
對同一表格進(jìn)行多個(gè)選擇運(yùn)算,選擇條件的排序?qū)π阅苡休^大影響,不僅影響索引的選取,而且關(guān)系到臨時(shí)表的大小[2]。因此,要提高查詢速度,可將較嚴(yán)格的條件寫在前面,較弱的放在后面。
2.2.2避免使用“< >”或“NOT”操作符?!? >”或“NOT”均屬于排斥性操作符,不是包括性操作符,這會(huì)使系統(tǒng)在搜索數(shù)據(jù)時(shí)無法使用索引,只能直接搜索表中的數(shù)據(jù),例:
(1)SELECT 學(xué)號 FROM 成績表 WHERE 成績< >80
(2)SELECT 學(xué)號 FROM 成績表 WHERE NOT(成績80)
(3)SELECT 學(xué)號 FROM 成績表 WHERE成績< 80 OR 成績>80
比較以上三條語句,可知第3條可使用索引查詢,它的查詢速度最快。
2.2.3恰當(dāng)運(yùn)用“OR擴(kuò)展”技術(shù)。該技術(shù)是把在Where子句中帶有OR的查詢轉(zhuǎn)換成包含多個(gè)UNION ALL的查詢。
例:查詢計(jì)算機(jī)系縣年齡不大于20歲的學(xué)生。
常規(guī)的SQL語句:
SELECT 學(xué)號,姓名 FROM 學(xué)生表 WHERE 系名=’計(jì)算機(jī)系’ OR 年齡
假定表中“系名”和“年齡”兩個(gè)字段上創(chuàng)建了索引,以上的查詢可能不會(huì)使查詢優(yōu)化器使用索引,從而查詢效率降低,可改進(jìn)為:
SELECT 學(xué)號,姓名 FROM 學(xué)生表 WHERE 系名='計(jì)算機(jī)系'
UNION ALL SELECT 學(xué)號,姓名 FROM 學(xué)生表 WHERE 年齡
2.2.4合理減少LIKE條件的使用。在SQL查詢中,LIKE條件使用的神奇之處在于其與通配符匹配所提供的模糊查詢功能。但在字符串的比較中,有時(shí)大量字符的逐個(gè)比較,也會(huì)大大降低查找效率。
例:圖書按26個(gè)英文字母分為26類,查找所有屬于‘A’類圖書的銷售金額。
SELECT 圖書類號, SUM (數(shù)量*單價(jià)) FROM 銷售
WHERE 圖書類號LIKE′A%′GROUP BY圖書類號
優(yōu)化為精確查詢:
SELECT 圖書類號,SUM(數(shù)量*單價(jià)) FROM銷售
WHERE 圖書類號>=′A′AND圖書類號
GROUP BY圖書類號
2.3正確使用子查詢“展平”技術(shù)子查詢“展平”技術(shù)就是指將子查詢轉(zhuǎn)變?yōu)榘脒B接,連接或者反連接,從而將查詢優(yōu)化。
例:找出成績大于等于90分的學(xué)生的姓名。
SELECT 姓名 FROM 學(xué)生表 WHERE 學(xué)號IN
(SELECT 學(xué)號FROM 成績表WHERE 成績>=90)
語句缺點(diǎn):需要搜索學(xué)生表的每一行,來查找所有滿足子查詢條件的記錄。
解決方案:將學(xué)生表作為連接的內(nèi)表,查詢將作為通常的連接來執(zhí)行。
優(yōu)化后的SQL語句:
SELECT 姓名FROM (SELECT 學(xué)號 FROM 成績表
WHERE成績>=90) A,學(xué)生表 B WHERE A.學(xué)號=B.學(xué)號
2.4善于使用存儲過程
存儲過程是SQL語句和可選控制流語句的預(yù)編譯集合,一個(gè)名稱存儲并作為一個(gè)單元處理。善于使用存儲過程,將使SQL變得更加靈活和高效。
例:查詢某個(gè)學(xué)生某門課程的考試成績,列出學(xué)生的姓名、課程名及成績
CREATE PROC pro_student_degree
@stu_name char(12),@course_name char(18) AS
SELECT sname,cname,degree
FROM student A INNER JOIN sc B ON A.sno=B.省略o=o
WHERE sname=@stu_name AND cname=@course_name
以上是一個(gè)帶有兩個(gè)輸入?yún)?shù)的簡單存儲過程,只需執(zhí)行一個(gè)簡單的SQL語句――“EXEC pro_student_degree‘劉娜’,’數(shù)據(jù)庫原理’”就可完成查詢。
編寫性能優(yōu)化的SQL語句是提高數(shù)據(jù)庫系統(tǒng)的重要因素,隨著數(shù)據(jù)庫管理系統(tǒng)中數(shù)據(jù)量的增大,如何提高查詢速度與效率也是計(jì)算機(jī)軟件開發(fā)的一個(gè)時(shí)代要求。實(shí)現(xiàn)優(yōu)化查詢的方法很多,在使用中,要根據(jù)具體情況權(quán)衡利弊,使數(shù)據(jù)庫查詢性能最優(yōu)。在學(xué)生的教學(xué)中要注重培養(yǎng)學(xué)生的動(dòng)手能力,使學(xué)生養(yǎng)成編寫優(yōu)化的SQL語句的習(xí)慣。
參考文獻(xiàn):
[1]王振輝,吳廣茂.SQL查詢語句優(yōu)化研究[J].計(jì)算機(jī)應(yīng)用,2005,(12):208.
[2]SQL查詢優(yōu)化注意where條件的順序.. 2009-06-18.
關(guān)鍵詞:對象關(guān)系數(shù)據(jù)庫;面向?qū)ο螅籄MOS II
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)34-2016-02
A New Generation of Object-Relational Database: AMOSII
LIU Yan-hong1,2
(1.Nanjing Institute of Industry Technology Information Engineering, Nanjing 210046, China; 2.Nanjing University of Aeronautics and AstronauticsCollege of Information Science and Technology,Nanjing210016,China)
Abstract: Object-relational database can be combined with a single relational database system and a single object-oriented database system. It overcomes their limitations and is a new direction for research and discussion. AMOS II is the latest generation of object-relational database and has powerful object-oriented features. It provides the features and functions that a large number of next-generation database should have. The case of AMOS II fully reflects the advanced nature of the relational database.
Key words: object-relational database; object oriented; AMOS II
1 引言
隨著數(shù)據(jù)庫技術(shù)的發(fā)展,原有的數(shù)據(jù)庫系統(tǒng)很難適應(yīng)新的應(yīng)用領(lǐng)域中的復(fù)雜對象和這些對象的復(fù)雜行為的需求。新的應(yīng)用需求推動(dòng)了數(shù)據(jù)庫技術(shù)的研究, 其中最重要的研究方向之一就是使用一種與人們認(rèn)識客觀事物的過程一致的方法, 這就是面向?qū)ο蟮姆椒?。這種方法大大提高軟件開發(fā)的效率。對象關(guān)系數(shù)據(jù)庫是面向?qū)ο蠹夹g(shù)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。
2 對象-關(guān)系數(shù)據(jù)庫
對象關(guān)系數(shù)據(jù)庫兼有關(guān)系數(shù)據(jù)庫和面向?qū)ο蟮臄?shù)據(jù)庫兩方面的特征。即它除了具有原來關(guān)系數(shù)據(jù)庫的種種特點(diǎn)外,還應(yīng)該提供以下特點(diǎn):
1) 允許用戶擴(kuò)充基本數(shù)據(jù)類型。即允許用戶根據(jù)應(yīng)用需求自己定義數(shù)據(jù)類型、函數(shù)和操作符,而且一經(jīng)定義,這些新的數(shù)據(jù)類型、函數(shù)和操作符將存放在數(shù)據(jù)庫管理系統(tǒng)核心中,可供所有用戶公用。
2) 能夠在SQL中支持復(fù)雜對象。由多種基本類型或用戶定義的類型構(gòu)成的對象。能夠支持子類對超類的各種特性的繼承,支持?jǐn)?shù)據(jù)繼承和函數(shù)繼承,支持多重繼承,支持函數(shù)重載。能夠提供功能強(qiáng)大的通用規(guī)則系統(tǒng),而且規(guī)則系統(tǒng)與其他的對象-關(guān)系能力是集成為一體的。
3 新一代對象關(guān)系數(shù)據(jù)庫的優(yōu)勢
3.1 傳統(tǒng)的關(guān)系數(shù)據(jù)庫的缺陷
傳統(tǒng)的關(guān)系數(shù)據(jù)庫局限性為:
1) 面向機(jī)器的語法數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)模型單一,數(shù)據(jù)類型簡單、固定。
2) 不能依據(jù)某一類型的數(shù)據(jù)類型來擴(kuò)展數(shù)據(jù)類型。
3) 結(jié)構(gòu)與行為完全分離。
4) 存儲管理的對象有限,事物處理能力較差。
3.2 新一代對象關(guān)系數(shù)據(jù)庫的特征和功能
1) 數(shù)據(jù)庫應(yīng)支持復(fù)雜的數(shù)據(jù)類型,并能存儲和處理復(fù)雜對象。還要具備支持用戶自定類型和可擴(kuò)展能力。
2) 數(shù)據(jù)庫必須對其它系統(tǒng)開放。
3) 系統(tǒng)必須具有可移植性,可連接性,可擴(kuò)展性和可互操作性。實(shí)現(xiàn)程序設(shè)計(jì)語言和數(shù)據(jù)庫語言的無縫的集成。
4 AMOS II應(yīng)用案例分析
AMOS II是最新一代的對象關(guān)系數(shù)據(jù)庫,它充分體現(xiàn)了對象關(guān)系數(shù)據(jù)庫的強(qiáng)大功能。
4.1 學(xué)生課程成績查詢案例
有若干學(xué)生,學(xué)生信息包括學(xué)號,姓名,班級。有若干選修課程,課程信息包括課程號,課程名,成績。實(shí)現(xiàn)功能:1、通過查詢語句,可以查看所有的學(xué)生信息和課程信息。2、輸入學(xué)生信息如姓名,可以查看到他所選課程的相關(guān)內(nèi)容。3、輸入課程名稱可以查看到選這門課的學(xué)生姓名。4、輸入學(xué)生姓名,可以統(tǒng)計(jì)出該生選的所有課程名稱和課程數(shù)。
4.2 案例設(shè)計(jì)與分析
1) AMOS II具有面向?qū)ο髷?shù)據(jù)庫的特點(diǎn)。
在OODB中, 用類來描述對象的結(jié)構(gòu)特征和行為特征。它有下面的定義形式:
class < 類名> [ (參數(shù)表) ]properties
{類的特征}
在本案例中課程和學(xué)生類設(shè)計(jì)如下:
create type kecheng properties(
sid charstring,//課程號//
sname charstring,//課程名//
scoreinteger //期末成績//
);
create type student properties(
tidcharstring,//學(xué)生號//
tname charstring,//學(xué)生姓名//
banjicharstring //班級//
);
創(chuàng)建kecheng的對象并且賦值用以下命令:
create kecheng(sid, sname,score) instances
:s1("01","Chinese",91),:s2("02","English",90),
…;
創(chuàng)建student的對象并且賦值用以下命令:
create student (tid, tname, banji) instances
:t1("08001","zhangsan","3ban"),
:t2("08002","lisi", "4ban"),
…;
函數(shù)設(shè)計(jì)舉例如下:
create function o_derect(student nonkey)-> as stored;
//輸入?yún)?shù)student類,返回該學(xué)生所選課程的元組//
create function sname(kecheng nonkey)->charstring as stored;
create function tname(student nonkey)->charstring as stored;
create function tid(student nonkey)->charstring as stored;
…;
以上定義的源代碼保存在文件lyh.amosql中。AMOSQL類似于SQL語言。例如用下面命令對學(xué)生信息進(jìn)行查詢:
select tin (x), tname(x), from student (x);
在AMOS II中運(yùn)行并得出結(jié)果,如圖1。
這些類、對象、屬性和函數(shù)的設(shè)計(jì),充分體現(xiàn)了面向?qū)ο蠹夹g(shù)的特點(diǎn)。
2) AMOS II具有強(qiáng)大的可擴(kuò)充功能。
AMOS II提供的Java函數(shù)的接口。在AMOS II中可以調(diào)用用戶自定義的Java函數(shù)。
本案例用Java語言定義函數(shù)tongji()并保存在名為lyh.java的文件中。該函數(shù)的功能是接受輸入?yún)?shù)為學(xué)生名,輸出該學(xué)生所選擇的課程名并統(tǒng)計(jì)出課程個(gè)數(shù)。
為了能在AMOS II調(diào)用該函數(shù),需要在javademo.osql文件中添加下面的語句:
create function tongji(charstring)->charstring as foreign "JAVA:lyh/tongji";
運(yùn)行后如圖2所示。
這充分體現(xiàn)了AMOS II允許用戶根據(jù)應(yīng)用需求自己定義數(shù)據(jù)類型、函數(shù),具有強(qiáng)大的可擴(kuò)展功能。
5 總結(jié)和展望
綜上,對象―關(guān)系數(shù)據(jù)庫是面向?qū)ο蠹夹g(shù)與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。AMOS II是最新的一代對象關(guān)系數(shù)據(jù)庫,具有強(qiáng)大的面向?qū)ο蟮墓δ?。從學(xué)生課程成績查詢案例,可以看到AMOS II具有面向?qū)ο髷?shù)據(jù)庫的特點(diǎn),允許用戶根據(jù)應(yīng)用需求自己定義數(shù)據(jù)類型、函數(shù)和操作符,具有強(qiáng)大的可擴(kuò)展功能,體現(xiàn)了對象關(guān)系數(shù)據(jù)庫的先進(jìn)性。本文用具體案例介紹了在AMOS II中如何定義類,對象和函數(shù),和如何調(diào)用Java自定義函數(shù),實(shí)現(xiàn)統(tǒng)計(jì)函數(shù)的功能。
對象―關(guān)系數(shù)據(jù)庫技術(shù)還處于研究發(fā)展階段,在很多方面它還面臨很多的挑戰(zhàn),例如對象―關(guān)系數(shù)據(jù)庫還可以從面向?qū)ο髷?shù)據(jù)庫那里吸收養(yǎng)分和研究成果,如路徑索引、對象聚集等。相信對象―關(guān)系數(shù)據(jù)庫有著美好的發(fā)展前景。
參考文獻(xiàn):
[1] 趙志升,許素文,楊小姝.對象――關(guān)系數(shù)據(jù)庫管理系統(tǒng)及其特性與實(shí)現(xiàn)[J].電腦開發(fā)與應(yīng)用,2002,15(8):47-48.
[2] 王治.對象―關(guān)系數(shù)據(jù)庫技術(shù)及其發(fā)展[J].九江師專學(xué)報(bào):自然科學(xué)版,2003,22(5):86-88.
>> 基于關(guān)系數(shù)據(jù)庫的本體構(gòu)建方法研究 面向關(guān)系數(shù)據(jù)庫的裝備領(lǐng)域本體構(gòu)建研究 基于對象關(guān)系數(shù)據(jù)庫的移動(dòng)對象數(shù)據(jù)庫管理系統(tǒng)的研究 基于UML模型的關(guān)系數(shù)據(jù)庫設(shè)計(jì) 基于關(guān)系數(shù)據(jù)庫的XML存儲技術(shù) 基于.NET平臺的關(guān)系數(shù)據(jù)庫轉(zhuǎn)換 基于架構(gòu)的關(guān)系數(shù)據(jù)庫與云端數(shù)據(jù)庫比較分析 基于關(guān)系數(shù)據(jù)庫的關(guān)鍵詞查詢研究 基于關(guān)系數(shù)據(jù)庫的時(shí)態(tài)XML存取研究 基于關(guān)系數(shù)據(jù)庫的動(dòng)態(tài)工資管理系統(tǒng)研究 基于關(guān)系數(shù)據(jù)庫的文件樹存儲策略研究 基于關(guān)系數(shù)據(jù)庫的可適性系統(tǒng)研究 基于DOM的XML文檔到關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換方法 基于關(guān)系數(shù)據(jù)庫的實(shí)時(shí)XML數(shù)據(jù)查詢處理 淺談關(guān)系數(shù)據(jù)庫的數(shù)據(jù)保護(hù)策略 一種基于依賴關(guān)系的關(guān)系數(shù)據(jù)庫語義模式提取方法 關(guān)系數(shù)據(jù)庫查詢優(yōu)化策略研究 關(guān)系數(shù)據(jù)庫查詢優(yōu)化策略與研究 XML文檔與關(guān)系數(shù)據(jù)庫數(shù)據(jù)轉(zhuǎn)換的研究 WebService在LDAP與關(guān)系數(shù)據(jù)庫之間數(shù)據(jù)同步的研究 常見問題解答 當(dāng)前所在位置:),但該工具只能創(chuàng)建輕量級本體,映射簡單,不能完全地對關(guān)系數(shù)據(jù)庫中存在的概念進(jìn)行建模。
2)德克薩斯大學(xué)的Sunitha Ramanujam提出了“Bi-directional Translation of Relational Data into Virtual RDF Stores”[5],即關(guān)系數(shù)據(jù)和RDF間的雙向轉(zhuǎn)換,并在D2R的基礎(chǔ)上開發(fā)了工具D2RQ++。
3)中科院國家科學(xué)圖書館成都分館的Shihan Yang等人提出“半自動(dòng)化地從關(guān)系數(shù)據(jù)庫中構(gòu)建本體”,文中提出了利用中間件來實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫到本體轉(zhuǎn)化的方法,并且提出了W-graph的中間件語言,W-graph映射語義使用與關(guān)系數(shù)據(jù)庫和本體都無關(guān)的雙向模擬等價(jià)圖表示。中間件模式是動(dòng)態(tài)的,當(dāng)數(shù)據(jù)庫模式或本體頻繁變化時(shí),該方法因此有很好的適應(yīng)性。此方法不僅可以處理數(shù)據(jù)庫模式而且也可以處理數(shù)據(jù)庫中存儲的實(shí)例。圖形語義編輯工具的開發(fā),提高了方法的可用性。
4)許卓明提出 “一種從關(guān)系數(shù)據(jù)庫學(xué)習(xí)OWL本體的方法”,開發(fā)出了關(guān)系數(shù)據(jù)庫模式到OWL本體轉(zhuǎn)換原型工具DB2WO,并給出了實(shí)例驗(yàn)證。該研究首先給出了關(guān)系數(shù)據(jù)庫模式和OWL本體的定義,其次定義了關(guān)系數(shù)據(jù)庫模式到OWL本體的一組映射規(guī)則,然后開發(fā)了轉(zhuǎn)換工具DB2WO。關(guān)系數(shù)據(jù)庫模式信息通過讀取關(guān)系數(shù)據(jù)庫字典來提取。
5)陳和平等人提出“基于關(guān)系數(shù)據(jù)庫的本體生成器的設(shè)計(jì)與實(shí)現(xiàn)”[6] 。該研究中首先指出需要解決的2個(gè)關(guān)鍵問題:(1)如何提取關(guān)系數(shù)據(jù)庫的ER模式(2)如何定義由ER模式到OWL本體的映射規(guī)則。然后給出ER模式的提取一般可以通過查詢該關(guān)系數(shù)據(jù)庫的數(shù)據(jù)字典或應(yīng)用數(shù)據(jù)庫的逆向工程工具,接著給出了ER模式到OWL本體的10多條轉(zhuǎn)化規(guī)則。最后,給出了本體生成器OWLFROMDB的功能模塊結(jié)構(gòu)圖,并給出了實(shí)例驗(yàn)證。
6)中國人民理工大學(xué)的Peng Liu等人在2010第九屆國際網(wǎng)格和云計(jì)算會(huì)議提出“基于關(guān)系數(shù)據(jù)庫的本體自動(dòng)構(gòu)建”[7]。其思想跟前述許卓明、陳和平等一致:通過分析關(guān)系數(shù)據(jù)庫模式,建立一系列的從關(guān)系數(shù)據(jù)模式到OWL的轉(zhuǎn)換規(guī)則,然后給出了算法和流程圖,最后給出了生成的本體的層次圖。
7)W3C成立了 RDB2RDF研究組,致力于提供一個(gè)從關(guān)系數(shù)據(jù)庫RDB到本體描述語言RDF的規(guī)范性的映射標(biāo)準(zhǔn),到目前為止,該研究小組提出了幾個(gè)關(guān)于RDB到RDF映射語言的內(nèi)部草稿,還未成為標(biāo)準(zhǔn)。
3 研究瓶頸及建議
現(xiàn)在,基于關(guān)系數(shù)據(jù)庫生成本體的研究已經(jīng)引起越來越多研究者的興趣?;舅悸窡o非是從關(guān)系數(shù)據(jù)庫中提取出數(shù)據(jù)模式,然后設(shè)定數(shù)據(jù)模式轉(zhuǎn)化為本體的規(guī)則,然后編程實(shí)現(xiàn)。每個(gè)研究人員都提出了自己的轉(zhuǎn)化規(guī)則,而并沒有人對規(guī)則的可行性給出評價(jià)結(jié)果。至今,尚未有研究者或機(jī)構(gòu)給出權(quán)威的轉(zhuǎn)換規(guī)則。轉(zhuǎn)換規(guī)則的可行性和合理性應(yīng)該是未來研究的重點(diǎn)。
4 結(jié)束語
利用關(guān)系數(shù)據(jù)庫中結(jié)構(gòu)化的數(shù)據(jù)作為數(shù)據(jù)源來構(gòu)建本體的方法,已經(jīng)引起了眾多研究人員的重視,而隨著W3C的介入, 必將使這種轉(zhuǎn)換規(guī)范化。
參考文獻(xiàn):
[1] /RDF[EB/OL].
[2] /TR/owl-features[EB/OL].
[3] Du Xiaoyong, Li Man, Wang Shan. A Survey on Ontology Learning Research[J] .Journal of Software, 2006,17(9): 1837-1847.
[4] Sunitha Ramanujam ,VaibhavKhadilkar.Bi-directional Translation of Relational Data into Virtual RDF Stores[C].2010 IEEE Fourth International Conference on Semantic Computing,2010,61:268-276.
[5] Shihan Yang,Ying Zheng.Semi-Automatically Building Ontologies from Relational Databases[J].IEEE,2010:150-154.