計(jì)算機(jī)核心范例數(shù)據(jù)挖掘算法研究管理方針

核心期刊目錄查詢2016-06-03

文章簡(jiǎn)要：在當(dāng)前對(duì)于數(shù)據(jù)挖掘算法不存在一個(gè)普遍使用的算法,算法的適用性和有效性主要是表現(xiàn)在某一個(gè)領(lǐng)域,在實(shí)際的算法運(yùn)用中,需要選擇最恰當(dāng)適用的數(shù)據(jù)挖掘算法,也就是說(shuō)不能將已有的算法普遍運(yùn)用于所有的領(lǐng)域中,是需要從新的領(lǐng)域的具體需求出發(fā)制定最優(yōu)的數(shù)據(jù)挖掘算

　　在當(dāng)前對(duì)于數(shù)據(jù)挖掘算法不存在一個(gè)普遍使用的算法,算法的適用性和有效性主要是表現(xiàn)在某一個(gè)領(lǐng)域,在實(shí)際的算法運(yùn)用中,需要選擇最恰當(dāng)適用的數(shù)據(jù)挖掘算法,也就是說(shuō)不能將已有的算法普遍運(yùn)用于所有的領(lǐng)域中,是需要從新的領(lǐng)域的具體需求出發(fā)制定最優(yōu)的數(shù)據(jù)挖掘算法。文章就這方面做了詳細(xì)的介紹，本文選自：《計(jì)算機(jī)科學(xué)》雜志。

　　摘要：隨著計(jì)算機(jī)信息技術(shù)的飛速發(fā)展,大容量的存儲(chǔ)技術(shù)以及條形碼等數(shù)據(jù)獲取設(shè)備在生活中得到的廣泛的應(yīng)用,我們?cè)谏钪幸苍谂c不同類型的數(shù)據(jù)打交道,這些數(shù)據(jù)背后隱藏著巨大的價(jià)值信息,如何深入挖掘數(shù)據(jù)有效利用數(shù)據(jù)是當(dāng)前我們關(guān)注的主要問(wèn)題。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,集成化的,并且隨著時(shí)間不短變化的數(shù)據(jù)集合,通過(guò)對(duì)不同的數(shù)據(jù)源進(jìn)行轉(zhuǎn)化和繼承能夠?qū)v史數(shù)據(jù)和現(xiàn)有數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)的綜合管理,從而為進(jìn)一步分析挖掘數(shù)據(jù)提供基礎(chǔ)。筆者在下文中主要首先分析了當(dāng)前數(shù)據(jù)挖掘的現(xiàn)狀,探討數(shù)據(jù)挖掘的基本技術(shù)和算法,最終研究基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析挖掘平臺(tái)的實(shí)現(xiàn)。

　　關(guān)鍵詞：數(shù)據(jù)挖掘,計(jì)算研究,計(jì)算機(jī)論文

　　1 數(shù)據(jù)挖掘的現(xiàn)狀

　　隨著數(shù)據(jù)庫(kù)技術(shù)以及數(shù)據(jù)處理的人工智能haunted發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,數(shù)據(jù)挖掘技術(shù)旨在從大量的隱藏?cái)?shù)據(jù)中挖掘出切實(shí)可用的信息,從而更好地服務(wù)與我們?nèi)粘Ｉa(chǎn)和生活的各個(gè)領(lǐng)域。數(shù)據(jù)挖掘技術(shù)具有構(gòu)筑企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的特點(diǎn),從而為其帶來(lái)經(jīng)濟(jì)效益,因此當(dāng)前許多知名企業(yè)和大型公司也紛紛加大了對(duì)數(shù)據(jù)挖掘的研究和應(yīng)用。數(shù)據(jù)挖掘從不同的劃分標(biāo)準(zhǔn)可以分為不同的類型,例如根據(jù)數(shù)據(jù)模型來(lái)劃分;可以將數(shù)據(jù)挖掘劃分為如下幾類:關(guān)系的、事務(wù)的、面向?qū)ο蟮�、�?duì)象-關(guān)系的等,從特定類型來(lái)劃分,可以分為空間的、時(shí)間序列的。文本的、多媒體的等。復(fù)雜的數(shù)據(jù)挖掘系統(tǒng)一般會(huì)采用多種數(shù)據(jù)挖掘技術(shù)相結(jié)合,以集成化的數(shù)據(jù)挖掘系統(tǒng)支持毒品抽象層的知識(shí)發(fā)現(xiàn)。從應(yīng)用的角度來(lái)劃分,數(shù)據(jù)挖掘系統(tǒng)可以分類特定領(lǐng)域的數(shù)據(jù)挖掘工具和通用的數(shù)據(jù)挖掘工具,其中特定領(lǐng)域的數(shù)據(jù)挖掘工具主要是指針對(duì)某一特定領(lǐng)域的數(shù)據(jù)挖掘,在設(shè)計(jì)中針對(duì)數(shù)據(jù)的特殊性做了系統(tǒng)的進(jìn)一步優(yōu)化。相比較國(guó)外,我國(guó)對(duì)數(shù)據(jù)挖掘的研究起步還較晚,但經(jīng)過(guò)長(zhǎng)期大量的研究,已經(jīng)開發(fā)出了一系列數(shù)據(jù)挖掘的工具,雖然還不完美,但總的來(lái)說(shuō)取得了滿意的效果。

　　2 數(shù)據(jù)挖掘算法的內(nèi)容

　　數(shù)據(jù)挖掘算法是對(duì)數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn),主要包括了以下三個(gè)部分主要內(nèi)容,分別是模型表示、模型評(píng)價(jià)標(biāo)準(zhǔn)、發(fā)現(xiàn)方法。

　　1)模型表示:要提高模型的表達(dá)力,模型語(yǔ)言的恰當(dāng)運(yùn)用發(fā)揮著重要作用。語(yǔ)言的描述強(qiáng)度對(duì)模型的精準(zhǔn)性產(chǎn)生著重大的影響,當(dāng)語(yǔ)言表達(dá)能力過(guò)強(qiáng)的時(shí)候,可能會(huì)使得模型過(guò)分一般化,其精度也會(huì)相對(duì)下降,因此合理恰當(dāng)把握模型表示的語(yǔ)言強(qiáng)度對(duì)于保證模型精準(zhǔn)性具有重要意義。

　　2)模型評(píng)價(jià)標(biāo)準(zhǔn):模型評(píng)價(jià)標(biāo)準(zhǔn)主要是指對(duì)一個(gè)模型的最終發(fā)現(xiàn)結(jié)果和具體的要求之間做出量化評(píng)價(jià)。針對(duì)預(yù)測(cè)類的模型,為了提高預(yù)測(cè)的精準(zhǔn)度,可以利用測(cè)試數(shù)據(jù)集來(lái)進(jìn)行評(píng)價(jià)。具體的評(píng)價(jià)內(nèi)容可以從模型的精確度、新穎度以及實(shí)用價(jià)值來(lái)進(jìn)行綜合評(píng)價(jià)。

　　計(jì)算機(jī)論文：《計(jì)算機(jī)科學(xué)》由國(guó)家科技部主管，西南信息中心主辦，系“中文科技核心期刊”、“中國(guó)科技論文統(tǒng)計(jì)與分析用期刊”、“中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)來(lái)源期刊”、“中國(guó)期刊方陣雙效期刊”。主要報(bào)導(dǎo)國(guó)內(nèi)外計(jì)算機(jī)科學(xué)與技術(shù)的發(fā)展動(dòng)態(tài)，涉及面廣的方法論與技術(shù)，和反映新苗頭、能起承先啟后作用的研究成果。內(nèi)容涉及程序理論、計(jì)算機(jī)軟件、計(jì)算機(jī)網(wǎng)絡(luò)與信息、數(shù)據(jù)庫(kù)、人工智能、人機(jī)界面、國(guó)際會(huì)議、應(yīng)用等。

計(jì)算機(jī)科學(xué)期刊投稿參考

　　3)發(fā)現(xiàn)方法:數(shù)據(jù)挖掘的發(fā)現(xiàn)方法可以分類兩類:參量發(fā)現(xiàn)、模型發(fā)現(xiàn),發(fā)現(xiàn)方法是在完成模型表示和模型評(píng)價(jià)后,進(jìn)行模型的最終優(yōu)化數(shù)據(jù)挖掘。發(fā)現(xiàn)過(guò)程是一個(gè)嘗試和探索相結(jié)合的過(guò)程,需要不斷嘗試和改變參量來(lái)尋找最適合模型評(píng)價(jià)標(biāo)準(zhǔn)的參量,最終確定出最優(yōu)的模型。

　　3 數(shù)據(jù)挖掘算法與實(shí)現(xiàn)

　　根據(jù)數(shù)據(jù)挖掘的不同角度可以將數(shù)據(jù)挖掘技術(shù)劃分為不同的種類,例如從發(fā)現(xiàn)的知識(shí)種類來(lái)劃分?jǐn)?shù)據(jù)挖掘技術(shù),或者從挖掘方法分類,再者是根據(jù)挖掘的途徑來(lái)分類。筆者在此主要從技術(shù)的角度來(lái)進(jìn)行分類,對(duì)數(shù)據(jù)挖掘技術(shù)中的幾個(gè)重要的方法做了如下詳細(xì)闡述:

　　1)決策樹方法:決策樹方法是數(shù)據(jù)挖掘算法中的一個(gè)重要方法,決策樹下的每一個(gè)分支是一個(gè)決策過(guò)程,每一個(gè)過(guò)程中涉及唯一一個(gè)數(shù)據(jù)的屬性,然后通過(guò)不斷滿足決策條件得到最終的決策結(jié)果。決策樹的構(gòu)造中蘊(yùn)含著分類規(guī)則,其核心內(nèi)容在于構(gòu)造精度高、規(guī)模小的決策樹,具體來(lái)說(shuō)決策樹的構(gòu)造可以分兩個(gè)主要步驟進(jìn)行。首先是決策樹的生成,其生成過(guò)程是由訓(xùn)練樣本集生成決策樹的過(guò)程,數(shù)據(jù)集一般來(lái)說(shuō)應(yīng)該是具有現(xiàn)實(shí)意義,有一定的綜合程度并且用于數(shù)據(jù)分析處理的。其次是要進(jìn)行數(shù)據(jù)集的剪枝,是指對(duì)上一步驟中構(gòu)造的決策樹進(jìn)行檢驗(yàn)、校正和修正。具體來(lái)說(shuō)也就是要運(yùn)用新的樣本數(shù)據(jù)集來(lái)作為測(cè)試數(shù)據(jù)集中的數(shù)據(jù)檢驗(yàn)決策樹生成中產(chǎn)生的初步規(guī)則,將分支中阻礙預(yù)測(cè)準(zhǔn)確性的部分剪除。

　　2)遺傳算法:基于遺傳算法的數(shù)據(jù)挖掘技術(shù)是一個(gè)模擬生物進(jìn)化遺傳的過(guò)程,是在生物進(jìn)化的思想啟發(fā)下得出的算法,遺傳算法相比較其他優(yōu)化算法,主要有以下提出特點(diǎn):一是遺傳算法將變量的編碼作為運(yùn)算的對(duì)象,傳統(tǒng)的優(yōu)化算法一般來(lái)說(shuō)是直接利用決策變量的實(shí)際值來(lái)進(jìn)行優(yōu)化的計(jì)算,而遺傳算法引入例如遺傳操作的算子,采用決策變量的某種形式編碼;二是通過(guò)概率搜索技術(shù),以概率的方式進(jìn)行搜索,從而增加了整個(gè)搜索過(guò)程的適用性和靈活性。遺傳算法在當(dāng)前的數(shù)據(jù)挖掘中得到了較為廣泛的應(yīng)用,在作業(yè)調(diào)度、自動(dòng)控制方面發(fā)揮著重要的作用。遺傳算法主要由三個(gè)基本的算子組成,分別是繁殖、交叉和變異。繁殖是指從一個(gè)舊的父代中選出生命力強(qiáng)的個(gè)體從而繁衍出后代;交叉是一個(gè)重組的過(guò)程,模擬生物遺傳中的基因交換部分,通過(guò)模擬染色體的交叉組合過(guò)程,不斷的嘗試最優(yōu)組合,最終形成一個(gè)新的組合結(jié)果。遺傳算法是一個(gè)不斷優(yōu)化的過(guò)程,在優(yōu)化計(jì)算中具有明顯的優(yōu)勢(shì)。

　　3)神經(jīng)網(wǎng)絡(luò)方法:神經(jīng)網(wǎng)絡(luò)方法是模擬生物的有一個(gè)方法,是對(duì)人腦神經(jīng)元結(jié)構(gòu)的模擬。神經(jīng)網(wǎng)絡(luò)是由大量的并行分布式的處理單元組成的簡(jiǎn)單處理單元,基于神經(jīng)網(wǎng)絡(luò)方法的數(shù)據(jù)挖掘主要由兩個(gè)階段組成,分別是網(wǎng)絡(luò)構(gòu)造、訓(xùn)練、剪枝以及規(guī)則提取和評(píng)估。網(wǎng)絡(luò)構(gòu)造、訓(xùn)練和剪枝是選擇擬采用的網(wǎng)絡(luò)模型,選擇或者設(shè)計(jì)一種網(wǎng)絡(luò)訓(xùn)練的算法。通過(guò)尋亂后的網(wǎng)絡(luò)略顯臃腫,因此就需要在保持準(zhǔn)確性的基礎(chǔ)下,剪掉網(wǎng)絡(luò)中的多余的節(jié)點(diǎn),最終產(chǎn)生精煉的簡(jiǎn)易的網(wǎng)絡(luò)。規(guī)則的提取和評(píng)估階段主要是經(jīng)過(guò)上一步驟以后已經(jīng)相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)提取分類規(guī)則,最終轉(zhuǎn)化為更加易于理解的形式表達(dá)出來(lái),例如決策樹、模糊邏輯等方法。最后再通過(guò)測(cè)試樣本對(duì)規(guī)則進(jìn)行評(píng)估。在實(shí)際應(yīng)用中是和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘問(wèn)題主要有分類問(wèn)題、時(shí)序預(yù)測(cè)、聚類等。相比較其他的數(shù)據(jù)挖掘算法神經(jīng)網(wǎng)絡(luò)具有如下優(yōu)勢(shì):一是挖掘的層次更深,能夠處理的變量更多,具有分布記憶性和快速計(jì)算的優(yōu)勢(shì)。但同時(shí)神經(jīng)網(wǎng)絡(luò)算法也具有一些不足之處,例如在非數(shù)值型數(shù)據(jù)的處理和數(shù)據(jù)質(zhì)量方面相對(duì)較弱。

　　4)基于粗糙集的數(shù)據(jù)挖掘算法:粗糙集理論是針對(duì)不完整和不確定信息的數(shù)學(xué)工具,它能夠分析數(shù)據(jù)中的不精確和不一致信息。在現(xiàn)實(shí)應(yīng)用中,我們常會(huì)遇到許多粗糙數(shù)據(jù)的整理,如何在最短時(shí)間內(nèi)找到有用信息,進(jìn)行數(shù)據(jù)處理是當(dāng)前面臨的主要問(wèn)題,而粗糙集的數(shù)據(jù)挖掘方法在處理這一問(wèn)題方面發(fā)揮著重要的作用�；诖植诩臄�(shù)據(jù)挖掘處理過(guò)程一般來(lái)說(shuō)包括了以下幾個(gè)步驟:初始數(shù)據(jù)集、預(yù)處理、不可分辨矩陣、約減集、規(guī)則。預(yù)處理階段是指把數(shù)據(jù)庫(kù)中的初始數(shù)據(jù)信息轉(zhuǎn)化為粗糙集形式,明確其條件屬性和決策屬性;接下來(lái)再進(jìn)行屬性約減,生成不可分辨據(jù)稱,從而形成約減性屬性集;最后在約減信息中去發(fā)現(xiàn)規(guī)則。在粗糙集的數(shù)據(jù)處理中,對(duì)象是行元素,屬性是列元素,條件屬性上的等價(jià)類和決策屬性上的等價(jià)類存在以下三種情況:一種是下近似即決策屬性上的等價(jià)類包含條件屬性上的等價(jià)類;一種是上近似決策屬性的等價(jià)類和條件屬性的等價(jià)類之間有交集;還有一種是無(wú)關(guān)即決策屬性的等價(jià)類和條件屬性的等價(jià)類不想交。在具體的規(guī)則上,采用針對(duì)下近似建立確定性的谷子額而對(duì)上近似建立不確定的規(guī)則。

　　5)模糊集方法:針對(duì)實(shí)際運(yùn)用中的模糊判斷通常采用模糊集的方法,尤其是在系統(tǒng)復(fù)雜的數(shù)據(jù)庫(kù)中期精確化的能力就越低,模糊性的就越強(qiáng)�；谀：哪：P(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法具體如下所示:首先輸入數(shù)據(jù)庫(kù)T={t1,…,tn},輸出:模糊觀念規(guī)則1.采用FCM算法將數(shù)量型屬性離散化,把取值劃分成不同的模糊等級(jí);2.將數(shù)據(jù)庫(kù)T引入,加入數(shù)據(jù),形成新的數(shù)據(jù)庫(kù),根據(jù)上一步驟中劃分的模糊等級(jí),賦予數(shù)據(jù)庫(kù)新的模糊屬性;3.計(jì)算并且得出所有的1-模糊頻繁屬性集,再對(duì)這些屬性集進(jìn)行組合,其中不包含同一個(gè)IK標(biāo)記的1-模糊頻繁屬性集,最終將包含相同IK標(biāo)記的1-模糊頻繁屬性集作為2-模糊候選屬性集,以此類推,再將第一個(gè)模糊屬性相同的2-模糊頻繁屬性集進(jìn)行組合,一直組合下去,直到發(fā)現(xiàn)所有模糊頻繁屬性集,最終從所用的模糊頻繁屬性集中生成不小于用戶級(jí)給定的最小信任的模糊關(guān)聯(lián)規(guī)則。

在線咨詢快速發(fā)表

硬核推薦閱讀