發(fā)布時間:2022-09-22 13:52:52
序言:寫作是分享個人見解和探索未知領(lǐng)域的橋梁,我們?yōu)槟x了8篇的數(shù)據(jù)挖掘技術(shù)分析論文樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
關(guān)鍵詞:Web數(shù)據(jù)挖掘,邊防情報,應(yīng)用模式
隨著科學(xué)技術(shù)的突飛猛進(jìn),社會信息化的快速發(fā)展, 以信息技術(shù)為主要標(biāo)志的高新技術(shù)革命已經(jīng)引起了社會各個領(lǐng)域的深刻變革,網(wǎng)絡(luò)已經(jīng)成為社會生活不可分割的一部分。每天有數(shù)以億計的網(wǎng)民在互聯(lián)網(wǎng)上瀏覽、信息,互聯(lián)網(wǎng)已經(jīng)成為信息時代最為重要的信息集散地。對于邊防情報部門而言,研究如何通過互聯(lián)網(wǎng)和公安網(wǎng)快速高效地進(jìn)行情報收集,使各項工作都圍繞收集、運用情報而展開,已經(jīng)成為當(dāng)務(wù)之急。Web數(shù)據(jù)挖掘技術(shù)的興起,為邊防情報部門開展工作提供了高效的工具與手段。
一、Web數(shù)據(jù)挖掘技術(shù)
Web數(shù)據(jù)挖掘技術(shù)是由傳統(tǒng)數(shù)據(jù)庫領(lǐng)域的數(shù)據(jù)挖掘技術(shù)演變而來。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、事先未知的、但又潛在有用的信息的過程;它是從數(shù)據(jù)倉庫中提取出可信的、新穎的、有效的,并能被人理解的模式的高級處理過程。數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代,它不僅面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行深入的統(tǒng)計、分析和推理,發(fā)掘數(shù)據(jù)間的相互關(guān)系,完成從業(yè)務(wù)數(shù)據(jù)到?jīng)Q策信息的轉(zhuǎn)換。數(shù)據(jù)挖掘技術(shù)把人們對數(shù)據(jù)的應(yīng)用,從低層次的末端查詢提高到為決策者提供決策支持。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,數(shù)據(jù)挖掘技術(shù)被運用到網(wǎng)絡(luò)上,并根據(jù)網(wǎng)絡(luò)信息的特點發(fā)展出了新的理論與方法,演變成為Web數(shù)據(jù)挖掘技術(shù)。Web數(shù)據(jù)挖掘是指從與WWW有關(guān)的資源和行為中抽取人們感興趣的、有用的模式和隱含信息,所挖掘出的知識能夠用于信息管理、查詢處理、決策支持、過程控制等方面。Web數(shù)據(jù)挖掘已經(jīng)成為對互聯(lián)網(wǎng)信息進(jìn)行深度分析、開發(fā)與利用的重要手段。
二、Web數(shù)據(jù)挖掘的分類
(一)Web內(nèi)容挖掘
Web內(nèi)容挖掘是指從互聯(lián)網(wǎng)上檢索資源,從相關(guān)文件內(nèi)容及描述信息中獲取有價值的潛在信息。根據(jù)處理對象的不同,Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。網(wǎng)上信息形式多以文本信息的形式存在。文本可以被看作是一種順序數(shù)據(jù),目前有許多適合于順序數(shù)據(jù)的挖掘方法。Web文本信息挖掘的主要任務(wù)一般限定在文本特征的表示、文本的總結(jié),以及文本的分類和聚類等方面?;ヂ?lián)網(wǎng)現(xiàn)有大量多媒體信息。對該類信息進(jìn)行分析挖掘,找出合適的描述模式,闡述并理解其中的意義,可提高該類信息的識別度及檢索效率,也是Web多媒體挖掘的目標(biāo)。論文大全。目前此方面應(yīng)用的技術(shù)手段主要是語音信息的理解及識別、圖形圖像信息的理解及識別,以及信息檢索等。
(二) Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘的目標(biāo)是Web文檔的鏈接結(jié)構(gòu),目的在于揭示蘊涵于文檔結(jié)構(gòu)中的信息,主要方法是通過對Web站點的結(jié)構(gòu)進(jìn)行分析、變形和歸納,將Web頁面進(jìn)行分類,以利于信息的搜索。對Web頁的鏈接結(jié)構(gòu)進(jìn)行分類,可以識別判斷頁面與文檔間的各種屬性關(guān)系。由于Web頁的內(nèi)外部存在具有各種屬性關(guān)系的結(jié)構(gòu)信息,通過研究Web結(jié)構(gòu)信息,可得到相關(guān)主題、相關(guān)分類的頁面集合,生成關(guān)于某個Web站點的結(jié)構(gòu)和頁面結(jié)構(gòu)的概括信息。因此,結(jié)構(gòu)挖掘的重點在于鏈接信息。
(三) Web日志挖掘
Web日志挖掘是從服務(wù)器訪問日志、用戶策略、用戶對話和事物處理信息中得到用戶的訪問模式和感興趣的信息,并盡可能預(yù)測用戶的行為。通過對用戶所訪問頁面、文檔等的技術(shù)分析,Web日志挖掘可以找出相關(guān)主題間、相關(guān)內(nèi)容間的聯(lián)系規(guī)律。訪問分析又稱使用分析,主要使用用戶基本信息如IP、ID、URL、日期、時間等進(jìn)行處理。由于Web服務(wù)器的Log日志存在完整的結(jié)構(gòu),當(dāng)用戶訪問Web站點時,相關(guān)的頁面、文檔、鏈接等信息在日志中都做了相應(yīng)的記錄。Web日志挖掘不僅要找出用戶經(jīng)常訪問的URL路徑,而且也要找出用戶有可能要訪問的相關(guān)站點的鏈接。利用這種方法,可以獲知互聯(lián)網(wǎng)使用者的行為偏好。
三、Web數(shù)據(jù)挖掘的主要方法
(一)統(tǒng)計分析方法
統(tǒng)計分析(statistical)方法是通過對總體中的樣本數(shù)據(jù)進(jìn)行分析,從而描述和推斷能夠揭示總體中的內(nèi)部規(guī)律的信息和知識的方法。為了適應(yīng)復(fù)雜信息的挖掘需求,往往依賴有明確目標(biāo)和任務(wù)的概率模型。數(shù)據(jù)挖掘的統(tǒng)計模型要適合于所要提取的對象。利用統(tǒng)計分析技術(shù)可以對我們感興趣的內(nèi)容進(jìn)行蘊含信息的挖掘。如對互聯(lián)網(wǎng)日志進(jìn)行統(tǒng)計可以獲得有關(guān)站點使用的基本信息,包括頁面訪問次數(shù)、日平均訪問人數(shù)、最受用戶歡迎的頁面等。除此以外,還可以進(jìn)行錯誤分析,如非法用戶登錄等。這些統(tǒng)計數(shù)據(jù)都是基于用戶瀏覽頁面的時間、用戶的瀏覽路徑和路徑長度等信息。這些統(tǒng)計數(shù)據(jù)對于提高系統(tǒng)的性能、安全性以及優(yōu)化站點結(jié)構(gòu)大有幫助。目前已有許多互聯(lián)網(wǎng)流量分析工具實現(xiàn)了這些基本的統(tǒng)計功能。
(二)關(guān)聯(lián)分析方法
關(guān)聯(lián)分析(associationanalysis)用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,所謂關(guān)聯(lián)規(guī)則是指在大量的數(shù)據(jù)中所隱含的項集之間的關(guān)系以及項集的頻繁模式。用戶在瀏覽網(wǎng)頁時,經(jīng)常會在同一次訪問中瀏覽一些無順序關(guān)系的頁面集合,挖掘發(fā)現(xiàn)的這些頁面之間內(nèi)在的聯(lián)系,就是就表現(xiàn)為它們之間存在一定的關(guān)聯(lián)。如果關(guān)聯(lián)規(guī)則中的頁面之間沒有超鏈接,則應(yīng)該引起我們的特別關(guān)注。通常使用可信度、支持度、期望可信度和作用度這四個參數(shù)來描述關(guān)聯(lián)規(guī)則。
(三)分類方法
分類(classification)是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。分類不同于聚類,聚類無須事先制定標(biāo)準(zhǔn),而能從信息本身出發(fā),利用算法自動分類;而分類的準(zhǔn)則是事先定好的。在Web數(shù)據(jù)挖掘中,分類主要是將用戶配置文件歸屬到既定的用戶類別,網(wǎng)頁根據(jù)內(nèi)容的屬性分類等。分類技術(shù)要求抽取關(guān)鍵屬性描述已知的信息,可以通過指導(dǎo)性歸納學(xué)習(xí)算法進(jìn)行分類,主要包括決策樹分類法、貝葉斯分類法、最近鄰分類法等。
(四)聚類分析方法
聚類(clustering)就是將數(shù)據(jù)對象分組成為多個類或簇,在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類分析能夠?qū)⒁慌鷶?shù)據(jù)按照它們在性質(zhì)上的親密程度,在沒有先驗知識的情況下自動進(jìn)行分類,每一類都是大量具有相似性個體的集合,不同類之間具有明顯的區(qū)別。聚類分析是一種探索性分析,在分類過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從信息本身出發(fā),自動進(jìn)行分類。例如在Web日志挖掘中,聚類分析主要集中于用戶聚類和頁面聚類。用戶聚類將具有相似瀏覽行為的用戶歸類;頁面聚類則是將內(nèi)容相關(guān)的頁面歸類,搜索引擎可以利用這些信息為某個查詢提供用戶感興趣的相關(guān)超鏈接。
四、Web數(shù)據(jù)挖掘在邊防情報工作中的應(yīng)用模式
(一)Web數(shù)據(jù)挖掘在建立公安網(wǎng)搜索引擎中的應(yīng)用
目前,邊防情報部門所需的公開信息大部分來源于互聯(lián)網(wǎng)和公安網(wǎng),情報人員通過使用搜索引擎來快速查詢需要的信息,然而公安網(wǎng)的搜索引擎存在較大局限性,搜索出來的結(jié)果存在大量冗余信息,不能滿足情報人員的需求。因此,在搜索引擎中通過借鑒Web數(shù)據(jù)挖掘技術(shù)可以有效地提高查準(zhǔn)率和查全率,從而給情報人員提供較有準(zhǔn)確的信息。具體應(yīng)用方法如下:
1.根據(jù)公安網(wǎng)的頁面內(nèi)容,自動形成摘要
目前,使用公安網(wǎng)搜索引擎進(jìn)行檢索,檢索的結(jié)果文檔是以簡單摘要形式出現(xiàn)的,它表現(xiàn)為機(jī)械地提取網(wǎng)頁內(nèi)容取前幾句為摘要,這種僅通過位置進(jìn)行自動摘要是很難真正反映出網(wǎng)頁中的信息內(nèi)容。論文大全。在文本挖掘中的文本抽取技術(shù)是指從文檔中抽取出關(guān)鍵信息,然后以簡潔的形式對文檔的信息進(jìn)行摘要或描述,即文本抽取技術(shù)是根據(jù)Web文檔本身的內(nèi)容,從Web頁中提煉出重要信息形成文檔摘要,而不是根據(jù)位置來進(jìn)行文本內(nèi)容的概括,因此它更能夠反映出Web文檔中的真正信息。論文大全。這樣,情報人員通過瀏覽關(guān)鍵詞就可以了解網(wǎng)頁的大致內(nèi)容,從而決定是否使用該信息。
2.根據(jù)檢索結(jié)果,自動進(jìn)行文檔聚類
文本聚類是文本分類的逆向過程,是指將文檔集中的文檔分為更小的簇,要求同一簇內(nèi)文檔之間的相似性盡可能大,而簇與簇之間的關(guān)系盡可能小,這些簇相當(dāng)于分類表中的類目。情報人員在使用搜索引擎時,會得到大量的返回信息組成的線性表,而其中很大一部分是與其查詢請求不相關(guān)的,于是通過對檢索結(jié)果的文檔集合進(jìn)行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔集中在一起,并遠(yuǎn)離那些不相關(guān)的文檔。再將處理以后的信息以超鏈接結(jié)構(gòu)組織的層次方式可視化地提供給情報人員,從而大大減短瀏覽時間。
(二)Web數(shù)據(jù)挖掘在建立公安網(wǎng)站中的應(yīng)用
公安網(wǎng)網(wǎng)站是公安網(wǎng)信息的容納處,我們可以利用Web數(shù)據(jù)挖掘技術(shù)有效地組織網(wǎng)站信息,建立一個資源優(yōu)化的網(wǎng)站,也就是說通過對網(wǎng)站內(nèi)容的數(shù)據(jù)挖掘,主要是對文本內(nèi)容的挖掘,如采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息的層次性組織;以及結(jié)合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,開展網(wǎng)站信息推送服務(wù)。
1.采用自動歸類技術(shù),實現(xiàn)公安網(wǎng)網(wǎng)站信息層次化
一般而言,網(wǎng)站提供給訪問者的信息和服務(wù)應(yīng)該是按優(yōu)先次序進(jìn)行排列,網(wǎng)站維護(hù)人員應(yīng)該把重要的信息放在醒目的位置,因此在網(wǎng)站維護(hù)時,通過對網(wǎng)站內(nèi)容挖掘和Web日志挖掘,可以有效地組織網(wǎng)站信息。例如:采用自動歸類技術(shù)實現(xiàn)網(wǎng)站信息層次化;分析訪問者的訪問行為,可為用戶提供智能化、個性化服務(wù)。還可根據(jù)訪問者的訪問興趣、訪問頻度、訪問時間,動態(tài)地調(diào)整頁面結(jié)構(gòu)。
2.采用日志挖掘技術(shù),實現(xiàn)公安網(wǎng)網(wǎng)站信息推送服務(wù)
網(wǎng)站可以根據(jù)訪問者的瀏覽情況,發(fā)現(xiàn)訪問者的興趣,定期為注冊用戶提供相關(guān)信息,并且調(diào)整網(wǎng)站中網(wǎng)頁的鏈接結(jié)構(gòu)和內(nèi)容,為訪問者提供個人定制服務(wù)。具體步驟為:首先將日志文件中的數(shù)據(jù)經(jīng)過預(yù)處理,形成原始數(shù)據(jù)庫;然后獲取用戶的訪問模式,放入用戶訪問模式數(shù)據(jù)庫;再通過數(shù)據(jù)挖掘和模式分析形成知識數(shù)據(jù)庫,Web服務(wù)器自動更新知識數(shù)據(jù)庫,采用動態(tài)主頁設(shè)計方法,根據(jù)用戶的知識信息,提供相應(yīng)的個性化主頁。在數(shù)據(jù)預(yù)處理過程中會話識別是重要的一步,它取決于用戶訪問模式的有效性和準(zhǔn)確性。為提高準(zhǔn)確性,可采用Cookie法進(jìn)行會話識別。在呈現(xiàn)個性化主頁時,利用用戶的IP地址和Cookie值查詢知識數(shù)據(jù)庫,發(fā)現(xiàn)用戶頻繁訪問的路徑,并自動形成相應(yīng)鏈接,根據(jù)相似用戶群和相關(guān)Web頁推薦給用戶。由于是經(jīng)過挖掘和分析后所產(chǎn)生的動態(tài)主頁,相對于一般的主頁,其針對性更強(qiáng),更受用戶的歡迎。
參考文獻(xiàn):
[1]葉鷹.情報學(xué)基礎(chǔ)教程[M].科學(xué)出版社,2006
[2]栗湘等.Web挖掘應(yīng)用研究[J]情報理論與實踐,2005,(6)
[3]曼麗春等.Web數(shù)據(jù)挖掘研究與探討[J].現(xiàn)在電子技術(shù),2006,(8)
[4]徐險峰.基于Web的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)[J].情報雜志,2005,(3)
文獻(xiàn)標(biāo)識碼:A
計算機(jī)領(lǐng)域新技術(shù)應(yīng)用使各行業(yè)生成、收集和存儲了大量數(shù)據(jù)。大量信息數(shù)據(jù)給社會帶來方便也帶來大堆問題:信息過量,難以消化;信息真假難以辨識;信息安全難以保證;信息形式不一致而難以統(tǒng)一處理。一般數(shù)據(jù)庫系統(tǒng)可高效實現(xiàn)數(shù)據(jù)錄入、查詢與統(tǒng)計等功能,卻無法發(fā)現(xiàn)數(shù)據(jù)存在的關(guān)系和規(guī)則。如何辨析信息和如何不被信息淹沒已經(jīng)成為現(xiàn)實問題。一、數(shù)據(jù)挖掘直面數(shù)據(jù)豐富而知識匱乏的挑戰(zhàn)
面對信息社會帶來的“數(shù)據(jù)豐富而知識匱乏”的現(xiàn)實挑戰(zhàn),數(shù)據(jù)挖掘(Data Mining,DM)和知識發(fā)現(xiàn)(Knowledge Discovery,KD)技術(shù)應(yīng)運而生,伴隨計算機(jī)新技術(shù)和新理論的出現(xiàn)而發(fā)展,在電信與銀行,生物及大型超市等領(lǐng)域運用效果顯著。數(shù)據(jù)挖掘有時又稱作數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD),此術(shù)語出現(xiàn)于1989年,從數(shù)據(jù)集識別有效與新穎的,潛在有用的,最終可理解的模式過程。KDD過程常指多階段處理,包括數(shù)據(jù)準(zhǔn)備與模式搜索,知識評價及反復(fù)修改求精;該過程要有智能性和自動性。有效性指發(fā)現(xiàn)新數(shù)據(jù)仍保持可信度,新穎性要求模式應(yīng)是新的,潛在有用性指發(fā)現(xiàn)的知識將來有效用,最終可理解性要求發(fā)現(xiàn)模式能被用戶所理解,幾項綜合在一起稱為數(shù)據(jù)的科學(xué)性豍。
數(shù)據(jù)挖掘的界定。數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫與數(shù)據(jù)倉庫或其它存儲信息庫中的海量數(shù)據(jù)挖掘有趣知識過程。一般的定義是:數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中抽取隱含其中,事先不為人所知、潛在、有效、新穎、有用和最終可理解知識的過程。研究人工智能學(xué)術(shù)人員和計算機(jī)技術(shù)專家通常所說數(shù)據(jù)挖掘名稱各異但實質(zhì)一樣。自然世界數(shù)據(jù)以多種多樣形式存放,除最常見數(shù)字與字符等類型,還有許多復(fù)雜數(shù)據(jù)。復(fù)雜類型數(shù)據(jù)挖掘包括:空間數(shù)據(jù)挖掘和多媒體數(shù)據(jù)挖掘,時序數(shù)據(jù)挖掘和文本數(shù)據(jù)挖掘,Web數(shù)據(jù)挖掘與流數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)學(xué)統(tǒng)計分析有區(qū)別,數(shù)據(jù)挖掘在沒有明確假設(shè)前提下自動建立方程,可采用不同類型如文本、聲音、圖片等的數(shù)據(jù)挖掘興趣模式;統(tǒng)計數(shù)據(jù)分析工具側(cè)重被動分析,需建立方程或模型來與假設(shè)吻合,最終面對數(shù)字化數(shù)據(jù);數(shù)據(jù)挖掘是主動發(fā)現(xiàn)型與預(yù)測型數(shù)據(jù)分析工具,分析重點在于預(yù)測未來未知潛在情況并解釋原因。二、軟件工程的產(chǎn)生與數(shù)據(jù)實用性
軟件工程概念源自軟件危機(jī),20世紀(jì)60年代末的“軟件危機(jī)”這個詞語頻繁出現(xiàn)計算機(jī)軟件領(lǐng)域,泛指計算機(jī)軟件開發(fā)和維護(hù)所遇到的系列嚴(yán)重問題。在軟件開發(fā)和維護(hù)過程中的軟件危機(jī)表現(xiàn)為軟件需求的增長得不到滿足,軟件開發(fā)成本和進(jìn)度無法控制,軟件質(zhì)量難保證,軟件維護(hù)程度非常低,軟件成本不斷提高,軟件開發(fā)生產(chǎn)率趕不上計算機(jī)硬件發(fā)展和各種應(yīng)用需求增長等。軟件危機(jī)產(chǎn)生的宏觀原因是軟件日益深入社會生活,軟件需求增長速度超過軟件生產(chǎn)率提高,具體軟件工程任務(wù)的許多困難來源于軟件工程所面臨任務(wù)和其他工程之間各種差異以及軟件和其他工業(yè)產(chǎn)品的差異,即特殊性。軟件開發(fā)和維護(hù)過程存在的問題,與計算機(jī)軟件本身特點有關(guān),軟件開發(fā)過程進(jìn)度很難衡量,軟件質(zhì)量難以評價,管理和控制軟件開發(fā)過程困難等。計算機(jī)軟件專家認(rèn)真研究解決軟件危機(jī)方法,逐步形成軟件工程概念,開辟工程學(xué)新領(lǐng)域即軟件工程學(xué)。軟件工程用工程、科學(xué)和數(shù)學(xué)原理與方法研制與維護(hù)計算機(jī)軟件有關(guān)技術(shù)及管理的方法。
軟件工程針對數(shù)據(jù)的處理具有系統(tǒng)的規(guī)范的系列辦法。1993年IEEE(電氣和電子工程師學(xué)會)給軟件工程綜合定義為:將系統(tǒng)化、規(guī)范和可度量的方法應(yīng)用于軟件開發(fā)、測試、運行和維護(hù)全過程,即將工程化應(yīng)用于軟件數(shù)據(jù)等設(shè)計中。軟件工程包括方法、工具和過程三個要素,方法是完成軟件工程項目技術(shù)手段;工具支持軟件開發(fā)、管理與文檔生成;過程支持軟件開發(fā)各個環(huán)節(jié)控制與管理。軟件工程的發(fā)展伴隨計算機(jī)與數(shù)據(jù)等相關(guān)技術(shù)的發(fā)展而進(jìn)步。三、軟件工程的知識庫應(yīng)用數(shù)據(jù)挖掘技術(shù)
蘊含數(shù)據(jù)的特殊軟件的生命周期也是一個極其復(fù)雜演變過程,各個階段都會產(chǎn)生大量軟件數(shù)據(jù)。在設(shè)計文檔與程序源代碼,交流歷史與Bug報告,軟件運行日志等方面產(chǎn)生的大量數(shù)據(jù),必然存在著對軟件開發(fā)和維護(hù)具有重要價值的信息。如能充分利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這些數(shù)據(jù)隱藏的知識,可提高開發(fā)效率并避免錯誤,增強(qiáng)軟件系統(tǒng)運行穩(wěn)定性和可信性。利用數(shù)據(jù)挖掘技術(shù)處理軟件產(chǎn)生大量數(shù)據(jù)想法在上世紀(jì)70年代就出現(xiàn),但直到最近軟件數(shù)據(jù)挖掘領(lǐng)域才受到越來越多學(xué)者關(guān)注豏。軟件工程國際會議出現(xiàn)關(guān)于軟件數(shù)據(jù)挖掘研究工作組,許多數(shù)據(jù)挖掘會議與期刊陸續(xù)出現(xiàn)多篇高質(zhì)量與軟件工程相關(guān)學(xué)術(shù)論文,軟件數(shù)據(jù)挖掘已成為越來越關(guān)注熱點的研究領(lǐng)域。
[關(guān)鍵詞]數(shù)據(jù)挖掘 風(fēng)險評估 集裝箱
一、引言
隨著我國對外貿(mào)易的快速發(fā)展,進(jìn)境箱量顯著增長?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長趨勢。僅2010年度,共受理進(jìn)境集裝箱申報3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬箱,比去年同期提高了28.20%。進(jìn)境檢出疫情箱數(shù)占查驗箱數(shù)的比例(即查驗檢出率)為3.26%,同比提高0.43個百分點。這反映出進(jìn)境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進(jìn)境集裝箱檢疫面臨形勢十分嚴(yán)峻。
目前,在進(jìn)境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗式方法,效率比較低,工作量繁重,經(jīng)驗知識傳承性差。但是在多年來的實踐過程中,我們已經(jīng)積累了大量的經(jīng)驗和數(shù)據(jù)。通過數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識可以為入境集裝箱風(fēng)險進(jìn)行評估,并為檢疫業(yè)務(wù)決策提供輔助支持。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應(yīng)用的模式和知識來指導(dǎo)檢疫業(yè)務(wù)。
數(shù)據(jù)分類(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個重要分支。從根本上說,數(shù)據(jù)分類就是通過對源數(shù)據(jù)的特點進(jìn)行歸納和描述。要進(jìn)行數(shù)據(jù)分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應(yīng)用最多,具有非常高的使用價值。
三、數(shù)據(jù)概念模型
根據(jù)從進(jìn)境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進(jìn)境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問題——7類問題,對應(yīng)每一類問題需要建立一個可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:
(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運人;④貨運方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對應(yīng)各類問題集裝箱的風(fēng)險數(shù)據(jù)字典;
(2)CIQ數(shù)據(jù)庫中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過與場站、貨運公司的比對才能獲得。同時,要對數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。
四、風(fēng)險評估模型
對進(jìn)境集裝箱進(jìn)行風(fēng)險評估主要用到數(shù)據(jù)挖掘中的重要分支——分類技術(shù),建立和完善風(fēng)險評估模型關(guān)系到風(fēng)險評估系統(tǒng)研究的成敗,主要研究內(nèi)容如下:
(1)分類技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實際選擇合適的算法進(jìn)行數(shù)據(jù)挖掘,并在實踐中對模型進(jìn)行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進(jìn)行逐類數(shù)據(jù)挖掘、建模。
五、典型系統(tǒng)應(yīng)用開發(fā)
基于上述的研究成果,設(shè)計實現(xiàn)一個基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險評估管理系統(tǒng),重點關(guān)注下面系統(tǒng),如圖1所示:
(1)面向檢疫查驗人員設(shè)計并實現(xiàn)一個基于Web技術(shù)的軟件系統(tǒng),通過此軟件,檢疫管理人員可以將已有風(fēng)險評估模型軟件化,系統(tǒng)接收進(jìn)境集裝箱特征數(shù)據(jù),自動對風(fēng)險進(jìn)行預(yù)評估。同時,將用于風(fēng)險評估的數(shù)據(jù)獨立于CIQ數(shù)據(jù)庫存在,為以后進(jìn)一步完善風(fēng)險評估模型提供數(shù)據(jù)庫支持。
(2)面向檢疫查驗人員設(shè)計并實現(xiàn)一個軟件終端,考慮到檢疫查驗一線人員工作環(huán)境分散、移動的特點,重點面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機(jī)、PDA、iPOD等)展開研發(fā)。
圖 基于數(shù)據(jù)挖掘技術(shù)的風(fēng)險評估系統(tǒng)
六、結(jié)論
針對出入境檢驗檢疫部門在對進(jìn)境集裝箱檢疫查驗中盲目性大、工作效率低等客觀實際,研究一個基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險評估模型,并將其軟件化、實用化,通過軟件自動對進(jìn)境集裝箱進(jìn)行風(fēng)險等級評估,指導(dǎo)日常檢疫查驗工作,降低檢驗查驗的盲目性,提升檢疫查驗人員的工作效率,提高把關(guān)成效。
參考文獻(xiàn):
[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類管理系統(tǒng)中的應(yīng)用.安徽:安徽大學(xué)碩士論文.2010
[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評估系統(tǒng)的研究與開發(fā).武漢:武漢理工大學(xué)碩士論文.2002
論文關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務(wù);web數(shù)據(jù)挖掘
1 引言
當(dāng)前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,有效推動了商務(wù)活動由傳統(tǒng)活動向電子商務(wù)變革。電子商務(wù)就是利用計算機(jī)和網(wǎng)絡(luò)技術(shù)以及遠(yuǎn)程通信技術(shù),實現(xiàn)整個商務(wù)活動的電子化、數(shù)字化和網(wǎng)絡(luò)化?;趇nternet的電子商務(wù)快速發(fā)展,使現(xiàn)代企業(yè)積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅能給企業(yè)帶來更多有用信息,同時還使其他現(xiàn)代企業(yè)管理者能夠及時準(zhǔn)確的搜集到大量的數(shù)據(jù)。訪問客戶提供更多更優(yōu)質(zhì)的服務(wù),成為電子商務(wù)成敗的關(guān)鍵因素,因而受到現(xiàn)代電子商務(wù)經(jīng)營者的高度關(guān)注,這也對計算機(jī)web數(shù)據(jù)技術(shù)提出了新的要求,web 數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。它是一種能夠從網(wǎng)上獲取大量數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學(xué)合理制定和調(diào)整營銷策略,為客戶提供動態(tài)、個性化、高效率服務(wù)的全新技術(shù)。目前,它已成為電子商務(wù)活動中不可或缺的重要載體。
2 計算機(jī)web數(shù)據(jù)挖掘概述
2.1 計算機(jī)web數(shù)據(jù)挖掘的由來
計算機(jī)web數(shù)據(jù)挖掘是一個在web資源上將對自己有用的數(shù)據(jù)信息進(jìn)行篩選的過程。web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到web應(yīng)用中,即從現(xiàn)有的web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計算機(jī)web數(shù)據(jù)挖掘可以在多領(lǐng)域中展示其作用,目前已被廣泛應(yīng)用于數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等多個方面,其中對商務(wù)活動的變革起到重大的推動作用方面最為明顯。
2.2 計算機(jī)web數(shù)據(jù)挖掘含義及特征
(1) web數(shù)據(jù)挖掘的含義。
web 數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術(shù)在web 環(huán)境下的應(yīng)用,是一項數(shù)據(jù)挖掘技術(shù)與www技術(shù)相結(jié)合產(chǎn)生的新技術(shù),綜合運用到了計算機(jī)語言、internet、人工智能、統(tǒng)計學(xué)、信息學(xué)等多個領(lǐng)域的技術(shù)。具體說,就是通過充分利用網(wǎng)絡(luò)(internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網(wǎng)絡(luò)用戶登記信息等內(nèi)容,從中找出隱性的、潛在有用的和有價值的信息,最后再用于企業(yè)管理和商業(yè)決策。
(2)web數(shù)據(jù)挖掘的特點。
計算機(jī)web數(shù)據(jù)挖掘技術(shù)具有以下特點:一是用戶不用提供主觀的評價信息;二是用戶“訪問模式動態(tài)獲取”不會過時;三是可以處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,web是一個巨大、分布廣泛、全球性的信息服務(wù)中心。
(3)計算機(jī)web數(shù)據(jù)挖掘技術(shù)的類別。
web數(shù)據(jù)挖掘技術(shù)共有三類:第一類是web使用記錄挖掘。就是通過網(wǎng)絡(luò)對web 日志記錄進(jìn)行挖掘,查找用戶訪問web頁面的模式及潛在客戶等信息,以此提高其站點所有服務(wù)的競爭力。第二類是web內(nèi)容挖掘。既是指從web文檔中抽取知識的過程。第三類是web結(jié)構(gòu)挖掘。就是通過對web上大量文檔集合的內(nèi)容進(jìn)行小結(jié)、聚類、關(guān)聯(lián)分析的方式,從web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中預(yù)測相關(guān)信息和知識。
3 計算機(jī)web數(shù)據(jù)挖掘技術(shù)與電子商務(wù)的關(guān)系
借助計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的日臻成熟,電子商務(wù)正以其快速、便捷的特點受到越來越多的企業(yè)和個人的關(guān)注。隨著電子商務(wù)企業(yè)業(yè)務(wù)規(guī)模的不斷擴(kuò)大,電子商務(wù)企業(yè)的商品和客戶數(shù)量也隨之迅速增加,電子商務(wù)企業(yè)以此獲得了大量的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務(wù)企業(yè)客戶管理和銷售管理的重要信息。為了更好地開發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶帶來更多的便利和實惠,各種數(shù)據(jù)挖掘技術(shù)也逐漸被應(yīng)用到電子商務(wù)網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(特別是web數(shù)據(jù)挖掘)技術(shù)構(gòu)建的電子商務(wù)推薦系統(tǒng)正成為電子商務(wù)推薦系統(tǒng)發(fā)展的一種趨勢。
4 計算機(jī)web數(shù)據(jù)挖掘在電子商務(wù)中的具體應(yīng)用
(1)電子商務(wù)中的web數(shù)據(jù)挖掘的過程。
在電子商務(wù)中,web數(shù)據(jù)挖掘的過程主要有以下三個階段:既是數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘操作階段、結(jié)果表達(dá)和解釋階段。如果在結(jié)果表達(dá)階段中,分析結(jié)果不能讓電子商務(wù)企業(yè)的決策者滿意,就需要重復(fù)上述過程,直到滿意為止。
(2)web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。
目前,電子商務(wù)在企業(yè)中得到廣泛應(yīng)用,極大地促進(jìn)了電子商務(wù)網(wǎng)站的興起,經(jīng)過分析一定時期內(nèi)站點上的用戶的訪問信息,便可發(fā)現(xiàn)該商務(wù)站點上潛在的客戶群體、相關(guān)頁面、聚類客戶等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會獲得大量的數(shù)據(jù),如此多的數(shù)據(jù)使web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),使它在各種商業(yè)領(lǐng)域有著更加重要的實用價值。因而,電子商務(wù)必將是未來web數(shù)據(jù)挖掘的主攻方向。web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用主要包含以下幾方面:
一是尋找潛在客戶。電子商務(wù)活動中,企業(yè)的銷售商可以利用分類技術(shù)在internet上找到潛在客戶,通過挖掘web日志記錄等信息資源,對訪問者進(jìn)行分類,尋找訪問客戶共同的特征和規(guī)律,然后從已經(jīng)存在的分類中找到潛在的客戶。
二是留住訪問客戶。電子商務(wù)企業(yè)通過商務(wù)網(wǎng)站可以充分挖掘客戶瀏覽訪問時留下的信息,了解客戶的瀏覽行為,然后根據(jù)客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產(chǎn)品,以此來不斷提高網(wǎng)站訪問的滿意度,最大限度延長客戶駐留的時間,實現(xiàn)留住老客戶發(fā)掘新客戶的目的。
三是提供營銷策略參考。通過web數(shù)據(jù)挖掘,電子商務(wù)企業(yè)銷售商能夠通過挖掘商品訪問情況和銷售情況,同時結(jié)合市場的變化情況,通過聚類分析的方法,推導(dǎo)出客戶訪問的規(guī)律,不同的消費需求以及消費產(chǎn)品的生命周期等情況,為決策提供及時而準(zhǔn)確的信息參考,以便決策者能夠適時做出商品銷售策略調(diào)整,優(yōu)化商品營銷。
四是完善商務(wù)網(wǎng)站設(shè)計。電子商務(wù)網(wǎng)站站點設(shè)計者能夠利用關(guān)聯(lián)規(guī)則,來了解客戶的行為記錄和反饋情況,并以此作為改進(jìn)網(wǎng)站的依據(jù),不斷對網(wǎng)站的組織結(jié)構(gòu)進(jìn)行優(yōu)化來方便客戶訪問,不斷提高網(wǎng)站的點擊率。
摘要在對復(fù)雜流程制造業(yè)生產(chǎn)過程的數(shù)據(jù)特點進(jìn)行充分分析的基礎(chǔ)上,緊密結(jié)合流程制造業(yè)綜合自動化的應(yīng)用需求,給出了流程制造業(yè)數(shù)據(jù)挖掘的體系框架,分析了流程制造業(yè)數(shù)據(jù)挖掘中的關(guān)鍵問題。
關(guān)鍵詞:數(shù)據(jù)挖掘;流程制造業(yè);海量數(shù)據(jù)
近年來,數(shù)據(jù)挖掘技術(shù)已經(jīng)在商業(yè)、金融、管理、工業(yè)等眾多領(lǐng)域廣泛應(yīng)用并取得了重大進(jìn)展,但大都僅限于企業(yè)的商業(yè)信息,在企業(yè)的生產(chǎn)過程中應(yīng)用的還比較少。
目前,在復(fù)雜流程制造業(yè)生產(chǎn)過程中,由于各種先進(jìn)工藝和工程技術(shù)的廣泛采用,產(chǎn)生和積累了大量的各種類型的歷史數(shù)據(jù)和當(dāng)前生產(chǎn)的實時動態(tài)數(shù)據(jù),這些海量生產(chǎn)數(shù)據(jù)又包含用于生產(chǎn)和管理的大量的有價值的信息和知識。一方面,為了避免產(chǎn)品的設(shè)計知識數(shù)據(jù)重用率低,無法有效地實現(xiàn)產(chǎn)品配置設(shè)計和變形設(shè)計,延長了產(chǎn)品的設(shè)計周期;另一方面,為了能夠為過程監(jiān)測、診斷、能效分析、先進(jìn)控制、優(yōu)化和調(diào)度、管理等各層次提供決策支持,使得流程制造業(yè)綜合自動化系統(tǒng)性能達(dá)到最優(yōu)。這就需要一種高效可靠的分析工具,把隱藏在海量數(shù)據(jù)中的有用的深層次的知識和信息挖掘出來,提取這些數(shù)據(jù)的整體特征、關(guān)聯(lián)及對其發(fā)展趨勢的預(yù)測等,以幫助決策者提出問題、發(fā)現(xiàn)問題、分析問題和解決問題?;诹鞒讨圃鞓I(yè)的生產(chǎn)特點和數(shù)據(jù)性質(zhì)以及所面臨的問題,數(shù)據(jù)挖掘技術(shù)是解決流程制造業(yè)產(chǎn)生的海量信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一,并且數(shù)據(jù)挖掘技術(shù)也是目前國內(nèi)外研究的一個熱點。
本文從流程制造業(yè)的生產(chǎn)數(shù)據(jù)的特點及分析需求出發(fā),建立了一般流程制造業(yè)數(shù)據(jù)挖掘的體系結(jié)構(gòu),并分析了流程制造業(yè)數(shù)據(jù)挖掘中的關(guān)鍵問題,總結(jié)了數(shù)據(jù)挖掘方法在流程制造業(yè)領(lǐng)域的數(shù)據(jù)應(yīng)用技術(shù)方向。
一、數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是近年來隨著人工智能和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)。它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒有一個標(biāo)準(zhǔn)的定義,簡單地說,數(shù)據(jù)挖掘就是從大量的已知數(shù)據(jù)中找出隱藏的、可信的、未知的、有用的信息,探索數(shù)據(jù)中隱藏的規(guī)律用來預(yù)測未來,其中數(shù)據(jù)可以放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中。數(shù)據(jù)挖掘工具能夠從企業(yè)數(shù)以百萬筆的歷史數(shù)據(jù)中提取有用的信息,為企業(yè)的生產(chǎn)與經(jīng)營提供決策依據(jù)。
數(shù)據(jù)挖掘過程由以下步驟組成:
1.挖掘主題――明確挖掘的要求、內(nèi)容及目標(biāo);
2.數(shù)據(jù)預(yù)處理――包括數(shù)據(jù)清理、數(shù)據(jù)歸約、數(shù)據(jù)集成與變換、離散化與概念提升等;
3.挖掘算法選擇――包括類的選擇、算法選擇及算法軟件選擇;
4.構(gòu)造數(shù)據(jù)挖掘(軟件、硬件)平臺;
5.結(jié)果展示及評價。
以上步驟是一個反復(fù)迭代的過程,最終目的是在數(shù)據(jù)中獲得有用的知識。在實踐中,數(shù)據(jù)挖掘的兩個基本目標(biāo)往往是預(yù)測和描述。預(yù)測涉及到使用數(shù)據(jù)集中的一些變量或域來預(yù)測其他我們所關(guān)心變量的求知或未來的值;另一方面,描述關(guān)注的則是找出描述可由人類解釋的數(shù)據(jù)模式。因此,數(shù)據(jù)挖掘活動可分成預(yù)測性數(shù)據(jù)挖掘和描述性數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法大致可分為關(guān)聯(lián)(Apriori算法)、分類(決策樹算法、粗糙集、人工神經(jīng)網(wǎng)絡(luò)等)、聚類(層次、遺傳算法、劃分法等)三種。 簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。
二、流程制造業(yè)數(shù)據(jù)特點
制造業(yè)(Manufacturing Industry)是指經(jīng)物理變化或化學(xué)變化后成為了新的產(chǎn)品,不論是動力機(jī)械制造,還是手工制作;也不論產(chǎn)品是批發(fā)銷售,還是零售,均視為制造。制造業(yè)按其產(chǎn)品制造工藝過程特點總體上可概括為離散型制造業(yè)和流程制造業(yè)兩種。典型的離散型制造行業(yè)包括電腦、汽車及工業(yè)用品制造等行業(yè);典型的流程制造行業(yè)包括化工,食品飲料,制藥,化妝品等以配方為基礎(chǔ)的行業(yè)。
流程制造業(yè)是工程學(xué)科的一個重要研究領(lǐng)域,系統(tǒng)非常復(fù)雜,成品一旦生產(chǎn)出來,就不能再提取它,回到它的原始成分。流程制造業(yè)整個流程生產(chǎn)過程是一個動態(tài)的過程,產(chǎn)出量、物料特性、甚至物料加工路線受到原材料成分波動、操作、加工溫度壓力、設(shè)備等等波動的影響,并且不可預(yù)知。流程制造業(yè)制造過程是連續(xù)、在線的,所以說更加強(qiáng)調(diào)生產(chǎn)過程的跟蹤和調(diào)整,主要靠實時的跟蹤、控制糾偏。基于流程制造業(yè)的生產(chǎn)特點,流程制造業(yè)數(shù)據(jù)尤其是實際生產(chǎn)過程中的數(shù)據(jù)非常復(fù)雜,現(xiàn)在的流程制造業(yè)生產(chǎn)過程都采用了計算機(jī)控制系統(tǒng)定時采集系統(tǒng)的變量和設(shè)備狀態(tài),以供顯示、控制之用,日積月累產(chǎn)生大量的冗余數(shù)據(jù);同時又由于離散決策變量和連續(xù)決策變量同時存在,各種變量的值是在不斷變化的,數(shù)據(jù)類型也是多樣的,系統(tǒng)中既包括連續(xù)過程變量,也包括離散過程變量,使得這些它們之間有較強(qiáng)的耦合及非線性;許多變量的變化快慢各異,采集信號的頻率不同,導(dǎo)致時間上的不同步,在數(shù)據(jù)記錄上也可能丟失數(shù)據(jù),造成數(shù)據(jù)的不完整;流程制造業(yè)系統(tǒng)環(huán)境復(fù)雜,電、磁、噪聲干擾較強(qiáng),加之系統(tǒng)的不確定性,導(dǎo)致數(shù)據(jù)受污染。簡言之,流程制造業(yè)數(shù)據(jù)具有不確定性、動態(tài)性、不完整性、多時標(biāo)性(部分不同變量采用不同的采樣周期)和數(shù)據(jù)類型多樣性、多模態(tài)性,非線性、強(qiáng)耦合性和交錯性等特點,致使全流程的模擬、診斷、決策與優(yōu)化變得極為困難,而數(shù)據(jù)挖掘技術(shù)對這些問題提供了一定的解決方案。
三、流程制造業(yè)數(shù)據(jù)挖掘的體系結(jié)構(gòu)
流程制造業(yè)數(shù)據(jù)挖掘體系結(jié)構(gòu)的確定是流程制造業(yè)數(shù)據(jù)挖掘項目成功的基礎(chǔ),依據(jù)流程制造業(yè)數(shù)據(jù)的特點以及數(shù)據(jù)挖掘技術(shù)的要求,構(gòu)建流程制造業(yè)數(shù)據(jù)挖掘的總體框架。如圖1所示:
圖1 流程制造業(yè)數(shù)據(jù)挖掘體系結(jié)構(gòu)
1.數(shù)據(jù)預(yù)處理
流程制造業(yè)生產(chǎn)過程中產(chǎn)生的海量數(shù)據(jù)一般是不完整的、含噪聲的和不一致的,數(shù)據(jù)預(yù)處理技術(shù)(數(shù)據(jù)采樣、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等)可以檢測數(shù)據(jù)異常,改進(jìn)數(shù)據(jù)質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。
2.數(shù)據(jù)歸約
流程制造業(yè)生產(chǎn)過程中產(chǎn)生的海量數(shù)據(jù)經(jīng)過預(yù)處理后,數(shù)據(jù)質(zhì)量有了很大的提高,在此基礎(chǔ)上構(gòu)造數(shù)據(jù)倉庫和OLAP,數(shù)據(jù)倉庫中的數(shù)據(jù)集非常大,對海量數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰喈?dāng)長的時間,通過數(shù)據(jù)歸約技術(shù)可以將數(shù)據(jù)集中不相關(guān)、弱相關(guān)或冗余的屬性或刪除,并能保持原數(shù)據(jù)的完整性,對歸約后的數(shù)據(jù)集進(jìn)行挖掘?qū)⒏行Вa(chǎn)生相同(幾乎相同)的分析結(jié)果。
3.挖掘方法選擇器
方法選擇專家系統(tǒng)及知識庫根據(jù)不同的挖掘要求選擇最有效的挖掘算法或幾種算法的序列組合,并且不斷地更新知識庫,用選擇的方法去執(zhí)行挖掘任務(wù)。目前系統(tǒng)常用的挖掘方法有統(tǒng)計分析方法、決策樹、人工神經(jīng)網(wǎng)絡(luò)、基因算法、粗糙集等。
4.評估界面 執(zhí)行數(shù)據(jù)挖掘任務(wù)得到的結(jié)果往往是一些抽象的模型或數(shù)據(jù),因此,系統(tǒng)提供了一種解釋機(jī)制,以一種直覺的方式來表現(xiàn)數(shù)據(jù)挖掘的結(jié)果,比如用文字、圖表和報表等多種可視化手段,幫助分析決策人員具體地了解所挖掘的結(jié)果。
四、流程制造業(yè)數(shù)據(jù)挖掘的關(guān)鍵問題
1.數(shù)據(jù)的質(zhì)量和數(shù)量
流程制造業(yè)數(shù)據(jù)挖掘的最根本問題在于數(shù)據(jù)的數(shù)量和質(zhì)量。一方面,數(shù)據(jù)量越充足,越能保證獲取的數(shù)據(jù)的連續(xù)性,從而易發(fā)現(xiàn)系統(tǒng)的一般性規(guī)律;另一方面,數(shù)據(jù)的準(zhǔn)確性和可靠性也是一切建模和分析是否有效的關(guān)鍵。因此,要盡可能完備地搜集與所研究問題相關(guān)的信息資料,包括公開和未公開的數(shù)據(jù)資料,然后從眾多的資料中把有用的部分挑選出來。挑選數(shù)據(jù)資料時應(yīng)按照相關(guān)性、可靠性、最新性等原則進(jìn)行。然后挑選出符合一定標(biāo)準(zhǔn)的資料,加以深入研究。然而收集數(shù)據(jù)資料并不容易,尤其是在我國當(dāng)前的情況下,各層次的資料往往不夠完整,真實性也有存在很大的問題,再加上涉及到數(shù)據(jù)的保密性問題,所以無形中就增加了數(shù)據(jù)搜集的難度,從而數(shù)據(jù)的數(shù)量和質(zhì)量也就難以保證。
2.數(shù)據(jù)倉庫的建立
從數(shù)據(jù)挖掘的定義可以看出,數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉庫緊密聯(lián)系在一起,將獲得意外的成功。傳統(tǒng)的觀點認(rèn)為,數(shù)據(jù)挖掘技術(shù)扎根于計算科學(xué)和數(shù)學(xué),不需要也不得益于數(shù)據(jù)倉庫。這種觀點并不正確。成功的數(shù)據(jù)挖掘的關(guān)鍵之一就是通過訪問正確、完整和集成的數(shù)據(jù),然后再進(jìn)行深層次的分析,尋求有益的信息,而這些正是數(shù)據(jù)倉庫所能夠提供的。數(shù)據(jù)倉庫不僅是集成數(shù)據(jù)的一種方式,而且數(shù)據(jù)倉庫的聯(lián)機(jī)分析功能(OLAP)還為數(shù)據(jù)挖掘提供了一個極佳的操作平臺。如果數(shù)據(jù)倉庫與數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)有效的聯(lián)結(jié).這將給數(shù)據(jù)挖掘帶來各種便利和功能。
數(shù)據(jù)倉庫為數(shù)掘挖掘提供了更廣闊的活動空間。數(shù)據(jù)倉庫完成數(shù)據(jù)的收集、集成、存儲、管理等工作、數(shù)據(jù)挖掘面對的是經(jīng)初步加工的數(shù)據(jù),使得數(shù)據(jù)挖掘能更專注于知識的發(fā)現(xiàn)。又由于數(shù)據(jù)倉庫所具有的新特點,對數(shù)據(jù)挖掘技術(shù)提出了更高的要求。另一方面,數(shù)據(jù)挖掘為數(shù)據(jù)倉庫提供了更好的決策支持,同時促進(jìn)了數(shù)據(jù)倉庫技術(shù)的發(fā)展。因此,數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)要充分發(fā)揮潛力。就必須結(jié)合起來。
3.數(shù)據(jù)挖掘方法的選擇與應(yīng)用
目前數(shù)據(jù)挖掘方法很多,面對各層次不同的海量數(shù)據(jù),應(yīng)如何選擇和應(yīng)用其方法,是數(shù)據(jù)挖掘的另一關(guān)鍵問題。不同的人對同樣的數(shù)據(jù)進(jìn)行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大。因此,合理選擇分析方法很重要。數(shù)據(jù)挖掘常用的算法包括:統(tǒng)計分析、關(guān)聯(lián)規(guī)則、聚類分析、決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊集等,每種方法都有所側(cè)重,應(yīng)全面了解每種方法的基本原理與優(yōu)劣之處,選擇與要解決問題類型相匹配的數(shù)據(jù)挖掘方法。比如,神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納方法、決策樹學(xué)習(xí)、遺傳算法等適用于分類問題;硬均值聚類、模糊均值聚類、神經(jīng)網(wǎng)絡(luò)等適用于聚類;回歸分析、時間序列、神經(jīng)網(wǎng)絡(luò)等適用于預(yù)測。實際應(yīng)用時,還要確定數(shù)據(jù)挖掘方法是直接應(yīng)用還是建模嵌入的開發(fā)應(yīng)用。
數(shù)據(jù)挖掘模型是數(shù)據(jù)挖掘算法的實際應(yīng)用,在流程制造業(yè)領(lǐng)域進(jìn)行數(shù)據(jù)挖掘必須針對流程制造業(yè)生產(chǎn)過程中產(chǎn)生的數(shù)據(jù)特點及特定的挖掘目標(biāo),選擇各層次數(shù)據(jù)的合適數(shù)據(jù)挖掘算法。
4.結(jié)果的解釋及評價
數(shù)據(jù)挖掘的結(jié)果是不確定的。因此,需要和專業(yè)知識相結(jié)合才能對其做出解釋,并在此基礎(chǔ)上評價模型的合理性,以提供科學(xué)的決策支持信息。
評價模型的合理性,即看模型是否準(zhǔn)確反映數(shù)據(jù)的真實意義,是否有實際意義和實用價值。評價的方法之一是直接使用原來建立模型的樣板數(shù)據(jù)來進(jìn)行檢驗;另一種辦法是另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實際的規(guī)律性的;再有一種辦法就是在實際運行的環(huán)境中取出新鮮數(shù)據(jù)進(jìn)行檢驗。
需要強(qiáng)調(diào)的是,要想真正做好數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工具只是其中的一個方面。流程制造業(yè)數(shù)據(jù)挖掘的成功要求對流程制造業(yè)領(lǐng)域有深刻的了解,理解流程制造業(yè)要素數(shù)據(jù)的屬性,了解數(shù)據(jù)采集的過程,同時還需要對流程制造業(yè)生產(chǎn)過程有足夠的數(shù)據(jù)分析經(jīng)驗。
五、結(jié)束語
數(shù)據(jù)挖掘在企業(yè)中的應(yīng)用目前主要集中在市場推廣方面。如客戶特征、購物關(guān)聯(lián)分析及客戶關(guān)系管理,這方面技術(shù)相對來說已經(jīng)比較成熟,很好地解決了企業(yè)的許多商業(yè)信息問題,但應(yīng)用于工業(yè)制造生產(chǎn)流程還處于理論研究和初步實踐階段,起步較晚,并且實際成功應(yīng)用的事例也較少,基于此,數(shù)據(jù)挖掘技術(shù)更能顯現(xiàn)出它巨大的發(fā)展?jié)摿?,根?jù)流程制造業(yè)的數(shù)據(jù)特點,量身定制合適的數(shù)據(jù)挖掘工具,為流程制造業(yè)提供決策依據(jù),解決流程制造業(yè)存在的不同程度的問題。
參考文獻(xiàn):
[1] Jiawei Han,Micheline Kanmber. Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,2001
[2] 朱群雄,麻德賢.過程工業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用.計算機(jī)與應(yīng)用化學(xué)[J].2004
[3] 孟永勝.裝備制造業(yè)產(chǎn)品制造數(shù)據(jù)集成管理研究與應(yīng)用 [博士學(xué)位論文].大連:大連理工大學(xué),2006
[4] 余軍合.面向全生命周期虛擬產(chǎn)品模型的研究與應(yīng)用 [博士學(xué)位論文].杭州:浙江大學(xué),2002
[關(guān)鍵詞] 數(shù)據(jù)挖掘工具 個性化營銷 電子商務(wù)企業(yè)
一、引言
一個成功的電子商務(wù)運作過程,需要完美整合三個要素――網(wǎng)絡(luò)技術(shù)、商業(yè)模式和營銷(網(wǎng)絡(luò)營銷)。網(wǎng)絡(luò)營銷是企業(yè)營銷實踐與現(xiàn)代信息通訊技術(shù)、計算機(jī)網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物,是指企業(yè)以電子信息技術(shù)為基礎(chǔ),以計算機(jī)網(wǎng)絡(luò)為媒介和手段而進(jìn)行的各種營銷活動(包括網(wǎng)絡(luò)調(diào)研、網(wǎng)絡(luò)新產(chǎn)品開發(fā)、網(wǎng)絡(luò)促銷、網(wǎng)絡(luò)分銷、網(wǎng)絡(luò)服務(wù)等)的總稱。
具有交互性、跨時空、低成本、高效性等優(yōu)點的網(wǎng)絡(luò)營銷這一概念在中國出現(xiàn)才剛剛開展10年的時間,雖然理論體系還不完善,上網(wǎng)的企業(yè)數(shù)量還比較少,但是,這種基于互聯(lián)網(wǎng)的新型營銷方式已經(jīng)引起廣泛關(guān)注,并對企業(yè)的經(jīng)營戰(zhàn)略產(chǎn)生越來越大的影響。當(dāng)前各種形式的網(wǎng)絡(luò)廣告、網(wǎng)絡(luò)調(diào)研、網(wǎng)絡(luò)分銷等網(wǎng)絡(luò)營銷活動正活躍在企業(yè)的市場活動中。網(wǎng)絡(luò)營銷使得大公司、小公司“同臺競技”“規(guī)模經(jīng)濟(jì)”與“小批量、多品種”生產(chǎn)并存。網(wǎng)絡(luò)營銷把企業(yè)帶入小型化、多樣化和復(fù)雜化競爭的時代。
隨著技術(shù)的發(fā)展,信息鋪天蓋地,不僅企業(yè)被淹沒在大量的信息中,就連顧客也不得不花大量的時間來尋找、瀏覽自己感興趣的信息。根據(jù)菲利普?科特勒的顧客讓渡價值理論,顧客讓渡價值=總顧客價值-總顧客成本。總顧客價值是顧客從某一特定產(chǎn)品或服務(wù)中獲得的一系列價值,包括產(chǎn)品價值、服務(wù)價值、人員價值和形象價值??傤櫩统杀臼穷櫩驮跒橘徺I該產(chǎn)品或服務(wù)所耗費的費用,不僅包括貨幣成本,還包括時間成本、精神成本、體力成本等非貨幣成本??梢姙榱速徺I特定產(chǎn)品,在電子商務(wù)這種特殊市場中,瀏覽信息所花費的時間成本、精神成本、體力成本等也直接影響著總顧客讓渡價值。
Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)上的應(yīng)用,正是為了更加有效的掌握信息,服務(wù)于顧客,Web數(shù)據(jù)挖掘技術(shù)的路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、分類規(guī)則的發(fā)現(xiàn)、聚類分析等方法,可以應(yīng)用于發(fā)現(xiàn)潛在顧客、改進(jìn)站點鏈接結(jié)構(gòu)設(shè)計、對顧客進(jìn)行聚類分級從而分析組中顧客的共同特征,并為相應(yīng)的顧客提供優(yōu)質(zhì)個性化服務(wù),使顧客在瀏覽信息時有針對性,節(jié)省時間成本、精神成本、體力成本等,最終使總顧客成本得以降低。
二、個性化營銷
個性化營銷是把一個顧客看成一個顧客群,將鎖定銷售目標(biāo)的活動發(fā)揮到極致的程度。充分體現(xiàn)了“顧客至上”,“顧客永遠(yuǎn)是正確的”,“愛你的顧客而非產(chǎn)品”等現(xiàn)代市場營銷觀念。消費者選購商品時完全以“自我”為中心,現(xiàn)有商品不能滿足需求,則可向企業(yè)提出具體要求,企業(yè)也能滿足這一要求,這樣既能最大限度滿足消費者個性化需求,又能增強(qiáng)企業(yè)產(chǎn)品的市場競爭力。同時由于和消費者保持長期的互動關(guān)系,企業(yè)能及時了解市場需求的變化,有針對性的生產(chǎn),不會造成產(chǎn)品積壓??s短再生產(chǎn)周期,降低流通費用,從而提高企業(yè)經(jīng)濟(jì)效益。
在電子商務(wù)環(huán)境下,實現(xiàn)個性化營銷可以利用的資源包括個性化網(wǎng)站、顧客數(shù)據(jù)庫,網(wǎng)絡(luò)營銷工具。即企業(yè)在互動式網(wǎng)站和數(shù)據(jù)庫為支撐工具的前提下,整合運用個性化的網(wǎng)站、個性化的E-mail、個性化的網(wǎng)頁、顧客的興趣追蹤等相關(guān)工具,既可以與顧客建立親密友好的聯(lián)系,又可以創(chuàng)建個性化的營銷信息,包括每個顧客的喜好、購買模式、針對他的最有效的溝通技巧等,以此來提供個性化的產(chǎn)品和顧客服務(wù),開展個性化營銷活動。
下圖反映出一個具備個性化營銷服務(wù)功能的系統(tǒng)功能層次結(jié)構(gòu)。
由圖看出,系統(tǒng)要得到上層所提供的個性化營銷服務(wù),需要從底層數(shù)據(jù)庫獲取交易數(shù)據(jù)、顧客數(shù)據(jù)、財務(wù)數(shù)據(jù)、市場數(shù)據(jù)等,將底層數(shù)據(jù)析取到數(shù)據(jù)倉庫中,在數(shù)據(jù)倉庫中建立以顧客、銷售和財務(wù)等為主題的多維數(shù)據(jù)模型,并在保留原有數(shù)據(jù)的基礎(chǔ)上,不斷刷新數(shù)據(jù)倉庫的數(shù)據(jù),接著進(jìn)行指標(biāo)分析、多維數(shù)據(jù)分析和數(shù)據(jù)挖掘。主要內(nèi)容有顧客分析、忠誠度分析、銷售分析、顧客反饋分析、財務(wù)分析等。
通過對顧客屬性特征、交易行為和資金能力的分析,提取各種與顧客交易之靜態(tài)特征和動態(tài)特征相關(guān)的知識,對顧客進(jìn)行必要細(xì)分,從而有針對性地對顧客施加1對1的個性化營銷服務(wù),提高電子商務(wù)企業(yè)的認(rèn)知能力和服務(wù)創(chuàng)新水平,擴(kuò)大其獲利機(jī)會。
可見上層的個性化營銷功能的獲得是底層數(shù)據(jù)所不能直接提供的,需要經(jīng)過中間析取到數(shù)據(jù)倉庫中,面向主題對數(shù)據(jù)進(jìn)行組織與管理后,再利用數(shù)據(jù)挖掘技術(shù)才能實現(xiàn)的。
三、數(shù)據(jù)挖掘工具及選擇分析
數(shù)據(jù)挖掘技術(shù)讓人們有能力最終認(rèn)識數(shù)據(jù)的真正價值,即蘊藏在數(shù)據(jù)中的信息和知識。它使得許多商業(yè)公司充分認(rèn)識到深層次地分析本公司業(yè)務(wù)數(shù)據(jù)庫中的數(shù)據(jù)能夠帶來更多的商業(yè)機(jī)會。尤其對于電子商務(wù)企業(yè),它很容易滿足數(shù)據(jù)挖掘所必需要因素:豐富的數(shù)據(jù)源、自動收集的可靠數(shù)據(jù),并且可將挖掘的結(jié)果轉(zhuǎn)化為個性化網(wǎng)絡(luò)營銷這樣的商業(yè)行為,商業(yè)投資可以直接評價。
在不久以前大部分?jǐn)?shù)據(jù)挖掘工具還只能為專門技術(shù)人員所操縱,但現(xiàn)在有更多的公司提供了更高級的數(shù)據(jù)挖掘系統(tǒng),使得非專業(yè)人士也能使用。這些數(shù)據(jù)挖掘工具所基于的技術(shù)主要包括:規(guī)則歸納、神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊邏輯、規(guī)則發(fā)現(xiàn)、模糊專家系統(tǒng)規(guī)則、決策樹、基于實例的推理、歸納邏輯等。
選擇一個滿足本公司實現(xiàn)個性化網(wǎng)絡(luò)營銷的數(shù)據(jù)挖掘工具可從以下方面進(jìn)行考慮:
(1)產(chǎn)生的模式種類
數(shù)據(jù)挖掘模式一般有以下六種:
①分類模式:表現(xiàn)為一棵分類樹,根據(jù)數(shù)據(jù)的值從樹根開始搜索,沿著數(shù)據(jù)滿足的分支往上走,走到樹葉就能確定類別。
②回歸模式:與分類模式相似,其差別在于分類模式的預(yù)測值是離散的,回歸模式的預(yù)測值是連續(xù)的。
③時間序列模式:根據(jù)數(shù)據(jù)隨時間變化的趨勢預(yù)測將來的值。
④聚類模式:把數(shù)據(jù)劃分到不同的組中,組之間的差別盡可能大,組內(nèi)的差別盡可能小,但它與分類模式不同之處在于,進(jìn)行聚類前并不知道將要劃分成同個組和什么樣的組。
⑤關(guān)聯(lián)模式:描述事物之間同時出現(xiàn)的規(guī)律的知識模式。如購買A產(chǎn)品與B產(chǎn)品之間的關(guān)聯(lián)性。
⑥序列模式:與關(guān)聯(lián)模式相似,它把數(shù)據(jù)之間的關(guān)聯(lián)性與時間聯(lián)系起來。
對于個性化營銷,公司的需要反映在:跟蹤和學(xué)習(xí)顧客的興趣和行為;為當(dāng)前用戶尋找k個最相似的鄰居來預(yù)測當(dāng)前用戶的興趣;或找出在什么時間,什么樣顧客對什么樣的產(chǎn)品感興趣等方面。
以上的六種模式中分類模式可以對顧客進(jìn)行分類;時間序列模式可在需求量方面給出預(yù)測結(jié)果;聚類模式可用于顧客聚類.由于它是根據(jù)相似顧客來推薦資源的,即根據(jù)最相似的鄰居來預(yù)測當(dāng)前顧客的興趣,所以有可能為潛在顧客推薦出新的感興趣的內(nèi)容;關(guān)聯(lián)模式找出A產(chǎn)品與B產(chǎn)品之間的關(guān)聯(lián)性;序列模式則可以反映出需求的季節(jié)性。
(2)易操作性
當(dāng)前有的工具有圖形化界面,引導(dǎo)用戶半自動化地執(zhí)行任務(wù);有的使用腳本語言,有些工具提供數(shù)據(jù)挖掘的API,可以嵌入到C、Visual Basic、PowerBuilder等高級編程語言中。
(3)數(shù)據(jù)存取能力
好的數(shù)據(jù)挖掘工具可以使用SQL語句直接從DBMS中讀取數(shù)據(jù)。這樣可以簡化數(shù)據(jù)準(zhǔn)備工作。
(4)與其他產(chǎn)品的接口
在需要其他產(chǎn)品輔助企業(yè)理解數(shù)據(jù)、理解結(jié)果時,數(shù)據(jù)挖掘工具與其他產(chǎn)品的接口就顯得很重要了。
總之,數(shù)據(jù)挖掘工具應(yīng)具備多種模式、多種算法、良好的數(shù)據(jù)選擇和轉(zhuǎn)換能力、可視化、擴(kuò)展性等,使之具備更強(qiáng)的解決復(fù)雜問題的能力。
當(dāng)前比較著名數(shù)據(jù)挖掘工具有IBM Intelligent Miner、SAS Enterprise Miner、SPSS Clementine等,它們都能夠提供常規(guī)的挖掘過程和挖掘模式。
其中Intelligent Miner 通過其世界領(lǐng)先的獨有技術(shù),例如典型數(shù)據(jù)集自動生成、關(guān)聯(lián)發(fā)現(xiàn)、序列規(guī)律發(fā)現(xiàn)、概念性分類和可視化呈現(xiàn),可以自動實現(xiàn)數(shù)據(jù)選擇、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)發(fā)掘和結(jié)果呈現(xiàn)這一整套數(shù)據(jù)發(fā)掘操作。若有必要,對結(jié)果數(shù)據(jù)集還可以重復(fù)這一過程,直至得到滿意結(jié)果為止。根據(jù)IDC 的統(tǒng)計,Intelligent Miner 目前是數(shù)據(jù)發(fā)掘領(lǐng)域最先進(jìn)的產(chǎn)品。
SAS Enterprise Miner 能支持包括關(guān)聯(lián)、聚類、決策樹、神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計回歸在內(nèi)的廣闊范圍的模型數(shù)據(jù)挖掘工具。SAS Enterprise Miner設(shè)計為被初學(xué)者和有經(jīng)驗的用戶使用。它的GUI界面是數(shù)據(jù)流驅(qū)動的,且它易于理解和使用。由于支持多種模型,所以SAS Enterprise Miner允許用戶比較不同模型并利用評估結(jié)點選擇最適合的。SAS Enterprise Miner被設(shè)計成能在所有SAS支持的平臺上運行。
SPSS Clementine是一個開放式數(shù)據(jù)挖掘工具,曾兩次獲得英國政府SMART 創(chuàng)新獎,它不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)--CRISP-DM。Clementine的可視化數(shù)據(jù)挖掘使得"思路"分析成為可能,即將集中精力在要解決的問題本身,而不是局限于完成一些技術(shù)性工作(比如編寫代碼)。提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決辦法。
其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數(shù)據(jù)挖掘軟件Snob、Ashraf Azmy 的SuperQuery 、WINROSA 、XmdvTool 等。
四、總結(jié)
個性化營銷一直是網(wǎng)絡(luò)營銷所關(guān)注的領(lǐng)域之一,但總的來說個性化營銷的思想在網(wǎng)絡(luò)營銷實踐中的體現(xiàn)不夠明顯,效果也難以顯著,究其根本原因正是電子商務(wù)企業(yè)沒有很好地利用數(shù)據(jù)挖掘工具,從底層業(yè)務(wù)數(shù)據(jù)中找到知識和信息。論文通過討論數(shù)據(jù)挖掘工具及其實現(xiàn)模式,結(jié)合個性化營銷的實現(xiàn)目標(biāo)的分析,以期使電子商務(wù)企業(yè)充分利用豐富的底層數(shù)據(jù)源,真正把數(shù)據(jù)挖掘融入到企業(yè)的經(jīng)營決策中。
參考文獻(xiàn):
[1]Claudia Imhoff, Nicholas Galimmo, Jonathan G.Geiger(著),于戈,鮑玉斌,王大玲等譯.數(shù)據(jù)倉庫設(shè)計[M].北京:機(jī)械工業(yè)出版社,2004.12
[2]王緒林:Web使用挖掘的用戶個性化服務(wù)研究[J].信息系統(tǒng),2003,1.
[3]Jiawei Han, Micheline Kamber(著), 范明,孟小東等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社.2004
論文關(guān)鍵詞:電子商務(wù),數(shù)據(jù)挖掘,聚類分析,關(guān)聯(lián)規(guī)則挖掘
1引言
隨著Internet的普及,電子商務(wù)得到了前所未有的發(fā)展,經(jīng)銷商和客戶之間通過互聯(lián)網(wǎng)進(jìn)行交易,節(jié)省了大量的費用和時間。但是在電子商務(wù)中充斥著大量的數(shù)據(jù),如何從這些大量的數(shù)據(jù)中挖掘出真正有價值的信息,幫助企業(yè)經(jīng)銷商制定更好的營銷策略是電子商務(wù)急需解決的問題。數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),也就是從大量的數(shù)據(jù)中挖掘出有用信息的一種技術(shù)。利用數(shù)據(jù)挖掘技術(shù)可以使經(jīng)銷商從大量的數(shù)據(jù)中挖掘出有用的信息幫助決策,從而在市場競爭中獲得優(yōu)勢地位。
2電子商務(wù)概述
電子商務(wù)指交易當(dāng)事人或參與人利用現(xiàn)代信息技術(shù)和計算機(jī)網(wǎng)絡(luò)(主要是因特網(wǎng))所進(jìn)行的各類商業(yè)活動,包括貨物貿(mào)易、服務(wù)貿(mào)易和知識產(chǎn)權(quán)貿(mào)易?!半娮由虅?wù)”中所包括的“現(xiàn)代信息技術(shù)”應(yīng)涵蓋各種使用電子技術(shù)為基礎(chǔ)的通信方式;“商務(wù)”指不論是契約型還是非契約型的一切商務(wù)性質(zhì)的關(guān)系所引起的種種事項。如果將“現(xiàn)代信息技術(shù)”看作一個子集,“商務(wù)”看作另一個子集,電子商務(wù)所涵蓋的范圍應(yīng)當(dāng)是這兩個子集所形成的交集,即“電子商務(wù)”標(biāo)題之下可能廣泛涉及的因特網(wǎng)、內(nèi)部網(wǎng)和電子數(shù)據(jù)交換在貿(mào)易方面的各種用途。
電子商務(wù)與傳統(tǒng)商務(wù)相比有以下優(yōu)點:(1)電子商務(wù)將傳統(tǒng)的商務(wù)流程數(shù)字化、電子化,讓傳統(tǒng)的商務(wù)流程轉(zhuǎn)化為電子流、信息流,突破了時間空間的局限,大大提高了商業(yè)運作的效率。(2)電子商務(wù)簡化了企業(yè)與企業(yè),企業(yè)與個人之間的流通環(huán)節(jié),最大限度地降低了流通成本,能有效地提高企業(yè)在現(xiàn)代商業(yè)活動中的競爭力。(3)電子商務(wù)是基于互聯(lián)網(wǎng)的一種商務(wù)活動,互聯(lián)網(wǎng)本身具有開放性全球性特點,電子商務(wù)可為企業(yè)及個人提供豐富的信息資源,為企業(yè)創(chuàng)造更多商業(yè)機(jī)會。(4)電子商務(wù)對大型企業(yè)和中小企業(yè)都有利,因為大中型企業(yè)需要買賣交易活動多,實現(xiàn)電子商務(wù)能有效地進(jìn)行管理和提高效率,對小企業(yè)同樣有利,因為電子商務(wù)可以使企業(yè)以相近的成本進(jìn)行網(wǎng)上交易,這樣使中小企業(yè)可能擁有和大企業(yè)一樣的流通渠道和信息資源,極大提高了中小企業(yè)的競爭力。(5)電子商務(wù)將大部分商務(wù)活動搬到網(wǎng)上進(jìn)行,企業(yè)可以實行無紙化辦公節(jié)省了開支。
3數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)是隨著計算機(jī)的廣泛應(yīng)用和數(shù)據(jù)的大量積累而發(fā)展起來的。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識,即發(fā)現(xiàn)其中隱含的,未知的,有意義的信息的過程,它又被稱為“數(shù)據(jù)庫中知識發(fā)現(xiàn)”(KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)的一個基本步驟,知識發(fā)現(xiàn)過程由以下步驟組成:(1)數(shù)據(jù)清理(2)數(shù)據(jù)集成(3)數(shù)據(jù)選擇(4)數(shù)據(jù)變換(5)數(shù)據(jù)挖掘(6)模式評估(7)知識表示。
從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。利用功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場競爭中獲得優(yōu)勢地位。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的不同是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實用3個特征。
4數(shù)據(jù)挖掘在電子商務(wù)中的作用
數(shù)據(jù)挖掘技術(shù)之所以可以服務(wù)于電子商務(wù),是因為它能夠挖掘出活動過程中的潛在信息以指導(dǎo)電子商務(wù)活動。在電子商務(wù)中的作用有7個方面:(1)挖掘客戶活動顧慮,針對性的在電子商務(wù)平臺下提供“個性化”的服務(wù)。(2)可以在瀏覽電子商務(wù)網(wǎng)站的訪問者中挖掘出潛在的客戶。(3)通過電子商務(wù)訪問者的活動信息的挖掘,可以更加深入的了解客戶需求。(4)通過挖掘網(wǎng)上顧客的購買行為,可以幫助制定合理的產(chǎn)品策略和定價策略。(5)通過對商品訪問情況和銷售情況進(jìn)行挖掘,可以幫助制定產(chǎn)品營銷策略,優(yōu)化促銷活動。(6)優(yōu)化電子商務(wù)網(wǎng)站的信息導(dǎo)航,方便客戶瀏覽。(7)通過客戶在網(wǎng)絡(luò)上瀏覽時的擁塞記錄發(fā)現(xiàn)網(wǎng)站的性能瓶頸,從而提高網(wǎng)站的穩(wěn)定性,保證電子商務(wù)購物快速進(jìn)行。
5電子商務(wù)中數(shù)據(jù)挖掘的技術(shù)與方法
電子商務(wù)中的數(shù)據(jù)挖掘過程一般包括3個主要的階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評價。(1)數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)選取和數(shù)據(jù)預(yù)處理兩個步驟。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對象。即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換以及對數(shù)據(jù)降維。(2)數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識類型。確定挖掘任務(wù)后,根據(jù)挖掘的知識類型選擇合適的挖掘算法,最后實施數(shù)據(jù)挖掘操作,運用選定的挖掘算法從數(shù)據(jù)庫中抽取所需的知識。(3)結(jié)果的解釋和評價。數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識,經(jīng)過評估,可能存在冗余或無關(guān)的知識,這時需要將其剔除,也有可能知識不滿足用戶的需求,需要重復(fù)上述挖掘過程重新進(jìn)行挖掘。另外,由于數(shù)據(jù)挖掘最終要面臨用戶,因此,還需要對所挖掘的知識進(jìn)行解釋,以一種用戶易于理解的方式供用戶所使用。
數(shù)據(jù)挖掘按照其挖掘任務(wù)主要包括分類和預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則挖掘,回歸發(fā)現(xiàn)和序列模式發(fā)現(xiàn)等技術(shù)。在選擇某種數(shù)據(jù)挖掘技術(shù)之前,首先要將需要解決的問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù),然后根據(jù)挖掘的任務(wù)來選擇使用哪些數(shù)據(jù)挖掘技術(shù)。在電子商務(wù)活動中,主要使用下面的一些數(shù)據(jù)挖掘技術(shù)。
5.1分類
分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型或分類函數(shù),將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。分類的主要方法有基于決策樹模型的數(shù)據(jù)分類,貝葉斯分類算法,ID3算法和基于BP神經(jīng)網(wǎng)絡(luò)算法等。
假定現(xiàn)在我們有一個描述顧客屬性的數(shù)據(jù)庫,包括他們的姓名、年齡、收入、職業(yè)等,我們可以按照他們是否購買某種商品(例如,計算機(jī))來進(jìn)行分類。如果現(xiàn)在有新的顧客添加到數(shù)據(jù)庫中,我想將新計算機(jī)的銷售信息通知顧客,若將促銷材料分發(fā)給數(shù)據(jù)庫中的每個新顧客,如此可能會導(dǎo)致耗費較多的精力和物力。而若我們只給那些可能購買新計算機(jī)的顧客分發(fā)材料,可以在較大的程度上節(jié)省成本。為此,可以構(gòu)造和使用分類模型。分類方法的特點是通過對示例數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,已經(jīng)建立了一個分類模型,然后利用分類模型對數(shù)據(jù)庫中的其它記錄進(jìn)行分類。
5.2聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。聚類分析的方法是數(shù)據(jù)挖掘領(lǐng)域最為常見的技術(shù)之一。常用的聚類分析方法有:分割聚類方法,層次聚類方法,基于密度的聚類方法和高維稀疏聚類算法等。聚類分析方法與分類方法的不同之處是聚類事先對數(shù)據(jù)集的分布沒有任何的了解。因此在聚集之后要有一個對業(yè)務(wù)很熟悉的人來解釋這樣聚集的意義。很多情況下一次聚集你得到的分類對你的業(yè)務(wù)來說可能并不好,這時你需要刪除或增加變量以影響分類的方式,經(jīng)過幾次反復(fù)之后才能最終得到一個理想的結(jié)果。聚類分析方法在電子商務(wù)中的使用也極其廣泛。其中一個典型的應(yīng)用是幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。通過對聚類的客戶特征的提取,把客戶群分成更細(xì)的市場,提供針對性的服務(wù)。
5.3關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在關(guān)系的規(guī)則,即根據(jù)一個事物中的某些項的出現(xiàn)可導(dǎo)出另一些項在同一事物中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系,比如在一次購買活動中所買不同商品的相關(guān)性。在電子商務(wù)中,從大量商務(wù)事物記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,可以幫助許多商務(wù)決策的制定。關(guān)聯(lián)規(guī)則挖掘最初也是最典型的形式是購物籃分析。它通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間聯(lián)系,分析顧客的購買習(xí)慣。例如,在同一次去超級市場,如果顧客購買牛奶,他也購買面包(包括購買什么類型的面包)的可能性有多大?這些信息可以幫助零售商有選擇地經(jīng)銷和安排貨架,引導(dǎo)銷售。例如,將牛奶和面包盡可能放近一些,可以進(jìn)一步刺激一次去商店同時購買這些商品。在電子商務(wù)中,由于Web服務(wù)器的日志文件記錄了用戶的訪問記錄,通過這些記錄利用關(guān)聯(lián)規(guī)則挖掘網(wǎng)上顧客購買產(chǎn)品的相關(guān)度,對某些品牌的喜好和忠誠,價格接受范圍,以及包裝要求等,挖掘的結(jié)果可以用來幫助管理者進(jìn)行網(wǎng)站規(guī)劃、確定商品的種類、價格和新產(chǎn)品的投入。
5.4序列模式分析
序列模式分析和關(guān)聯(lián)規(guī)則挖掘相似,但側(cè)重點在分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A-B-C出現(xiàn)的頻度較高的信息。序列模式分析的一個例子是“九個月以前購買奔騰PC的客戶很可能在一個月內(nèi)訂購新的CPU芯片”。
6結(jié)束語
電子商務(wù)過程中的各種信息和數(shù)據(jù)是電子商務(wù)活動能夠更好的進(jìn)行的基礎(chǔ),通過選擇合適的數(shù)據(jù)挖掘技術(shù)來挖掘電子商務(wù)中有價值的信息,從而使企業(yè)在激烈的市場競爭中做出正確的決策,保持有力的競爭優(yōu)勢。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,我們相信它在電子商務(wù)中的應(yīng)用將促使其得到更快更高效的發(fā)展。
參考文獻(xiàn)
[1]姚淼.《數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》.高校圖書情報論壇.Mar.2009.Vol.8 No.1
[2]趙雁.張黎明.呂安.趙彥慧.《電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)》.中國電子學(xué)會第十屆青年學(xué)術(shù)年會論文集.2004.9
[3]楊青杰.胡明霞.《數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究》.商場現(xiàn)代化.2008年第16期
摘 要 面對當(dāng)前企事業(yè)單位普遍存在各類數(shù)據(jù)龐大,但快速提取有效信息卻十分困難的現(xiàn)狀,如何在海量數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),即所謂的數(shù)據(jù)挖掘技術(shù)便應(yīng)運而生。針對財務(wù)決策中數(shù)據(jù)海洋的現(xiàn)狀,本文提出了如何采用數(shù)據(jù)挖掘技術(shù),來提高財務(wù)決策的效率。
關(guān)鍵詞 數(shù)據(jù)挖掘 財務(wù)決策 應(yīng)用
隨著計算機(jī)、網(wǎng)絡(luò)技術(shù)的發(fā)展,獲得有關(guān)資料非常簡單易行。但對于數(shù)量大、涉及面寬的數(shù)據(jù),傳統(tǒng)統(tǒng)計方法無法完成這類數(shù)據(jù)的分析,特別是公司財務(wù)數(shù)據(jù)之類。因此,一種智能化的、綜合應(yīng)用各種統(tǒng)計分析、數(shù)據(jù)庫、智能語言來分析龐大數(shù)據(jù)資料的“數(shù)據(jù)挖掘”技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展使得人們可以利用這些數(shù)據(jù)挖掘出有用的、隱藏的商業(yè)和科學(xué)信息。
一、數(shù)據(jù)挖掘含義
1.?dāng)?shù)據(jù)挖掘的定義
目前普遍認(rèn)同的一個數(shù)據(jù)挖掘(DM-Data Mining)定義是:從數(shù)據(jù)庫中抽取隱含的、以前未知的、具有潛在應(yīng)用價值的模型或規(guī)則等有用知識的復(fù)雜過程,是一種深層次的數(shù)據(jù)分析方法。
數(shù)據(jù)挖掘可以根據(jù)企事業(yè)單位的既定業(yè)務(wù)目標(biāo)和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實際的企事業(yè)單位經(jīng)營管理中。是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以對財務(wù)信息做出預(yù)測。
2.?dāng)?shù)據(jù)挖掘的主要功能
數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的信息,它主要有以下功能:
(1)估計與預(yù)測:估計是根據(jù)已有積累的資料來推測某一屬性未知的值,預(yù)測是根據(jù)對象屬性的過去觀察來估計該屬性未來之值。數(shù)據(jù)挖掘技術(shù)能夠自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息。
(2)關(guān)聯(lián)和序列發(fā)現(xiàn):關(guān)聯(lián)是要找出在某一事件或是資料中會同時出現(xiàn)的東西;序列發(fā)現(xiàn)與關(guān)聯(lián)關(guān)系很密切,所不同的是序列發(fā)現(xiàn)中相關(guān)的對象是以時間來區(qū)分的。
(3)聚類:數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術(shù)的要點是在劃分對象時不僅考慮對象之間的距離,還要劃分出類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。
(4)偏差檢測:數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的信息,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等①。
二、數(shù)據(jù)挖掘在財務(wù)決策支持系統(tǒng)的應(yīng)用
1.財務(wù)決策支持系統(tǒng)
財務(wù)決策支持系統(tǒng)是在傳統(tǒng)電算化會計信息系統(tǒng)的基礎(chǔ)上建立和發(fā)展起來的,傳統(tǒng)會計信息系統(tǒng)輸出的企事業(yè)單位財務(wù)數(shù)據(jù)及非財務(wù)數(shù)據(jù)都存在數(shù)據(jù)過剩而信息不足的情形,而財務(wù)決策的精確程度又取決于所用信息的正確程度。隨著競爭的增加,財務(wù)決策的時效性也變得越來越重要了,面對這些結(jié)構(gòu)化或半結(jié)構(gòu)化的海量數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)應(yīng)用到系統(tǒng)中充分有效的預(yù)測企事業(yè)單位未來的發(fā)展趨勢,有利于輸出財務(wù)決策信息供高層管理者使用,提高企事業(yè)單位的競爭②。
(1)會計信息系統(tǒng)結(jié)構(gòu)
會計信息系統(tǒng)可分為三個層次:會計核算層、財務(wù)管理層和財務(wù)決策層,分別屬于事后核算、事中控制和事前預(yù)測與決策過程。財務(wù)決策支持系統(tǒng)是最高層,也是會計信息系統(tǒng)發(fā)展的最終目標(biāo)。會計核算層和財務(wù)管理層輸出的企事業(yè)單位財務(wù)數(shù)據(jù)及非財務(wù)數(shù)據(jù)都存在數(shù)據(jù)過剩而信息不足的情況,這嚴(yán)重影響了財務(wù)決策層發(fā)揮有效作用。
(2)財務(wù)決策支持系統(tǒng)的概念
財務(wù)決策支持系統(tǒng)(FDSS―Financial Decision Support System)是以現(xiàn)代管理科學(xué)和信息技術(shù)為基礎(chǔ),以電子計算機(jī)為工具,運用經(jīng)濟(jì)學(xué)、模糊數(shù)學(xué)、控制論和模型技術(shù),對財務(wù)管理中的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化問題進(jìn)行決策分析的人機(jī)交互系統(tǒng)。
在財務(wù)決策支持系統(tǒng)中,為了支持管理決策,首先必須建立各種數(shù)據(jù)庫以備決策之需。其次要建立各種數(shù)學(xué)模型,組成模型庫對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行深加工以便探索其內(nèi)部規(guī)律,對數(shù)據(jù)的運算結(jié)果進(jìn)行比較、分析和評價。同時,為了充分利用管理者的經(jīng)驗、知識和智慧,系統(tǒng)還設(shè)置人機(jī)交互接口和專家知識庫,采用人工智能技術(shù)判斷環(huán)境生成方案、評價決策。
(3)財務(wù)決策系統(tǒng)國內(nèi)外發(fā)展現(xiàn)狀
在國內(nèi),會計核算系統(tǒng)和財務(wù)管理系統(tǒng)已發(fā)展良好,逐步地為用戶理解和接受,但財務(wù)決策支持系統(tǒng)的發(fā)展尚處初級階段。
在國外,財務(wù)決策支持系統(tǒng)已較為完善,以財務(wù)管理為核心構(gòu)造財務(wù)決策支持系統(tǒng),做到了賬務(wù)系統(tǒng)與管理系統(tǒng)的有機(jī)融合,做到了事前預(yù)測與決策、事中控制、事后分析為一體的網(wǎng)絡(luò)化、科學(xué)化的決策管理,數(shù)據(jù)挖掘在財務(wù)決策支持系統(tǒng)中的運用也較為成熟。
2.?dāng)?shù)據(jù)挖掘在財務(wù)決策支持系統(tǒng)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在財務(wù)決策支持系統(tǒng)中的應(yīng)用研究始于1995 年,研究內(nèi)容包括將DSS 的結(jié)構(gòu)體系引入過來,從二庫、三庫結(jié)構(gòu)到四庫、五庫結(jié)構(gòu)的研究,也就是從傳統(tǒng)的FDSS 研究到智能的或高級的FDSS 的研究。隨著信息技術(shù)的不斷完善,把數(shù)據(jù)倉庫(DW)、聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DM)也引入到財務(wù)決策支持系統(tǒng)中,出現(xiàn)了基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的財務(wù)決策支持系統(tǒng)結(jié)構(gòu),數(shù)據(jù)挖掘技術(shù)在財務(wù)決策支持系統(tǒng)中的應(yīng)用主要包括:
(1)財務(wù)狀況分析
財務(wù)狀況分析是財務(wù)管理的重要組成部分,包括企事業(yè)單位償債能力分析、企事業(yè)單位營運能力分析、企事業(yè)單位獲利能力分析、企事業(yè)單位發(fā)展能力分析。它是利用已有的財務(wù)數(shù)據(jù)對企事業(yè)單位的財務(wù)狀況、經(jīng)營成果進(jìn)行分析與評價。財務(wù)分析系統(tǒng)可以運用數(shù)據(jù)挖掘分類、預(yù)測等技術(shù),根據(jù)企事業(yè)單位過去和現(xiàn)在的財務(wù)數(shù)據(jù)做進(jìn)一步的加工、整理、分析和評價,在預(yù)測未來的財務(wù)狀況的同時從中取得有用的信息供決策者使用。
(2)財務(wù)預(yù)測
財務(wù)預(yù)測系統(tǒng)是FDSS 的重要組成部分,其功能分為兩個方面:一是利用已有的財務(wù)數(shù)據(jù)對企事業(yè)單位未來的財務(wù)狀況和經(jīng)營成果進(jìn)行預(yù)測。二是利用專家經(jīng)驗和專門知識對某項財務(wù)專題進(jìn)行預(yù)測。財務(wù)預(yù)測的主要內(nèi)容包括銷售預(yù)測、利潤預(yù)測、成本預(yù)測、資金預(yù)測、財務(wù)指標(biāo)預(yù)測等。利用回歸,神經(jīng)網(wǎng)絡(luò)等技術(shù)根據(jù)已有的財務(wù)數(shù)據(jù)預(yù)測企事業(yè)單位未來的財務(wù)狀況,進(jìn)而判斷企事業(yè)單位未來發(fā)生財務(wù)危機(jī)的可能性。
(3)籌資決策
籌資是指企事業(yè)單位何時、采用何種方式、獲得何種規(guī)模資金的過程。企事業(yè)單位籌資決策主要包括籌資數(shù)量決策、籌資方式?jīng)Q策和債務(wù)償還決策。一般地說,企事業(yè)單位籌資首先應(yīng)考慮自有資本,即所有者權(quán)益籌資;其次再考慮債務(wù)籌資,其目的是使財務(wù)風(fēng)險最小化。利用數(shù)據(jù)挖掘中的分類、聚類等技術(shù)可根據(jù)單位經(jīng)營管理的需要進(jìn)行決策信息輸出,確定一個合理的籌資方案。
(4)投資決策
企事業(yè)單位的投資決策主要包括企事業(yè)單位內(nèi)部長期投資決策、聯(lián)營投資決策和證券投資決策。投資決策問題是決策問題中較為復(fù)雜的問題,其決策問題一般分為半結(jié)構(gòu)化或非結(jié)構(gòu)化問題。我們可利用預(yù)測、關(guān)聯(lián)等技術(shù)對投資時機(jī)、投資規(guī)模、投資方式等方面來確定投資方案。通過在眾多可投資項目中選擇出最具價值的項目決策信息,實現(xiàn)投資資金效率最大化。
(5)成本決策
成本決策涉及企事業(yè)單位銷、生產(chǎn)經(jīng)營和資本運作等各個領(lǐng)域,可以說凡是發(fā)生成本費用支出的各項經(jīng)濟(jì)活動,都存在成本決策問題。企事業(yè)單位成本決策包括:存貨成本決策、生產(chǎn)成本決策、資金成本決策、銷售成本決策、服務(wù)成本決策等,其中銷售成本決策和服務(wù)成本決策,其非結(jié)構(gòu)化因素較多,包括促銷費用、廣告費用、銷貨服務(wù)費等,從而使其決策方案的確定更加復(fù)雜化。這就需要利用數(shù)據(jù)挖掘技術(shù)中的時間序列分析,關(guān)聯(lián)分析等技術(shù)對歷史數(shù)據(jù)進(jìn)行分析預(yù)測,以確定最優(yōu)方案。
(6)股利分配決策
股利分配是指公司向股東分派股利。股利分配決策的合理與否,將會對公司的持續(xù)發(fā)展和股東利益產(chǎn)生重大影響。股利分配決策包括股利發(fā)放決策、股利支付比率決策和股利發(fā)放形式?jīng)Q策等。由于股利分配決策要受到法律、經(jīng)濟(jì)、公司政策、股東利益、以及股票市場等諸多因素的影響,其決策問題大多為半結(jié)構(gòu)化和非結(jié)構(gòu)化問題,我們可利用數(shù)據(jù)挖掘技術(shù)中的分類技術(shù)來提供支持。
(7)存貨決策
存貨決策主要是指原材料和產(chǎn)成品的決策,即確定合理的經(jīng)濟(jì)訂貨量以及何時訂貨才是最佳時機(jī),力求使存貨上耗費的成本最低。銷售的不確定性使得存貨決策成為一種風(fēng)險性決策,它需要根據(jù)以往的經(jīng)驗儲存、歷史統(tǒng)計資料的分析以及輸入用戶的調(diào)研數(shù)據(jù),運用數(shù)據(jù)挖掘技術(shù)中的決策樹方法幫助決策者確定需求變量的范圍及發(fā)生概率,并提供最優(yōu)方案的參考數(shù)據(jù)。隨著數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,傳統(tǒng)會計核算層及財務(wù)管理層的不斷完善,人們獲取數(shù)據(jù)的能力越來越強(qiáng),將海量的數(shù)據(jù)存儲在數(shù)據(jù)庫和數(shù)據(jù)倉庫中。將數(shù)據(jù)倉庫(DW)、數(shù)據(jù)挖掘(DM)和聯(lián)機(jī)分析(OLAP)等信息技術(shù)應(yīng)用于財務(wù)決策支持系統(tǒng),更能將數(shù)據(jù)倉庫里的海量數(shù)據(jù)從執(zhí)行系統(tǒng)中篩選出來,減少冗余,完成一系列轉(zhuǎn)換處理,便于決策者從宏大的信息系統(tǒng)中分辨、析取、整理、挖掘出對財務(wù)決策有用的信息,極大提高企事業(yè)單位管理信息系統(tǒng)的工作效率③。
三、數(shù)據(jù)挖掘技術(shù)在財務(wù)決策支持系統(tǒng)中應(yīng)用的難點與展望
數(shù)據(jù)挖掘技術(shù)在財務(wù)決策支持系統(tǒng)中的應(yīng)用還是一門嶄新的技術(shù)或方法,接受數(shù)據(jù)挖掘的概念容易,但將其落在實處卻比較困難。其中最重要的就是成本問題。數(shù)據(jù)挖掘功能對企事業(yè)單位財務(wù)數(shù)據(jù)進(jìn)行分析雖然存有優(yōu)勢,但前提條件是具備完整、正確的數(shù)據(jù),即在建立數(shù)據(jù)倉庫系統(tǒng)基礎(chǔ)后,與此功能結(jié)合運用以達(dá)到事半功倍的效果。但目前單位財務(wù)部門提供的數(shù)據(jù)本身就可能存在水分,因此需要數(shù)據(jù)信息使用者在經(jīng)過會計信息質(zhì)量分析等前提下調(diào)整或重新估計,然后再利用數(shù)據(jù)挖掘等技術(shù)應(yīng)用到財務(wù)決策支持系統(tǒng)中。數(shù)據(jù)挖掘僅依靠計算機(jī)或者軟件是無法完成任務(wù)的,更多的是需要依靠專業(yè)人士的職業(yè)判斷。
雖然在單位財務(wù)決策支持系統(tǒng)中利用數(shù)據(jù)挖掘技術(shù)還不十分成熟,但是伴隨著科學(xué)技術(shù)的迅猛發(fā)展,以及數(shù)據(jù)挖掘技術(shù)在財務(wù)決策支持系統(tǒng)中的廣闊市場前景,相信基于數(shù)據(jù)挖掘的財務(wù)決策支持系統(tǒng)必將更加成熟!
但是,數(shù)據(jù)挖掘作為一門新興的科學(xué)和技術(shù),它的發(fā)展還處于幼年期,要想基于數(shù)據(jù)挖掘的財務(wù)決策支持系統(tǒng)模型得到更為廣泛的應(yīng)用,面臨的挑戰(zhàn)為:
1.建立基礎(chǔ)的數(shù)據(jù)挖掘理論體系;
2.提高數(shù)據(jù)挖掘算法的效率和處理能力;
3.良好的人機(jī)交互界面;
4.挖掘各種數(shù)據(jù)類型,包括半結(jié)構(gòu)和無結(jié)構(gòu)數(shù)據(jù)。
注釋:
①何京舟.淺議數(shù)據(jù)挖掘技術(shù)與財務(wù)分析.中國集體經(jīng)濟(jì).2009(6):155-156.
②湯九斌.基于數(shù)據(jù)挖掘技術(shù)的決策支持系統(tǒng)及其關(guān)鍵技術(shù)研究.中國優(yōu)秀博士論文全文數(shù)據(jù)庫.南京理工大學(xué).2009.
③周喜,王加陽.數(shù)據(jù)挖掘技術(shù)在財務(wù)決策支持系統(tǒng)中的應(yīng)用研究.湖南商學(xué)院學(xué)報.2009(4):99-101.
參考文獻(xiàn):
[1]何京舟.淺議數(shù)據(jù)挖掘技術(shù)與財務(wù)分析.中國集體經(jīng)濟(jì).2009(6).
[2]鄭日軍.數(shù)據(jù)挖掘綜述.科協(xié)論壇(下半月).2008(10).
[3]洪沙,向芳.數(shù)據(jù)挖掘與決策支持系統(tǒng).科學(xué)咨詢(決策管理).2008(4).