發(fā)布時間:2023-05-30 14:58:32
序言:寫作是分享個人見解和探索未知領域的橋梁,我們?yōu)槟x了8篇的數據分析分析技術樣本,期待這些樣本能夠為您提供豐富的參考和啟發(fā),請盡情閱讀。
關鍵詞: 稅務數據分析;OLAP技術
中圖分類號:TP399文獻標志碼:A 文章編號:1009-3044(2008)26-1622-01
The Application of OLAP Technology For Tax Data Analysis
LV Jia
(School of Computer Science & Technology, Soochow University, Suzhou 215006,China)
Abstract: Introduce the application of OLAP technology for tax data analysis,provide assistance decision function for the tax administration department.
Key words: tax data analysis; OLAP
1 引言
隨著稅務信息化建設的深入開展,特別是在國稅系統(tǒng)內基本上已經以省級集中的模式完成了各個應用系統(tǒng)的數據集中工作,稅務機關積累了大量的涉稅信息,作為信息化高級階段的數據分析利用已經漸漸成為稅務信息化工作的重點。如何突破傳統(tǒng)的統(tǒng)計報表模式,利用OLAP技術和豐富的數據資源進行稅收數據深度分析,從而更好的為稅收管理和輔助決策服務,是當前稅收分析工作必須思考的問題。
2 數據分析
聯(lián)機分析處理OLAP(On-Line Analytical Processing)是基于數據倉庫的一種數據分析技術。它使分析人員、經理及管理人員通過對信息的多種可能的觀察角度進行快速、一致和交互的存取獲得對信息的深入理解。OLAP的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求,它的技術核心是"維"這個概念?!熬S”是人們觀察客觀世界的角度,是一種高層次的類型劃分?!熬S”一般包含著層次關系,這種層次關系有時會相當復雜。通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數據進行比較。因此OLAP也可以說是多維數據分析工具的集合。
OLAP技術在稅收數據分析中可以應用于同行業(yè)稅負分析。受市場均衡作用的影響,同一產品在生產技術工藝、原材料能源消耗方面有相近之處,適用稅收政策有統(tǒng)一的要求,因此反映生產成本費用方面的指標有相同的規(guī)律特征。根據這種規(guī)律特征,以此檢驗個體數據指標的表現,找出差異較大的個體予以預警。
在具體實現時,使用星型架構進行建模。星型架構通過使用一個包含主題的事實表(用來存儲數據和維關鍵字)和多個維度表(存放維的層次、成員類別等維的描述信息)來執(zhí)行決策支持應用。在星形架構中主體是事實表,而有關維的細節(jié)則構作于維表內以達到簡化事實表的目的,事實表與維表間有公共屬性相連以使它們構成一個整體。
OLAP的基本多維分析操作有鉆取、切片和切塊、以及旋轉等。鉆取是改變維的層次,變換分析的粒度。切片和切塊是在一部分維上選定值后,關心度量數據在剩余維上的分布。旋轉是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
當在OLAP服務器上建立好分析模型后,可以使用MDX多維查詢語句進行查詢,獲取聯(lián)機分析得出的多維數據集。MDX查詢語句類似關系數據庫中的SQL語句,也是通過SELECT語句獲得查詢結果。SELECT 語句可指定一個結果集,其中包含從多維數據集中返回的多維數據子集。若要指定結果集,MDX 查詢必須包含以下信息:
1) 層次結構的軸或集的數目。最多可在 MDX 查詢中指定 128 個軸;
2) 要包括在 MDX 查詢的各個軸上的每個維度的成員;
3) 用于設置 MDX 查詢上下文的多維數據集的名稱;
4) 來自切片器軸的成員,將在該軸上對來自查詢軸的成員進行數據切片。
3 結束語
如何從大量積累的歷史數據中分析出有價值的信息,OLAP技術為此提供了一個有效的工具,通過建模后對數據切片旋轉等操作,可以方便地對各項數據進行分析,從而為領導提供輔助決策功能。
參考文獻:
【關鍵詞】智能交通;大數據;分析云平臺;技術探討;分析研究
隨著時代的發(fā)展和信息技術水平的提高,大數據的發(fā)展已經遍布于各行各業(yè),當然在交通運輸方面也是如此。而且交通運輸部因為運用了大數據分析云平臺,在感知識別、網絡傳輸、智能處理以及數據挖掘面都有了非常好的效果。而且在重大工程的實驗中,通過加強對物聯(lián)網、云計算等新技術的研究,還能提高本行業(yè)的信息化技術水平。
一、大數據時代智能交通系統(tǒng)的優(yōu)劣分析
1、大數據時代改變傳統(tǒng)公共交通管理路徑。大數據的特點是內容豐富和全面,而且還有自己的傳輸方式,所以不受任何區(qū)域的限制。在傳統(tǒng)的交通管理中,很容易因為不同區(qū)域的信息不夠暢通,導致交通管理的效果不是很好,同時經常出現各種信息丟失的情況。而把大數據分析云平臺的技術應用到交通管理中,不但能很好的完成不同信息的傳遞,而且還能最大限度的利用這些數據,發(fā)揮他們的作用,提高交通管理的質量和效率。2、大數據下智能交通的優(yōu)勢分析。首先,通過大數據分析云平臺的應用,能在很大程度上降低各種費用,而且它還能很好的選擇最為行之有效的車輛配置方案,保證道路交通一直處于比較暢通的狀態(tài)。其次,當出現各種交通問題的時候,通過大數據的分析能給問題的處理和交通的調度提供良好的基礎,提高交通的暢通性。最后,在交通監(jiān)管的系統(tǒng)中,通過大數據分析,還能很好的完成各種事件的預測,降低失誤的發(fā)生率。3、大數據下智能交通的弊端。由于大數據的應用能提高傳遞信息的效率,也就間接的會影響到相關安全隱患問題的發(fā)生。例如,在大數據下的智能交通,會因為相關人員的位置以及路線信息造成丟失,就會間接的給人們的生命財產造成威脅。除此之外,每個地方都有交通數據,而這些數據還能被大數據管理和應用,而很多車輛計算交通數據都是以靜態(tài)方式存儲,所以使系統(tǒng)所具備的特點無法被除本人以外的事物進行檢索。
二、智能大數據的融合
1、關于成熟度的融合。在新時期下,無論是大數據的應用技術還是現代智能交通的技術都發(fā)展的非常速度,而且也越來越成熟。在現代化的社會中,無論是智能卡扣電子警察還是智能監(jiān)控系統(tǒng),都已經對處理的技術進行了智能化的應用,而且完整度和深度也在慢慢的加深。所以在這種情況下,大數據時代下智能交通很有可能成為新興的應用領域中最先推廣和運用的領域。2、關于技術的融合分析。就目前的大數據分析云計算平臺來說,這項技術的應用結構和智能交通的平臺系統(tǒng)結構融合度是非常高的,而且的大數據分析云平臺技術在智能交通領域中的應用,給社會帶來了很大的好處和效應。所以說,這項技術可以作為整個智能建設中的領導者,帶領其他的子模塊進行很好發(fā)展。3、關于群眾基礎的分析。對智能交通來說,智能交通面向的服務群里就是人民大眾,廣大人民群眾來說,智能交通直接影響著人們的出行,給人們帶來非常方面的出行信息,在很大程度上方便了人們的出行,而且也降低了整城市的運營成本。更重要的是,人民群眾的生活也越來越有秩序,也會給交通執(zhí)法人員降低出勤的頻率。
三、云平臺技術特點的分析
1、可以有效的整合交通大量的數據信息資源。云平臺計算技術最大的額特點就是能很好的整合數據信息,將不同系統(tǒng)的信息資源,交通對象信息資源以及和交通工具信息資源等有效的分類和整理,同時還能利用大數據分析處理技術,解決大量信息的時效性。2、可以提高交通數據信息的利用率,將數據信息發(fā)輝出最大的價值。因為云計算最大的特點就是整合數據,所以在智能交通的中運用這項技術,能在很大程度上幫助交通部門提取非常有用的信息資源,而且通過描述交通的情況,還能將數據信息發(fā)揮出它最大的價值,充分的將交通數據利用了起來。最后在通過大數據的應用技術,還能更好的優(yōu)化信息的數據,提高云計算的分析能力。3、可以多維度的實時傳輸,提供個性化服務。在大數據下時代下,隨著時代的發(fā)展和信息技術水平的提高,并通過云平臺的利用,可以將路況信息通過電腦、電話等多種渠道進行傳輸,而且保證傳輸的內容是實時的、真實的和準確的,給人們提高非常好的個性化交通信息服務。最終實現道路交通管理的質量和高效。
傳統(tǒng)信息系統(tǒng)對數據的創(chuàng)建和使用的依據僅建立在業(yè)務流程和業(yè)務模型的基礎上,實現底層業(yè)務關系數據的增刪查改基礎操作,而對海量數據、對不同類型和范疇數據的價值提取卻存在不少的缺陷。與之相比,基于數學分析理論的數據分析技術側重于海量數據處理,跳出傳統(tǒng)信息系統(tǒng)的形式約束,可對已收集到的數據進行進_步統(tǒng)計分析和挖掘,從而獲取這些數據更深層的意義或規(guī)律,更深入發(fā)掘數據背后的隱藏價值,能進一步提高信息利用率,提高數據效益。
如今,傳統(tǒng)信息系統(tǒng)已逐漸無法滿足對大數據的處理需求,中國的互聯(lián)網、政府、金融、通訊等行業(yè)和企業(yè)都在逐步深入和逐步拓展對大數據和數據分析技術的應用,從結構化數據到半結構化、非結構化數據,以充分挖掘各行業(yè)數據的表層及潛在或隱藏的價值。同樣,近年來,隨著電力行業(yè)的信息化不斷推廣和深入,諸如電力營銷管理、營配信息集成、GIS、資產管理等大型、復雜業(yè)務系統(tǒng)的建設和廣泛投運,使得各層面的電網單位均面臨著對諸如電費詳單、用戶分布、業(yè)務峰谷、服務器性能、存儲數據等方面的巨大數據量的處理和管理上的難題,加之相對于金融、通訊等行業(yè),電力行業(yè)的業(yè)務和用戶數據的變化性和多樣性較低,在價值提取方面更具難度,需要尋求適應企業(yè)自身需求的數據分析技術對這些數據進行更有效的統(tǒng)計、挖掘或預測。
1電力行業(yè)信息系統(tǒng)現狀和數據分析需求一般情況下,基于信息系統(tǒng)的各項業(yè)務均存在峰谷分布特性,即在某_時段會集中發(fā)生大量業(yè)務操作,此時用戶訪問量大、操作數多、服務器資源消耗高、網絡帶寬占用大、數據庫讀寫頻繁;反之,在另一時段則是業(yè)務低谷期,此時很少外部用戶訪問業(yè)務系統(tǒng),可分配服務器的一部分計算資源進行數據整理或備份操作。
應用系統(tǒng)層面上,根據電力營銷系統(tǒng)的歷史業(yè)務記錄,可以看出,在用戶繳費方面,本地供電局每月的用戶繳費行為大體上集中出現在當月的第一周之后因此供電局需在用戶繳費前完成大量的電費計算、核查和發(fā)行操作以確保用戶可以順利完成繳費。
服務器運維層面上,服務器計算資源的消耗與應用系統(tǒng)業(yè)務使用量成正相關關系,業(yè)務繁忙程度越高,服務器出現資源異常的可能性就越大,所以保障服務器正常運轉的需求也越高。以電力營銷系統(tǒng)為例,其系統(tǒng)架構總體上采用客戶機一負載均衡設備一應用服務器一數據庫集群一存儲設備的結構建設,其中數據庫的IO、日志文件同步等指標可在一定程度上反映出當前業(yè)務量情況所示為某月各工作日對數據庫3個性能指標的執(zhí)行等待時間統(tǒng)計,可以看出,從該月第二周開始逐步出現一定程度的數值升高,此處反映該時段內集中出現的客戶繳費行為,引起數據庫讀寫量和事務量上升,從而增加了事務的等待時間。
另外,服務器硬件發(fā)生故障的概率雖然大體上隨著設備使用時長的增長而提高,但某些情況也會存在一定的偶然性和突發(fā)性。當在業(yè)務過程中出現硬件故障,尤其是在業(yè)務高峰期,會出現較為嚴重的影響,這也要求運維人員對業(yè)務高峰有一定的估測能力以及對設備故障有足夠快的響應速度。
綜上,不論是面向客戶的行業(yè)主營業(yè)務,還是內部的服務器性能消耗和信息系統(tǒng)曰常使用,各項數據都在各方面存在一定的規(guī)律性特點或互相關聯(lián)的因素,這不僅對上述的業(yè)務量或服務器性能統(tǒng)計來說如此,對行業(yè)內的各類具體數據同樣適用。然而,目前對這些數據的利用往往只停留在表層的增刪查改操作上,并不能很好地抽象出其中的特征或模式,造成信息利用率的下降。電力行業(yè)的數據具有數據量大、類型多、價值高的特點,對控制管理和企業(yè)盈利的影響甚多,有專家分析稱,數據利用率每提高10°%,電網的利潤則可提高20°%~49°%。為了適應大數據的逐步普及、適應企業(yè)的改革與轉型、滿足新階段對信息技術的要求,亟需尋求合適的技術充分利用這些數據,實現對變化趨勢的預測和拓展企業(yè)核心能力、提高企業(yè)經濟效益的目的。2數據分析技術在電力行業(yè)的應用常用的數據分析方法包括聚類分析、相關分析、回歸分析等涉及統(tǒng)計學和概率論的理論,目前市面常用的數據分析軟件有SPSS、Stata、SAS、R、Matlab等系統(tǒng),分別適用于不同專業(yè)程度的應用場景。
如今各行業(yè)已開始探索和采用這些技術來處理與行業(yè)自身相關的各項數據,例如對根據時間和話費等指標分析移動通信客戶的消費行為[2]、利用收集的資料分析及發(fā)現銀行零售業(yè)務的潛在客戶[3]、利用關聯(lián)分析等方法評價病人病因、處方及藥物副作用[4]等,同樣,在電力行業(yè),可以從客戶用電量、用電時間、客戶分類和分布狀況、季節(jié)和氣候變化、政府法規(guī)政策、信息系統(tǒng)使用情況、計算和存儲資源消耗狀態(tài)等各項指標著手進行分析,實現相同或類似的目的。
利用數據分析技術處理電力行業(yè)數據,優(yōu)化企業(yè)管理模式,提升企業(yè)經營水平,其適用場景包括以下方面。
2.1客戶信息分析
類似于通訊行業(yè)的客戶行為和消費分析,根據電力營銷的大量的歷史數據,一是可利用聚類分析的方式,在時間、空間和客戶性質上分析客戶的用電行為和用電規(guī)律,采用手動標簽類別特征或對數據特征做自動聚類的方法,對客戶群進行不同粒度的細分,從而可在不同層面制定不同的更具針對性的營銷方案和服務模式,也可避免供電業(yè)務的一刀切問題;二是可利用關聯(lián)分析的方式,統(tǒng)計收集到的可能與客戶用電存在影響關系的電價、氣候、環(huán)境、政策、交通等因素,提取這些因素與客戶用電數據的相關性,找出對其存在顯著影響性的成分,并據此優(yōu)化客戶的用電需求預測模型,從而通過多維的因素對市場和業(yè)務進行分析和預判,也可實現避免客戶流失和發(fā)掘潛在客戶的目的。
2.2業(yè)務服務質量提升
目前,電力業(yè)務普遍只為客戶提供基礎性的供電服務,僅確??蛻裟軌蛘S秒?。而隨著企業(yè)的改革和轉型,更大的需求是以客戶為中心,從客戶體驗出發(fā),提供更為全面和豐富的電力增值服務,可從地區(qū)、行業(yè)、客戶等不同層面的用電明細歷史數據提取出各自的用電規(guī)律和特殊需求,制定合理、優(yōu)化的營銷方案或業(yè)務套餐,或讓客戶根據自身的用電行為和趨勢調整相應的用電方案,提高客戶的用電效益。
2.3協(xié)助優(yōu)化丨DC資源
如前文所述,信息系統(tǒng)的資源使用量往往取決于其業(yè)務的使用情況。對于營銷系統(tǒng),可從大量的客戶繳費時間、繳費數量和對應的服務器資源使用記錄中擬合出服務器資源隨時間變化的占用曲線,并根據實際情況進行適當的業(yè)務窗口或后臺數據處理窗口調整,在確保業(yè)務正常進行的前提下降低業(yè)務高峰和提高空閑時段的資源利用率,此外,對業(yè)務量和數據存儲量的綜合測算,可對系統(tǒng)的存儲資源占用量趨勢做出更為準確的短期和中期預測,避免存儲資源池的短缺或浪費問題;類似地,對于企業(yè)門戶、辦公自動化、人力資源等內部業(yè)務系統(tǒng),用戶訪問量分布和各端點間的數據交互數量則是影響其服務器計算和存儲資源使用的主要因素,也是形成對服務器的采購、運維和升級的具體需求的來源之一。
2.4營銷稽查數據的進一步分析
本地供電局于2013年建成在線稽查業(yè)務精益化管理平臺,投運至今成效明顯,其中部分重要規(guī)則共篩查差錯樣本2000多個,糾錯挽回或減少經濟損失約450萬元,為營銷稽查工作、營銷業(yè)務單位自我診斷、風險管控提供了強有力的支持。在此基礎上,根據對差錯數據的數量、區(qū)段、等級、來源的分析,結合營銷客戶信息分析,可推斷差錯的性質、原因和客戶用電行為、營銷方案、收費操作之間的聯(lián)系程度,趨利避害,進一步規(guī)避問題數據乃至偷電行為的出現。
2.5為電力基礎設施建設提供支持
電力基礎設施的選址往往需要以大量的前期調研為依據,其影響涉及地區(qū)性質、行業(yè)分布、人員密集程度、交通流量、氣候條件等社會環(huán)境因素,此外,隨著社會發(fā)展和城市建設,若干已有的線路規(guī)劃、高壓桿塔、變壓器,乃至變電站、發(fā)電設施都可能成為發(fā)展阻礙成分,進行改建則需進一步花費人力財力。通過對相關數據的分析,可以預測當地的電力使用量和發(fā)展趨勢為基建選址提供更多的客觀的參考依據。
數據分析技術對電力行業(yè)信息數據的應用并不只局限于上述的若干場景,在未來的信息技術發(fā)展過程中,各個信息系統(tǒng)、業(yè)務線條、電力運營單位之間的數據界限將逐漸淡化,形成具有更高關聯(lián)度的大數據整體,而大數據技術也會得到更廣泛的應用。
3結語
關鍵詞:環(huán)渤海經濟圈;面板數據;技術創(chuàng)新;FDI
1 引言
當前,環(huán)渤海經濟圈的產業(yè)結構還是以勞動密集型和資金密集型為主,缺乏較短時間內能趕上發(fā)達國家所需的財力和更先進的技術。所以,發(fā)展高新技術產業(yè),走自主創(chuàng)新與引進、消化、吸收并舉的道路勢在必行。
本文旨在通過環(huán)渤海經濟圈中各省市技術創(chuàng)新能力的分析,找出差距,為其今后的創(chuàng)新之路提出一些建議。筆者主要通過研究FDI這一關鍵因素對其技術創(chuàng)新能力的影響來進行面板數據分析。
2 FDI對技術創(chuàng)新能力的影響分析
2.1 數據來源和模型設定
盡管本文考察的是技術創(chuàng)新能力與之間的相關關系,但由于理論模型是在假定其他因素不變的情況下推導得來的。因此在做實證分析時,其他經濟變量不滿足模型的隱含前提或重要的解釋變量被遺漏,估計的結論就會大受影響。因此,筆者把R&D內部支出和人員全時當量作為控制變量引入模型中進行探討。
筆者選取環(huán)渤海經濟圈(北京,遼寧,天津,河北,山西,內蒙古,山東)2004-2009年共6年的數據來估計FDI對環(huán)渤海經濟圈各省市技術創(chuàng)新能力的影響。各地區(qū)專利申請受理數,R&D內部支出和人員全時當量,取自2004-2009各年的《中國科技統(tǒng)計年鑒》。模型的核心變量FDI取自《中國統(tǒng)計年鑒》各地年末登記的外商投資企業(yè)投資額。
研究FDI對專利申請數量的影響效應要構造一個與生產函數類似的創(chuàng)新產出函數。再將其取對數,構造得出模型的基本形式表述為:
1ny=c+a1nfdi+β1nrdi+γ1nrdp。
其中,因變量Y分別用環(huán)渤海經濟圈各省市總專利申請受理數,發(fā)明專利申請受理數、實用新型專利申請受理數和外觀設計專利申請受理數來表示,作為衡量環(huán)渤海經濟圈各省市技術創(chuàng)新能力的替代指標。RDI用于表示R&D內部支出,RDP用于表示R&D人員全時當量。
2.2 面板數據模型的選擇
經過EVIEWS5.0面板數據模型的操作,模型中F2的估計值32大于顯著水平1%下的臨界值水平3.78模型中F1的估計值3.52小于臨界值水平3.86可見這個模型形式設定檢驗是拒絕H2,接受H1。并且,經過Hausman檢驗,伴隨概率1.00,模型無法拒絕個體影響與解釋變量不相關的影響。綜上,需要建立技術創(chuàng)新能力的隨機影響變截距模型。同理,三種類型專利申請受理的模型也按這種分析方法進行。
環(huán)渤海經濟圈各省市技術創(chuàng)新能力與FDI的關系模型形式為:
效應隨機隨機隨機隨機
2.3 面板數據模型分析
從表1中可以看出,四個模型總體的估計效果較好。對專利申請數影響最大的因素還是FDI,這種影響的回歸結果都顯著為正。從表中還可看出,這三個變量中,FDI對專利申請受理數的影響最大,彈性系數高達0.399。R&D內部支出的影響次之,彈性系數位0.164。R&D人員全時當量的影響不顯著,未通過t檢驗,說明研發(fā)人員數量的增加對環(huán)渤海經濟圈各省市專利申請數量提高的作用并不明顯。綜上可得,專利申請數量的提高,更多的是依賴于來自外資企業(yè)的溢出效應。
雖然FDI對環(huán)渤海經濟圈各省市的技術創(chuàng)新能力提升有一定的促發(fā)效應,但是FDI的進入并不能帶來其核心技術創(chuàng)新能力的實質性提升。從計量分析結果可以看出,FDI對外觀設計專利影響有顯著的促進作用,FDI每增加1%,外觀設計專利數就增加0.817%。外觀設計是三種專利中最為簡單的創(chuàng)新,體現外商直接投資的技術示范效應和模仿效應,說明環(huán)渤海經濟圈各省市總體上的技術創(chuàng)新還只處在簡單模仿產品的外觀設計及包裝的程度上。FDI對發(fā)明專利和實用新型專利的影響與之差距很大。以上這些說明,環(huán)渤海經濟圈的各省市往往處于價值鏈的低端,只是進行加工生產,難以獲得核心技術。
另外,R&D內部支出的增加對發(fā)明專利的影響最大,每增加1%,發(fā)明專利數增加0.351%。其次為對實用新型專利數的影響,每增加1%,實用新型專利數增加0.142%。
而其對外觀設計專利數的影響并不顯著。R&D人員全時當量對這三種專利申請數的影響都不顯著。
模型中,隨機影響截距表示的是排除掉FDI對技術創(chuàng)新能力的影響,各省市技術創(chuàng)新能力的狀況,可以理解成封閉環(huán)境下的基礎技術創(chuàng)新能力。可以發(fā)現基礎技術創(chuàng)新能力最高的是山東,遠遠高于其他省市;最低的是內蒙古。由此看出,環(huán)渤海經濟圈各省市創(chuàng)新能力差距很大。
3 關于環(huán)渤海經濟圈技術創(chuàng)新能力提升的幾點建議
第一,通過FDI對專利申請受理的影響模型,二者之間的彈性系數較高。這說明,FDI的進入對各省市技術創(chuàng)新能力提升存在著一定的促發(fā)效應。它對本土人才的培養(yǎng),企業(yè)管理水平的提升,知識技術的傳播和擴散發(fā)揮積極的影響。因此,應進一步發(fā)揮FDI的積極作用,通過鼓勵企業(yè)、科研院所、高校等機構與外資企業(yè)進行各種形式的深層次合作,進行產學研合作,進一步發(fā)揮其溢出和擴散效應,促進技術創(chuàng)新能力的提升。
第二,從FDI對三種類型專利的影響程度,發(fā)現其對外觀設計專利數的影響最大。這說明FDI不能帶來其核心技術創(chuàng)新能力的實質提升。因此,不要一味地認為FDI引入越多越好,應把重點轉向國際研發(fā)型產業(yè)或高新技術產業(yè)。走自主創(chuàng)新,引進消化吸收再創(chuàng)新的道路是大勢所趨。
第三,從四個模型看,R&D人員全時當量對技術創(chuàng)新能力的影響都不顯著。這說明河北省科研人員的效率不高,對技術創(chuàng)新的作用未達到預期的效果。所以就應加大財力物力的投入,在高新技術開發(fā)區(qū)內培養(yǎng)一批優(yōu)秀的科技開發(fā)隊伍,并要積極完善人員的激勵機制和經費的投入機制。
第四,從模型中的隨機影響截距可以看出,各省市的技術創(chuàng)新能力差距很大,呈現不平衡發(fā)展。一方面,落后城市要向周圍的先進城市學習,抓住地理優(yōu)勢,善于吸收先進城市的技術和經驗,并善于利用周圍城市人力和物力等資源。另一方面,先進城市可以形成擴散效應,加大對落后城市的土地能源的需求。
參考文獻
[1]韓忠亮,朱敏.中國區(qū)域經濟發(fā)展戰(zhàn)略研究——環(huán)渤海經濟圈發(fā)展研究報告[J].新經濟研究,2009,(7):37.
[2]劉星,趙紅.外商直接投資對我國自主創(chuàng)新能力影響的實證研究[J].管理世界,2009,(6):70.
伴隨社會不斷的進步和物質需求與精神文明的逐步提高以及日臻成熟和完善的建筑施工技術水平[1],同時,也因日益增多的人口與土地資源的矛盾,高層建筑物越來越多[2]。
為了對建筑的安全性能提供嚴格保障,產生了針對高層建筑物的變形觀測。所謂建筑物的變形觀測就是對建筑物本身的水平位移觀測、沉降觀測、傾斜觀測等等。沉降觀測的意義是:能夠有效的為工程施工質量和地基基礎設計質量的評估提供依據,并能及時的反映出建筑體建造過程中隨著負荷的增加,和地基附加壓力的增大,其豎向壓縮變形的沉降從零開始直至沉降穩(wěn)定的變化情況。因此,工程施工過程中對建筑物進行沉降觀測[4],具有非常重要的作用。
1 沉降觀測原理與方法
1.1 建筑物沉降的原因
1.1.1 施工誤差引起的變形
在建筑物的施工過程中,出現因施工誤差而造成建筑物的荷載分布與預計分布不均勻的情況是不可避免的,這種細微的差錯就會導致建筑發(fā)生形變[5]。
1.1.2 建筑物的合理變形
在建筑物施工和運營階段,其自身結構形態(tài)造成荷載分布不均勻會導致建筑物發(fā)生形變。
1.1.3 外部因素
隨著建筑物的建設,由于建筑物的荷載不斷增加,其地基土在壓力的作用下被不斷壓實,體積縮小,從而引起建筑的沉降變形。
1.2 沉降觀測原理
沉降觀測(亦稱沉陷觀測)是變形觀測中用得最多的,它是指對所設置的觀測點進行持續(xù)的垂直位移觀測,根據工程特點分階段地得出沉降觀測成果,據此推斷或驗證工程實施的可靠程度[6]。
變形觀測中沉降觀測極為重要。沉降觀測作業(yè)簡單但精度要求高,它不僅能提供沉降量,還可以推算建筑物的傾斜以及水平構件的撓度等。工程建筑物從施工開始到竣工,以及建成運營后很長一段時間,沉降是不可避免的。沉降在一定的限度之內屬正?,F象,但一旦超過某一限度[7],就會危及建筑物的安全。
1.3 沉降觀測方法
沉降觀測的方法有:水準測量方法、三角高程測量方法、數字攝影測量方法、InSAR方法、GPS方法、地面沉降監(jiān)測站(基巖標和分層標組)、地下水動態(tài)監(jiān)測等[8]。
2 高層建筑沉降觀測實例
2.1 工程概況
該項目占地面積為67854.09m2,建筑結構形式為框架剪力墻結構,地基類型為樁基基礎。建筑設計單位為西南設計院,建筑施工單位為成都建工5公司;設計用途為住宅,層數為25。
2.2 觀測點的布設和觀測
2.2.1 觀測點的布設
在建筑物的四角、大轉角及建筑物的外墻每10-20m處或每隔2-3根柱基上布設沉降觀測點。市場營銷同時在高低建筑物、縱橫墻交界處、建筑物裂縫或沉降縫兩側、框架結構建筑物部分基柱上設置觀測點。間距大約15m,地質復雜以及膨脹土質的建筑物,在承重內隔墻中部設內墻點。片伐基礎、箱型基礎底板或接近基礎的結構部分之四角處及中部位置設置觀測點。
根據建筑物結構及基礎吃力層特點,擬在建筑物主題布設12個沉降觀測點,如圖1所示:
2.2.2 沉降觀測
采用天寶生產的DINI03電子水準儀及相應的銦瓦水準尺和尺墊按照二級水準觀測精度,從基準點開始組成閉合、附合或結合水準路線進行觀測。
2.2.3 沉降觀測的周期
施工過程中3#樓每3層觀測1次,封頂后每2-3個月觀測1次,在主體竣工驗收(靜荷載加載完畢)時如沉降數據達到《建筑變形測量規(guī)程》規(guī)定的穩(wěn)定標準,可停止觀測,否則應繼續(xù)進行觀測工作,直至達到穩(wěn)定標準為止。
3 沉降觀測數據綜合分析
圖2詳細記錄了從第1期到第12期的各個觀測點的高程數據,從表中可以看出隨著建筑物的逐漸修建過程中,各個觀測點的高程數據的值是在成逐漸減小的趨勢,說明建筑體在發(fā)生沉降變化,也說明整個建筑的變化狀態(tài)是符合理論實際研究的。
曲線在首次觀測后即發(fā)生回升現象。產生這種現象的原因,一方面,可能是初測精度不高;另一方面,也可能是施工區(qū)內降水變化引起的;如果是施工區(qū)內降水變化引起的,則屬正?,F象。 如果是因為初測精度不高所引起的,曲線回升超過5mm,應將第一次觀測成果作廢,而采用第二次觀測成果作為首測成果,如曲線回升在5mm之內,則可調整初測標高與第二次觀測標高一致。
曲線的波浪起伏現象。曲線在后期呈現波浪起伏現象,此現象在沉降觀測中最常遇到,常常是測量誤差所造成的。曲線在前期波浪起伏所以不突出,是因建筑物下沉量大于測量誤差之故,但到后期,由于建筑物下沉極微或已接近穩(wěn)定,因此在曲線上就出現測量誤差比較突出的現象。處理這種現象時,應根據整個情況進行分析,決定自某點起,將波浪形曲線改成水平線。
曲線自某點起漸漸回升。產生此種現象一般是由于水準點下沉所致,水準點是逐漸下沉的,而且沉降較小,但建筑物初期沉降量較大,即當建筑物沉降量大于水準點沉降量時,曲線不發(fā)生回升,到了后期,建筑物下沉逐漸穩(wěn)定,如水準點繼續(xù)下沉,則曲線就會發(fā)生逐漸回升現象。因此在選擇或埋設水準點時,特別在建筑物上設置水準點時,應保證其點位的穩(wěn)定性,如已查明確系水準點下沉的原因,則應測出水準點的下沉量,以便修正觀測點的標高。
曲線在中間某點突然回升。發(fā)生這種現象的原因,是水準點或觀測點被碰動所致,當水準點碰動后低于被碰動前的標高及觀測點被碰動后高于被碰動前的標高時,才會出現回升現象的可能。由于水準點或觀測點被碰動,其外形必有損傷,比較容易發(fā)現對這個問題必須進行合理的處理,其辦法是:選擇結構、荷重及地質等條件都相同的臨近另一沉降觀測點,取該點在同一期間內的沉降量,作為被碰動觀測點的沉降量。此法雖不能真正反映觀測點的沉降量,但如果選擇適當,可得到比較接近實際情況的結果。
關鍵詞:函數性數據;修勻;函數性主成份分析;資產收益率
中圖分類號:F276.1
文獻標識碼:A
文章編號:1002―2848―2007(01)-0108―06
一、前 言
在經濟數據的傳統(tǒng)定量分析中,所分析的數據對象具有這樣的特征,即數據要么是時間序列數據,要么是橫截面數據。而實際中獲得的許多經濟數據,往往是在時間序列上取多個截面,再在這些截面上同時選取樣本觀測值所構成的樣本數據。計量經濟學中稱這樣的數據為“平行數據”(Panel Da―ta),也被翻譯成“面板數據”,或“縱向數據”(longitudinal data)。20多年來,許多學者研究分析了面板數據。事實上,關于面板數據的研究是計量經濟學理論方法的重要發(fā)展之一,它在解決數據樣本容量不足、估計難以度量的因素對經濟指標的影響,以及區(qū)分經濟變量的作用等方面,具有突出優(yōu)點。但是,研究面板數據的計量模型,以線性結構描述變量之間的因果關系,且模型太過于依賴諸多的假設條件,使得方法的應用具有一定的局限性。為了彌補面板數據的計量模型分析方法及其它統(tǒng)計分析方法的缺陷,本文基于經濟數據的函數性特征,介紹一種從函數視角對經濟數據進行分析的全新方法一函數性數據分析(Functional Data Analysis,FDA)。
函數性數據分析的概念,始見于加拿大統(tǒng)計學家J.O.Ramsay和C.J.Dalzell于1991年發(fā)表的論文《函數性數據分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)將對函數性數據進行統(tǒng)計分析的已有理論和方法,總結在《函數性數據分析》一書中。但這本書偏重方法的理論介紹和數學推導,不利于統(tǒng)計基礎薄弱者使用。經過5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函數性數據案例,并將其具體的分析過程編入他們于2002年出版的專著中。雖然國外在這方面已經做了許多研究,也取得了許多有價值的結果,但是有關函數性數據的研究依然處于起步階段,還有很多問題需要研究或進一步完善。另外,從方法應用的具體領域來看,很少涉及對經濟函數性數據的分析。就目前研究文獻來看,我國在此方面的研究尚是一片空白。
為填補我國在這方面研究的空白,本文從思想、方法等方面,對函數性數據分析進行系統(tǒng)介紹,并通過編寫計算機程序,率先利用該方法分析實際的經濟函數性數據。本文共分六部分,以下內容的安排為:數據的函數性特征及經濟函數性數據實例、從數據的函數性視角研究數據的意義、函數性數據分析的目標和步驟、函數性數據分析方法的經濟應用,最后一部分是本文的結論。
二、數據的函數性特征及經濟函數性數據實例
一般地說,多元數據分析(Multivariate Data A-nalysis,MDA)處理的對象,是刻畫所研究問題的多個統(tǒng)計指標(變量)在多次觀察中呈現出的數據,樣本數據具有離散且有限的特征。但是,現代的數據收集技術所收集的信息,不但包括傳統(tǒng)統(tǒng)計方法所處理的數據,還包括具有函數形式的過程所產生的數據,例如,數據自動收集系統(tǒng)等,稱具有這種特征的數據為函數性數據。
函數性數據的表現形式多種多樣,但就其本質來說,它們由函數構成。這些函數的幾何圖形可能是光滑的曲線(如人體在成年前的身體高度變化等),也可能是不光滑的曲線(如股票綜合指數等)。許多研究領域的樣本資料往往表現為函數形式,如考古學家挖掘的骨塊的形狀、按時間記錄的經濟數據、手寫時筆尖的運動軌跡、溫度的變化等。函數性數據分析(Functional Data Analysis,FDA)的基本原理是把觀測到的數據函數看作一個整體,而不僅僅是一串數字。函數指的是數據的內在結構,而不是它們直觀的外在表現形式。
實際中,之所以要從函數的視角對數據進行分析,是因為:(1)實際中,獲得數據的方式和技術日新月異、多種多樣,例如,越來越多的研究者可以通過數據的自動收集系統(tǒng)獲得大量的數據信息。更重要的是,原本用于工程技術分析的修勻(smoothing)和插值(interpolation)技術,可以由有限組的觀測數據產生出相應的函數表示。(2)盡管只有有限次的觀測數據可供利用,但有一些建模問題,將其納入到函數版本下進行考慮,會使分析更加全面、深刻。(3)在有些情況下,如果想利用有限組的數據估計函數或其導數,則分析從本質上來看就具有函數性的特征。(4)將平滑性引入到一個函數過程所產生的多元數據的處理中,對分析具有重要的意義。
在經濟分析中,融合時間序列和橫截面兩者的數據很常見,例如,多個國家、地區(qū)、行業(yè)或企業(yè)的多年的年度經濟總量、多家商業(yè)銀行歷年的資本結構、能源(如電力、煤炭、石油等)多年按月的消耗量、不同時間上多個省市的失業(yè)數據等。這些經濟數據往往呈現函數性特征,即每個個體對應著一個函數或曲線。在對經濟函數性數據進行分析時,將觀測到的數據(函數)看作一個整體,而不是個體觀測值的順序排列,這是函數性數據分析不同于傳統(tǒng)統(tǒng)計分析之根本所在。例如,表1是工商銀行、農業(yè)銀行、中國銀行、建設銀行1995年到2004年期間的資產收益率(ROA)數據。
利用基于MATLAB編寫的程序,對數據進行平滑處理(smoothing),并繪出四家國有銀行的資產收益率(ROA)的修勻曲線(見圖1)。由曲線圖可以看出,每個個體(銀行)對應著一條曲線(其數學表達式為函數),這是將多家銀行的歷年ROA數據記錄看作函數的根本理由,也是函數性數據分析的出發(fā)點。
三、從數據的函數性視角研究數據的意義
從函數的視角,對具有函數特征的經濟數據進行研究,會挖掘出更多的信息。例如,對函數性數據的平滑曲線展示,不但能夠診斷出擬合數據的可能數學模型,還能夠通過對光滑曲線求一階、或更高階的導數,來進一步探索數據的個體(橫截面)差異和動態(tài)變化規(guī)律。
圖2是四家銀行資產收益率的速度(一階導數)曲線,觀察發(fā)現:在1995年至2004年期間,農業(yè)
銀行、中國銀行及建設銀行的資產收益率的變化率,呈現出較強的周期性,其中尤以建設銀行的表現最為突出。加速度曲線圖顯示,四家銀行資產收益率的變化率的波動狀況不相同,轉折變化的時間差異也較大。這些情況一定程度表明,各家銀行的內部管理與經營機制,對市場信息的反應快慢程度各不相同。
四、函數性數據分析的目標和步驟
函數性數據分析的目標與傳統(tǒng)統(tǒng)計學分析的目標基本一樣,具體情況如下:
(一)以對進一步分析有利的方法來描述數據;
(二)為突出不同特征而對數據進行展示;
(三)研究數據類型的重要來源和數據之間的變化;
(四)利用輸入(自變量信息)來解釋輸出(因變量)的變化情況;
(五)對兩組或更多的某種類型的變量數據進行比較分析。
典型的FDA主要包括以下步驟:
第一步,原始數據的收集、整理和組織。假設我們考慮的自變量是一維的,記為t,一個的函數僅在離散抽樣值 處被觀測,而且這些ti可能等間隔分布,也可能不是。在函數性數據分析中,將這些離散的觀測值看作一個整體。
第二步,將離散數據轉換為函數形式。這是利用各次觀察的原始數據定義出一個函數x(t),它在某一區(qū)間上所有t處的值都被估算了出來。解決這個問題的基本方法是選定一組基函數 (t),k=O,…,K,并用基函數的線性組合給出函數x(t)的估計
第三步,多種形式的初步展示與概括統(tǒng)計量。概括統(tǒng)計量包括均值和方差函數、協(xié)方差與相關函數、交叉協(xié)方差(cross―covafiance)與交叉相關(cross―correlation)函數等。
第四步,為了使每一條曲線的顯著特征都在大體相同的自變量處(如月份、年份等)顯現出來,可能需要對函數進行排齊(regigtration),其目的是能夠區(qū)別對待垂直方向的振幅變化與水平方向的相變化。
第五步,對排齊后的函數數據進行探索性分析,如函數性主成份分析(FPCA)、函數性典型相關份析(FCCA)等。
第六步,建立模型。建立的模型可能是函數性線性模型,也可能是微分方程。
第七步,模型估計。
五、函數性數據分析方法的經濟應用
為了說明函數性數據分析方法的具體應用,同時出于使所繪圖形簡單明了,本文再次利用四家國有銀行的數據,對資產收益率進行更深入的分析。雖然此實例中個體數少,但并不妨礙對方法應用的系統(tǒng)描述與理解。
在對實際問題的經濟數據進行分析時,通常需要依照研究的目標編寫計算機程序。就目前的研究現狀來看,基于MATLAB或SPLUS等編寫的程序,如繪圖或綜合計算函數等,完全可以滿足分析的需要。本文首先基于MATLAB編寫程序,然后對四家國有銀行的資產收益率數據進行分析。
關于四家銀行資產收益率數據的函數(曲線)展示與初步分析,本文在前面已進行了描述,具體結果見圖1和圖2。概括資產收益率特征的統(tǒng)計量(均值函數和標準差函數)的曲線見圖3。
為了進一步探討典型函數所呈現的特征,本文利用函數性主成份分析,對四家銀行的資產收益率數據進行分析。一般來說,在函數性數據分析中,與多元統(tǒng)計中的某個主成份的權向量相對應的是主成份權函數(principal component weight function),記為 ,其中t在一個區(qū)間 中變化。第i個樣品(個體) 的主成份得分值為 ,第一主成份就是在 的約束條件下,尋求使主成份得分 的方差達到最大的權函數 ,即它是下面數學模型的最優(yōu)解: 類似地,可以求得第j個主成份,其權函數毛(t)是下面數學模型的解:
為了得到光滑的主成份,一種方法是對由上述方法求出的主成份進行修勻,另一種方法是將修勻處理過程,融入到主成份的求解過程中。具體作法是將描述主成份曲線波動程度的粗糙因子納入到約柬條件中,形成帶懲罰的約束條件。利用粗糙懲罰法求第j個主成份的數學模型是其中 稱為修勻參數,用它可對粗糙懲罰項進行調整。
利用上述方法和基于MATLAB編寫的程序,對四家銀行進行函數性主成份分析(FPCA)。具體結果見圖4。第一個主成份(PCI)的解釋能力為85.5%,第二個主成份(Pc2)的解釋能力為13.1%,前兩個主成份的綜合解釋能力為98.6%。
為了清晰地顯示主成份,并進行有意義的解釋,在同一圖中繪出三條曲線,一條是整體均值曲線,另兩條是對均值曲線分別加上和減去主成份的一個適當倍數而形成的曲線,具體結果見圖5(本文所選的倍數是0.12)。以上所述的三條曲線分別對應著圖5中的實心曲線、‘+’曲線和‘*’曲線。第一個主成份反映了資產收益率(ROA)的一般變化,尤其反映了資產收益率的“兩頭”變化情況(1999年以前和2003年以后)。第二個主成份反映了資產收益率(ROA)的中段變化。
六、結論
在經濟實踐中,越來越多的領域所得到的樣本觀察資料是曲線或圖像,即函數性數據。因此,對這種類型的經濟數據進行統(tǒng)計分析和描述,具有重要的現實意義。因篇幅所限,還有一些函數性數據的分析方法未予以介紹,如函數性方差分析、函數線性模型、函數性典型相關分析以及描述動態(tài)性的微分方程等。由于本文的主要目的,是通過對函數性數據分析方法和具體應用的介紹,傳述對數據進行分析的新思想,而不只是方法技術本身。因此,缺少的方法并不影響對思想的闡述。
另外,本文對四家銀行資產收益率的分析,例證了函數性數據的分析方法,具有傳統(tǒng)統(tǒng)計分析方法不可比擬的優(yōu)越性,具體表現在:(1)通過對函數性數據的修勻,將一階或多階導數,如速度和加速度,引入到分析過程中。這一點在計量經濟學和多元統(tǒng)計的分析方法中未予以考慮。(2)函數性數據分析,用最少的假設來研究曲線間和曲線內部的結構變化。關于這一點它優(yōu)于計量經濟學中處理“面板數據”的方法。事實上,面板數據只是函數性數據的一種類型,本文介紹的數據分析方法可用來處理許多領域的函數性數據,應用范圍相對寬廣,而且觀測時點也可以不等間隔選取。(3)將數據曲線的振幅變化與相位變化分開處理,是函數性數據分析的一個中心理念,但在以前的分析中卻被忽視了。
關鍵詞:信息技術;數據管理;數據挖掘;金融業(yè)
中圖分類號:Z42文獻標識碼:A 文章編號:1009-3044(2010)01-18-02
Based on Data Mining in Financial Data Analysis
ZHU Jing, LI Shi-jun
(Computer Application academy of Computer Science, Wuhan University, Wuhan 430072,China)
Abstract:Today is the corporate strategy and its market position and is closely related to the era of information technology,it is difficult to imagine a modern enterprise with no proper support for information technology systems will be how it works. However, with the development of information technology, enterprise data generated by large numbers of accumulation and expansion, many of which are very valuable information hidden in them not being found by people. How these massive data management and extract potentially valuable information, as enterprises in the fierce market occupy the dominant position of the key points. Therefore, data mining techniques have emerged, and applied in various industries, has made extensive and significant progress. This paper is on data mining applications in the financial sector were discussed.
Key words: Information technology; Data management; Data Mining; Finance
作為一個新興的研究領域,數據挖掘已經廣泛的應用到了眾多的領域,出現了大量大的商品化的數據挖掘系統(tǒng),金融數據挖掘是信息社會中的一個極具挑戰(zhàn)性的研究方向,金融數據的隨機特性使得隱藏在數據中的內在規(guī)則難以被發(fā)現。如何對這些隱藏的數據進行管理,并從中提取潛在的有價值的信息,成為金融業(yè)在市場中占據優(yōu)勢地位的關鍵。
1 數據挖掘概述
數據挖掘DM(Data Mining)是對數據庫中的數據進行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含的、事先未知的、但又是潛在有用的信息和知識的過程[1]。確切地講,DM是KDD過程中的一個步驟,其處理對象是大量的日常業(yè)務數據,它主要基于人工只能、機器學習、統(tǒng)計學等技術,高度自動化地分析原有的海量數據,做出歸納的推理,從中采掘出潛在的模式,預測未知的行為,提高信息的利用,改變“人們被數據淹沒,同時卻仍感到知識饑渴”的資源浪費的局面。KDD是數據庫技術和機器學習兩個學科的交叉學科,由于KDD使用的數據來自于實際的數據庫,所要處理的數據量可能很大,因此DM中的學習算法的效率和可擴充性就尤為重要;此外,KDD所處理的數據由于來自于現實世界,數據的完整性、一致性和正確性都很難保證,因此數據預處理也是很有必要的。
2 數據挖掘在金融業(yè)的應用
金融事務需要搜集和處理大量紛繁復雜的數據,大部分銀行和金融機構提供豐富多樣的銀行服務(如個人存款)、信用服務(如貸款、個人信用卡)和投資服務(如共同基金)。由于交易的頻繁性、信息的不對稱性加上從海量數據中挖掘信息,金融數據挖掘技術可以從這些信息中查找到有效的信息用來幫助監(jiān)管部門及投資部門進行有效監(jiān)督和投資管理,可以幫助銀行部門描述客戶以往的需求趨勢并預測未來;可以分析潛在的信譽較差的客戶,及時采取措施減少資產損失等。
金融機構收集到的金融數據通常相對完整、可靠并具有高質量,方便了系統(tǒng)化的數據分析和數據挖掘。對金融數據進行數據挖掘通常包含以下四個部分的應用分析情況。
1)為多維數據分析和數據挖掘設計和構造數據倉庫。
首先需要為銀行和金融數據構造數據倉庫,應當使用多維數據分析方法分析這種數據的一般性質,企業(yè)可以通過按月、按地區(qū)、按部門以及其他因素,查看債務和稅收變化,同時提供最大、最小、總和、平均值趨勢和其他統(tǒng)計信息。數據倉庫、數據立方體、多特征和發(fā)現驅動的數據立方體、特征化和類比較以及離群點分析都會在金融數據分析和挖掘中發(fā)揮重要的作用。
2)貸款償還預測和顧客信用政策分析。
貸款償付預測和顧客信用政策分析對銀行業(yè)務是至關重要的。很多因素都會對貸款償還履行和顧客信用等級評定產生不同程度的影響。數據挖掘方法,如屬性選擇和屬性相關評定,可能有助于識別重要因素,剔除不相關因素。例如與貸款償還風險相關的因素包括貸款率、貸款期限、負債率、償還收入比、顧客收入水平、受教育水平、居住地區(qū)和信用史。分析顧客償還史信息可以發(fā)現,比如說,償還收入比是主要因素,而受教育水平和負債率則不是,于是,銀行可以根據此調整貸款發(fā)放政策,將貸款發(fā)放給那些 申請以前曾被拒絕的,其基本信息表明風險相對較低的顧客。
3)針對定向銷售的顧客分類與聚類。
分類和聚類的方法可用于顧客群識別和定向銷售。可以使用分類識別可能影響顧客關于銀行業(yè)務決策的最重要因素。使用多維聚類技術,可以識別對貸款償有類似行為的顧客。這些可以幫助識別顧客群,把新顧客歸到一個合適的顧客群,推動定向消費。
4)洗黑錢和其他金融犯罪的偵破。
為了偵破洗黑錢和其他金融犯罪,重要的是把多個數據庫(如銀行交易數據庫,地區(qū)犯罪歷史數據庫)中的信息集成起來,只有這些數據可能與偵破工作有關。然后,使用多種數據分析工具檢測異常模式,如在某段時間內分析某些人發(fā)生的大量現金流動。使用的工具包括數據可視化工具(用圖形的方式按時間和按顧客群顯示交易活動)、鏈接分析工具(識別不同顧客和活動之間的聯(lián)系)、分類工具(過濾不相關的屬性,對高度相關屬性分類)、聚類工具(將不同案例分組)、離群點分析工具(檢測異常資金轉移量或其他行為)、序列模式分析工具(刻畫異常訪問序列的特征)。這些工具可以識別活動的重要聯(lián)系和模式,幫助調查人員為進一步詳細調查提供可疑線索。
3 結束語
數據挖掘已在我國金融業(yè)信息化建設中被廣泛應用,幫助企業(yè)在激烈的市場競爭中取得優(yōu)勢地位,并顯現出巨大的應用前景。我們不要求十全十美,但要盡量做得好一些,特別是我國加入WTO后,金融開放將使我國金融業(yè)直接面對外資金融機構的挑戰(zhàn),但同時血給我們提供了機遇和發(fā)展的空間。加強對外技術經驗交流,繼續(xù)深化體制改革,充分挖掘自身獨特的優(yōu)勢,創(chuàng)新產品服務。加強客戶關系管理,這將是我們在激烈的競爭中取得長足發(fā)展的關鍵。
參考文獻:
[1] 李學勃.數據挖掘在金融業(yè)的應用分析[J].萬方數據,2009(10).
[2] 易東云.金融數據挖掘中的非線性相關跟蹤技術[J].軟件學報,2000(11).
[關鍵詞]數據分析;大數據;智慧校園;決策支持
1國內外研究開發(fā)現狀和發(fā)展趨勢
1.1現狀與趨勢
在當今大數據、云計算、物聯(lián)網和移動互聯(lián)網等新思路、新技術快速發(fā)展的又一歷史時期,高等教育面臨著前所未有的發(fā)展機遇,在經歷了網絡化、數字化、信息化管理階段之后,“智慧校園”將是在“互聯(lián)網+教育”趨勢下最重要的發(fā)展思路。隨著計算機技術的不斷發(fā)展,各種系統(tǒng)結構化和非結構化數據以前所未有的驚人速度迅猛增長,“大數據”時代已經到來。大數據是指數據結構比較復雜、數據規(guī)模大的數據集合。其數據量已經遠遠超出了一般數據管理工具可以承受的處理時間以及數據處理及存儲管理能力。在當今大數據環(huán)境下,高校管理系統(tǒng)的數據結構及數據量發(fā)生了巨大的變化。在數據存儲、數據管理、數據分析及數據挖掘等方面面臨著巨大的機遇和挑戰(zhàn)。為了有效地利用大數據為高校決策分析提供更好的服務,必須基于大數據建立相應的數據分析系統(tǒng)。
1.2國內外研究與開發(fā)綜述
隨著大數據的發(fā)展和教育信息化的不斷深入,基于大數據開展的高校校園數據分析與應用逐步受到重視。對大數據的定義始終沒有形成統(tǒng)一的意見。維基百科對大數據(Bigdata)的定義是:所涉及的數據量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理并整理成為人類所能解讀的信息。麥肯錫全球研究院將大數據定義為:無法在一定時間內使用傳統(tǒng)數據庫軟件工具對其內容進行獲取、管理和處理的數據集合。加特納(Gartner)于2012年修改了對大數據的定義:大數據是大量、高速、多變的信息資產,它需要新型的處理方式去促成更強的決策能力、洞察力與優(yōu)化處理。而在高校學生數據的分析應用方面,國內外高校均有開展相關的研究。紐約州波基普西市瑪麗斯特學院(MaristCollege)與商業(yè)數據分析公司Pentaho合作發(fā)起開源學術分析計劃,旨在一門新課程開始的兩周內預測哪些學生可能會無法順利完成課程,它基于商業(yè)分析平臺開發(fā)了一個分析模型,通過收集分析學生的學習習慣,包括線上閱讀材料、論壇發(fā)言、完成作業(yè)時長等數據信息,來預測學生的學業(yè)情況,及時干預幫助問題學生,從而提升畢業(yè)率。上海財經大學基于校園信息化數據基礎,開發(fā)了校務決策支持系統(tǒng),面向人才培養(yǎng)、內部管理、科學研究和師生服務等方面開展決策分析;華東師范大學利用校園信息化基礎數據,開展了校車人數與載客分布分析,提升了校車使用率;利用一卡通數據開展了貧困生的特征確定、潛在貧困生分析、后續(xù)跟蹤驗證,有效提升了幫困扶貧的工作效率。
2需求分析
結合西安歐亞學院信息化建設基礎與海量的數據積累,建立“智慧校園”數據分析系統(tǒng),通過此平臺的建設和應用,運用數據挖掘和知識發(fā)現,從而在大數據中獲取數據之間內在的相互聯(lián)系,以及其中可能存在的某種規(guī)律,從而有效提升校園管理的決策效率,提升教學科研與管理服務的綜合水平。通過調查走訪各部門,了解教師、學生與行政管理人員的相關需求。主要包括四個方面:一是教學數據分析需求。包括各分院、招生辦、教務處等部門對于招生、學生學習行為、教學質量、學科建設與學生就業(yè)等方面的分析。二是生活服務數據分析需求。包括圖書館、后勤等部門對于學生的消費行為即圖書借閱、網絡行為、資源利用等項目的分析。三是財務、人事、宣傳等部門對于全校的資產、師資力量、宣傳效果等項目的分析。四是研究發(fā)展部門對于全??蒲许椖颗c成果完成情況的分析(見圖1)。
3系統(tǒng)方案設計
3.1框架設計
結合需求情況,開展系統(tǒng)的總體框架設計,初步將系統(tǒng)分為三大板塊,包括數據監(jiān)測、決策支持和查詢定制(見圖2)。
3.2系統(tǒng)方案
系統(tǒng)總體架構包括四個層次,分別是數據引擎、數據挖掘、數據庫解決方案和交互平臺。數據引擎部分將集成校園WIFI、固網、一卡通、教務系統(tǒng)等各類信息系統(tǒng)的數據,形成數據源,數據挖掘將通過分布式計算架構和數據分析平臺對潛在數據進行分析與建模,通過數據庫建立本系統(tǒng)的分析數據庫,最終通過PC、手機等客戶端向用戶進行呈現(見圖3)。
3.3典型應用研究內容
3.3.1教學質量評估教學質量評估屬于高校定期必須完成的任務,教學評估的主要目的是更好地發(fā)掘出教學過程中存在的一些問題,從而及時地對教學方法進行調整,最終實現教學質量的提升。將大數據運用到高校教學評估系統(tǒng)之中,不但能夠在很大程度上提高高校教學管理的科學性,同時還可以提高信息化教學的實用性。把基于大數據挖掘的算法運用在教學評估工作之中,找出教學效果、信息技術在教學中的應用、師生之間的溝通互動等因素之間的聯(lián)系,從而給高校的教學部門帶來非常科學的決策信息,同時讓教師可以更加有效地開展教學工作,提高教學質量。
3.3.2教師教學能力分析以往的教學缺乏大量數據支撐,教學的質量高低主要靠教師自我度的把握?,F在,可以通過在線課堂等技術,搜集大量課堂情況信息,比如學生對知識點的理解程度、教師課堂測試的成績、學生課堂紀律等。通過這些數據的分析,了解教師熟悉教案的程度、課堂氛圍等,改善教學水平。也可以通過深度分析學生在教學過程中教師的課堂表現,從而發(fā)現課程的閃光點以及不足,從而讓教師能夠進一步地對課程教學進行改善,提升教學質量。
3.3.3個性化課程分析個性化學習是高校教學改革的目標,過去的班級制教學中無法很好達到這一點,通過把大數據挖掘技術和學習內容結合起來,指導學習者規(guī)劃學習發(fā)展方向,制訂學習規(guī)劃,實現個性化學習功能。通過評估個人情況,根據分析結果推薦可能取得優(yōu)秀成績的課程方案。首先獲取學生以往的學習表現,然后從已畢業(yè)學生的成績庫中找到與之成績相似的學生信息,分析前期成績和待選課程結果之間的相關性,結合專業(yè)要求和學生能力進行分析,預測學生選擇的課程中可能取得的成績,最后綜合權衡預測學生成績和各門課程的重要性,為學生推薦一份專業(yè)課程清單。
3.3.4學習行為分析通過一卡通門禁信息、網絡信息、課程信息、在線教育系統(tǒng)等相關數據,可以把學生到課堂時間、上課表現、作業(yè)完成情況、自習情況等學習信息記錄下來,進行變量分析。當一些與學習行為有關的因素(如曠課、紀律問題、課堂表現)發(fā)生變化時,對學生提示并進行分析。通過這種系統(tǒng)分析,可以很好地規(guī)劃學生的學習時間,提高學習效率。
4技術創(chuàng)新點
4.1大數據環(huán)境下提升數據挖掘范圍
相比于傳統(tǒng)常規(guī)環(huán)境下的數據獲取渠道,大數據環(huán)境下,校園數據的獲取更為廣泛和準確。常規(guī)環(huán)境下的數據主要以經費收支、課程建設、問卷、訪談、課堂觀察等來源,而在大數據環(huán)境下,通過對事件數據、輿情數據、一卡通、日志搜索等數據的抓取與分析,更能夠準確地反映實際校情。
4.2可視化技術展現數據分析結果
利用大數據分析的數據挖掘與可視化分析,能夠直觀地呈現大數據特點,同時能夠非常容易被使用者所接受,就如同看圖說話一樣簡單明了。智慧校園中,結合學生學習、生活消費的各類數據,通過系統(tǒng)分析與圖表展現,讓用戶只管了解數據分析的結果。
4.3數據質量管理提供重要支持
本項目結合大數據發(fā)展趨勢,充分利用數據挖掘、建模與可視化展示技術,系統(tǒng)存儲數據主要是從校內外各種數據源中獲得最原始數據,并對該部分數據進行整合形成數據層,然后將數據層中的數據經過抽取、清洗、轉換、裝載進入數據倉庫從而形成支撐層,在支撐層的基礎上,可以根據需求對數據進行挖掘分析,從而構建決策層。