當前位置:文範網 >

論文模板 >論文模板精選 >

數據挖掘技術論文【多篇】

數據挖掘技術論文【多篇】

數據挖掘技術論文【多篇】

數據挖掘技術論文 篇一

關鍵字:數據挖掘金融數據

金融部門每天的業務都會產生大量數據,利用目前的數據庫系統可以有效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關係和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背後隱藏的知識的手段,導致了數據爆炸但知識貧乏”的現象。與此同時,金融機構的運作必然存在金融風險,風險管理是每一個金融機構的重要工作。利用數據挖掘技術不但可以從這海量的數據中發現隱藏在其後的規律,而且可以很好地降低金融機構存在的風險。學習和應用數扼挖掘技術對我國的金融機構有重要意義。

一、數據挖掘概述

1.數據挖掘的定義對於數據挖掘,一種比較公認的定義是ley,etskShapiro等人提出的。數據挖掘就是從大型數據庫的數據中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規則(Rules)、規律(Regularities)、模式(Patterns)等形式。這個定義把數據挖掘的對象定義為數據庫。

隨着數據挖掘技術的不斷髮展,其應用領域也不斷拓廣。數據挖掘的對象已不再僅是數據庫,也可以是文件系統,或組織在一起的數據集合,還可以是數據倉庫。與此同時,數據挖掘也有了越來越多不同的定義,但這些定義儘管表達方式不同,其本質都是近似的,概括起來主要是從技術角度和商業角度給出數據挖掘的定義。

從技術角度看,數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識的過程。它是一門廣義的交叉學科,涉及數據庫技術、人工智能、機器學習、神經網絡、統計學、模式識別、知識庫系統、知識獲取、信息檢索、高性能計算和數據可視化等多學科領域且本身還在不斷髮展。目前有許多富有挑戰的領域如文本數據挖掘、Web信息挖掘、空間數據挖掘等。

從商業角度看,數據挖掘是一種深層次的商業信息分析技術。它按照企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性並進一步將其模型化,從而自動地提取出用以輔助商業決策的相關商業模式。

2.數據挖掘方法

數據挖掘技術是數據庫技術、統計技術和人工智能技術發展的產物。從使用的技術角度,主要的數據挖掘方法包括:

2.1決策樹方法:利用樹形結構來表示決策集合,這些決策集合通過對數據集的分類產生規則。國際上最有影響和最早的決策樹方法是ID3方法,後來又發展了其它的決策樹方法。

2.2規則歸納方法:通過統計方法歸納,提取有價值的if-then規則。規則歸納技術在數據挖掘中被廣泛使用,其中以關聯規則挖掘的研究開展得較為積極和深入。

2.3神經網絡方法:從結構上模擬生物神經網絡,以模型和學習規則為基礎,建立3種神經網絡模型:前饋式網絡、反饋式網絡和自組織網絡。這種方法通過訓練來學習的非線性預測模型,可以完成分類、聚類和特徵挖掘等多種數據挖掘任務。

2.4遺傳算法:模擬生物進化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成。為了應用遺傳算法,需要將數據挖掘任務表達為一種搜索問題,從而發揮遺傳算法的優化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數學家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數學工具。它特別適合於數據簡化,數據相關性的發現,發現數據意義,發現數據的相似或差別,發現數據模式和數據的近似分類等,近年來已被成功地應用在數據挖掘和知識發現研究領域中。

2.6K2最鄰近技術:這種技術通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術可以作為聚類和偏差分析等挖掘任務。

2.7可視化技術:將信息模式、數據的關聯或趨勢等以直觀的圖形方式表示,決策者可以通過可視化技術交互地分析數據關係。可視化數據分析技術拓寬了傳統的圖表功能,使用户對數據的剖析更清楚。

二、數據挖掘在金融行業中的應用數據挖掘已經被廣泛應用於銀行和商業中,有以下的典型應用:

1.對目標市場(targetedmarketing)客户的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客户分為一組。有效的聚類和協同過濾(collaborativefiltering)方法有助於識別客户組,以及推動目標市場。

2..客户價值分析。

在客户價值分析之前一般先使用客户分類,在實施分類之後根據“二八原則”,找出重點客户,即對給銀行創造了80%價值的20%客户實施最優質的服務。重點客户的發現通常採用一系列數據處理、轉換過程、AI人工智能等數據挖掘技術來實現。通過分析客户對金融產品的應用頻率、持續性等指標來判別客户的忠誠度;通過對交易數據的詳細分析來鑑別哪些是銀行希望保持的客户;通過挖掘找到流失的客户的共同特徵,就可以在那些具有相似特徵的客户還未流失之前進行鍼對性的彌補。

3.客户行為分析。

找到重點客户之後,可對其進行客户行為分析,發現客户的行為偏好,為客户貼身定製特色服務。客户行為分析又分為整體行為分析和羣體行為分析。整體行為分析用來發現企業現有客户的行為規律。同時,通過對不同客户羣組之間的交叉挖掘分析,可以發現客户羣體間的變化規律,並可通過數據倉庫的數據清潔與集中過程,將客户對市場的反饋自動輸人到數據倉庫中。通過對客户的理解和客户行為規律的發現,企業可以制定相應的市場策略。

4.為多維數據分析和數據挖掘設計和構造數據倉庫。例如,人們可能希望按月、按地區、按部門、以及按其他因素查看負債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統計信息。數據倉庫、數據立方體、多特徵和發現驅動數據立方體,特徵和比較分析,以及孤立點分析等,都會在金融數據分析和挖掘中發揮重要作用。

5.貨款償還預測和客户信用政策分析。有很多因素會對貨款償還效能和客户信用等級計算產生不同程度的影響。數據挖掘的方法,如特徵選擇和屬性相關性計算,有助於識別重要的因素,別除非相關因素。例如,與貨款償還風險相關的因素包括貨款率、資款期限、負債率、償還與收入(payment——to——income)比率、客户收入水平、受教育程度、居住地區、信用歷史,等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行可以據此調整貨款發放政策,以便將貨款發放給那些以前曾被拒絕,但根據關鍵因素分析,其基本信息顯示是相對低風險的申請。

6.業務關聯分析。通過關聯分析可找出數據庫中隱藏的關聯網,銀行存儲了大量的客户交易信息,可對客户的收人水平、消費習慣、購買物種等指標進行挖掘分析,找出客户的潛在需求;通過挖掘對公客户信息,銀行可以作為廠商和消費者之間的中介,與廠商聯手,在掌握消費者需求的基礎上,發展中間業務,更好地為客户服務。

7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點是要把多個數據庫的信息集成起來,然後採用多種數據分析工具找出異常模式,如在某段時間內,通過某一組人發生大量現金流量等,再運用數據可視化工具、分類工具、聯接工具、孤立點分析工具、序列模式分析工具等,發現可疑線索,做出進一步的處理。

數據挖掘技術可以用來發現數據庫中對象演變特徵或對象變化趨勢,這些信息對於決策或規劃是有用的,金融

行業數據的挖掘有助於根據顧客的流量安排工作人員。可以挖掘股票交易數據,發現可能幫助你制定投資策略的趨勢數據。挖掘給企業帶來的潛在的投資回報幾乎是無止境的。當然,數據挖掘中得到的模式必須要在現實生活中進行驗證。

參考文獻:

丁秋林,力士奇。客户關係管理。第1版。北京:清華人學出版社,2002

張玉春。數據挖掘在金融分析中的應用。華南金融電腦。2004

張嫻。數據挖掘技術及其在金融領域的應用。金融教學與研究。2003

數據挖掘技術論文 篇二

1.1安全技術資金不足

煤炭的持續開採會受到地質條件的直接影響,過去國家投入眾多的設施,使用至今均已出現老化,並且維修量非常大。隨着礦井的不斷延深,礦壓極度強化,巷道的維修任務更是不斷的增加,礦井的供電以及通風、提升與排水等都不能適應生產的需要。

1.2安全管理模式傳統

與西方發達產煤國家相比較,我國的煤礦使用技術研究起步很晚。並且人力、財力非常缺乏,某些重大的安全技術問題,比如衝擊地壓以及煤和瓦斯的突出、地熱以及突水等災害不能進行有效的預測和控制。且受到以往傳統運營思想的直接作用與影響以及各個企業的經濟實力的約束,我國的煤礦生產裝備和安全監控設施相對落後。井巷的斷面設計以及支護強度的確定、支護材料的型號選擇較小。生產設施功率以及礦井的供風量等富餘參數非常低,極易出現事故。絕大多數的煤炭企業還是利用以往傳統的安全管理模式,各種報表計算仍是靠人工勞動並且精確度很低。信息傳送的時間較長,且速度較慢,管理者的工作重複性很大,資料查詢十分困難,並且工作效率很低。安全檢查以及等級鑑定等總是憑藉主觀意念以及相關的經驗。

1.3安全信息管理體制不健全

安全信息可以説是安全管理工作的重要依據,它主要包括事故和職業傷害的有效記錄與分析統計,職業的安全衞生設施的相關研究與設計、生產以及檢驗技術,法律法規以及相應技術標準和其變化的動態,教育培訓以及宣傳和社會活動,國內的新型技術動態以及隱患評估與技術經濟類分析和諮詢、決策的體系。信息體制的健全是安全體制工程以及計算機技術的有效結合,可促使安全工作轉型為定性和定量的超前預測,不過大多數礦井還是處於起步與摸索階段,並未呈現出健全的體制,真正的使用還有待進一步的發展。

2空間數據挖掘技術

數據挖掘研究行業的持續進展,開始由起初的關係數據以及事務數據挖掘,發展至對空間數據庫的不斷挖掘。空間的信息還在逐漸地呈現各類信息體制的主體與基礎。空間數據挖掘技術是一項非常關鍵的數據,具有比普通關係數據庫和事務數據庫更豐富、複雜的相關語義信息,且藴含了更豐富的知識。所以,雖説數據的挖掘最初是出現在關係數據挖掘以及事務的數據庫,不過因為空間數據庫中的發掘知識,這就很快引起了各個研究者的關注與重視。很多的數據挖掘類研究工作都是從關係型以及事務型數據庫拓展至空間數據庫的。在地學領域中,隨着衞星以及遙感技術的不斷使用,逐漸豐富的空間以及非空間的數據採集與儲存在較大空間數據庫中,大量的地理數據已經算是超過了人們的處理能力,並且傳統的地學分析很難在這些數據中萃取並發現地學知識,這也就給現階段的GIS帶來了很大的挑戰,急切的需要強化GIS相應的分析功能,提升GIS處理地學實際狀況的能力。數據挖掘以及知識發現的產生能滿足地球空間的數據處理要求,並推進了傳統地學空間分析的不斷髮展。依據地學空間數據挖掘技術的特性,把數據挖掘的方式融進GIS技術中,呈現地學空間數據挖掘技術和知識發展的新地學數據分析理念與依據。

3煤礦安全管理水平的提升

3.1建設評價指標體制庫

評價指標體制庫是礦井的自然災害危害存在的具體參數式的知識庫。模型的組建務必要根據礦井的瓦斯以及水害等自然災害危害呈現的不同指標體制和其臨界值構建一定的指標體制庫,危害的警報識別參數關鍵是採掘工程的平面圖動態開採面以及相應的巷道。各種瓦斯的危害以及水害隱患和通風隱患均呈現一定的評價指標庫。

3.2構建專業的分析模型庫

依據瓦斯以及水害等諸多不同的礦井自然災害類別構建相關的專業性模型庫,比如瓦斯的災害預測,應根據礦井的地質條件以及煤層所賦存的狀況構建瓦斯的地質區分圖,再根據採掘工程的平面圖動態呈現的採掘信息以及相應的瓦斯分區構建關聯並實行相應的比較分析,確定可以採集區域未來的可採區域是不是高瓦斯區域。

3.3構建以GIS空間分析為基礎的方法庫

GIS空間分析可以説是礦井自然災害的隱患高度識別的關鍵性方式,並且還是安全故障警報的主要路徑。比如斷層的防水層的有效劃分,關鍵是根據斷層的保安煤柱來實行可靠的確定。斷層的保安煤柱確定可以利用GIS緩衝區域的分析得到。空間的統計分析以及多源信息有效擬合和數據挖掘亦是瓦斯和水害等安全隱患監測經常使用GIS空間分析方式,如物探水文的異常區域確定以及瓦斯突出相應的危險區域確定。

3.4決策支持體制與煤礦管理水平評價指標

體制庫以及模型庫、方式庫與圖形庫均是礦井的自然災害隱患識別和決策的最基礎。利用礦井的自然災害隱患識別決策來支持體系具體的功能呈現礦井的自然災害隱患識別以及決策分析,在根源處提高煤礦的安全管理水平。分類構建礦井的自然災害實時監控體系,進行動態跟蹤相應的災害實時數據,並事實呈現礦井的自然災害數據或是信息和自然災害的指標體系庫以及模型庫與知識庫、空間數據庫的合理化比較,並運用圖形庫的數據再通過GIS空間分析方式來確定安全隱患的,礦井自然災害的隱患實時警報並進行決策分析,以提交空間數據的自然災害隱患識別以及分析處理的決策性報告。

4結語

隨着礦山持續的深化及開展,礦區的歷史以及實際數據量會日益增多,數據的處理會越來越困難。數字化礦山可以説是數字地球的主要構成,亦是呈現礦山可持續發展與礦業可持續發展的關鍵性決策,是呈現礦山、礦區信息化管理的重要基礎。

數據挖掘技術論文 篇三

數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量並進行存儲。但是,在大量的信息背後卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不採用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,並建立一種理論模型。數據挖掘技術是屬於例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介於上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以説,數據挖掘技術的特徵在出自於機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特徵是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異常現象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。

2、數據挖掘技術主要步驟

數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用户查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴於對手工方式進行數據測試並建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然後,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,並消除噪聲,此外還應對數據進行標準化的處理。隨後,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,並建立預測性的模型、數據的摘要等。隨後再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨後再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用迴歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用户來決定結論有用的程度。最後一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。

3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展

數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析並歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬於連續型的變量,那麼此類的推斷問題可屬迴歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的迴歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最後預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然後再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位並診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。

4、結語

目前,對數據挖掘技術在整個電力營銷系統中的應用還處於較低水平上,其挖掘算法的單一併不能有效地滿足實際決策需要。但是,由於數據挖掘技術對一些潛在的問題預測能力較強,特別是對電力營銷系統中較大規模的非線性問題,具有較強的處理能力,在未來的發展中會成為營銷領域中重要的應用工具。

數據挖掘技術論文 篇四

1.較高的有效性新興起來的數據挖掘技術的應用時間並不是很長,但是其在經濟統計領域的應用受到了良好的效果,其穩定的工作性能,不僅能夠對經濟統計數據進行分析整理,更能深層次地開發出更多的有用信息,在實際的應用中展現出較高的有效性。

2.綜合應用性強數據挖掘技術已經被廣泛地應用在統計工作中的多個領域,並且發揮着重要的作用。數據挖掘技術不僅是一種綜合應用性強的技術手段,同時又能滿足統計數據使用者的特定數據需要。因此,數據挖掘技術能夠對經濟統計數據進行定向的整理和開發,為數據使用者提供更好的服務。

3.宏觀型的數據庫有利於數據挖掘技術的應用當前,我國的經濟統計大多還是採用傳統的經濟統計方法,統計收集的數據信息不能形成有機整體,在對數據進行管理過程中,出現了很多問題。因此。經濟統計工作需要能夠提供數據整理開發的新技術。宏觀經濟統計數據庫,為數據挖掘技術的開展提供了平台。數據管理系統的經濟統計信息要正確無誤,然後經過數據挖掘技術的整合,就能得到更豐富的數據資源。

二、數據挖掘技術的運用

數據挖掘技術的特性決定了其對經濟統計數據整理的重要性,經濟統計所得到的數據信息要求必須有實用性和真實性,數據挖掘技術的特性正好滿足了經濟統計工作的需要。數據挖掘的過程主要包括以下四種方法:

1.預處理方法首先,要對統計數據進行預處理。由於經濟統計信息在收集過程中存在一些問題,導致收集到的數據存在缺失和模糊現象,這種有缺憾的數據信息不能作為數據挖掘的基礎,因此一定要對數據挖掘對象進行事先的處理。其中包括對基礎數據中不正確、不真實、不準確和偏差較大的數據進行甄別。

2.集成化處理方法其次,要對統計數據進行集成化處理。經濟統計過程中,會出現對多個數據源進行重疊統計的現象,這就要求對數據進行挖掘之前,要有一個統一整理的過程,即數據的集成化處理。數據集成在統計中被廣泛的使用。經過數據集成處理的統計信息更加全面,更加真實,可以作為數據挖掘基礎信息。

3.轉換方法再有,要對統計數據根據需要進行轉換。經濟統計數據的描述形式比較單一,為了滿足數據信息使用者的需要,就要對數據進行轉換,使其的表現形式具有泛化或是更加規範。這裏所説的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層數據。

4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經濟數據進行分類,把有利用價值的統計數據提煉出來,這種數據挖掘形式能夠對分析對象進行體現,並能快速的對信息進行分類處理,能夠解決在經濟統計過程中出現的各種問題。

三、結語

經濟統計工作對我國經濟發展的重要作用越來越明顯,隨着數據挖掘技術在統計系統中的應用,對統計數據的分析也逐步的走向高質量和高標準化。因此,加強數據挖掘技術的應用,可以促進統計工作的提高,可以有效的減少統計資金的支出。通過數據挖掘技術得到的數據信息,其真實可靠的特性,有利於政府制定出符合社會發展的戰略目標,有利於工業企業等確立正確的經濟發展目標。數據挖掘技術所帶來的經濟效益和社會效益是巨大的。

數據挖掘論文 篇五

數據挖掘技術是近些年發展起來的一門新興學科,它涉及到數據庫和人工智能等多個領域。隨着計算機技術的普及數據庫產生大量數據,能夠從這些大量數據中抽取出有價值信息的技術稱之為數據挖掘技術。數據挖掘方法有統計學方法、關聯規則挖掘、決策樹方法、聚類方法等八種方法,關聯規則是其中最常用的研究方法。關聯規則算法是1993年由,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數據中挖掘出有價值的能夠揭示實體和數據項間某些隱藏的聯繫的有關知識,其中描述關聯規則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯規則才是有效的、需要進一步進行分析和應用的規則。

二、使用Weka進行關聯挖掘

Weka的全名是懷卡託智能分析環境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業化的、基於JAVA環境下開源的機器學習以及數據挖掘軟件[2]。它包含了許多數據挖掘的算法,是目前最完備的數據挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數據環境的,Experimenter是對各種實驗計劃進行數據測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創建實驗方案,Simple-CLI為簡單的命令行界面。以下數據挖掘任務主要用Ex-plorer模塊來進行。

(一)數據預處理

數據挖掘所需要的所有數據可以由系統排序模塊生成並進行下載。這裏我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利於數據挖掘計算,在這裏我們將以上得分分別確定分類屬性值。

(二)數據載入

點擊Explorer進入後有四種載入數據的方式,這裏採用第一種Openfile形式。由於Weka所支持的標準數據格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件並重新保存為arff文件格式來實現數據的載入。由於所載入的數據噪聲比較多,這裏應根據數據挖掘任務對數據表中與本次數據任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。

(三)關聯挖掘與結果分析

WeakExplorer界面中提供了數據挖掘多種算法,在這裏我們選擇“Associate”標籤下的Apriori算法。之後將“lowerBoundMinSupprot”(最小支持度)參數值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數值設為1,在“metiricType”的參數值選項中選擇lift選項,將“minMetric”參數值設為1.1,將“numRules”(數據集數)參數值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間並且lift值超過1.1且排名前10名的關聯規則。其挖掘參數信息和關聯挖掘的部分結果。

三、挖掘結果與應用

以上是針對教師基本情況和科研各項總分進行的反覆的數據挖掘工作,從挖掘結果中找到最佳模式進行彙總。以下列出了幾項作為參考的關聯數據挖掘結果。

1、科研立項得分與論文、科研總得分關聯度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是部級的立項的同時也參與了其他教師的科研立項,在課題研究的過程中一定會有部級論文或者省級論文進行發表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今後的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。

2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經驗,並且很多副教授類的教師還想晉職稱,所以大多數副教授類教師都會申請一些課題。而對於講師類和助教類的教師,由於教學經驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數不高。針對這樣的結果,在今後的科研工作中,科研處可以採用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。

數據挖掘論文 篇六

1.1數據挖掘相關技術數據挖掘相關技術介紹如下[6]:(1)決策樹:在表示決策集合或分類時採用樹形結構,在這一過程中發現規律併產生規則,找到數據庫中有着最大信息量的字段,從而可建立起決策樹的人工智能及識別技術。(2)聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。(3)關聯分析:關聯分析又稱關聯挖掘,就是在交易數據、關係數據或其他信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、因果、關聯或相關性結構。也可以説,關聯分析是用來發現有關交易的數據庫中不同商品(項)之間的聯繫。(4)神經網絡方法:顧名思義,類似於生物的神經結構,由大量簡單的神經元,通過非常豐富和完善的連接組成自適應的非線性動態系統,具有自適應、自組織、自學習、聯想記憶、分佈存儲、大規模並行處理等功能。粗集方法:也就是在數據庫裏把行為對象列視為元素,將不同對象在某個(或多個)屬性上取值相同定義為等價關係R。其等價類為滿足R的對象組成的集合[5]。

1.2IBMSPSSModelerIBMSPSSModeler是一個數據挖掘工作台,用於幫助用户快速直觀地構建預測模型,而無需進行編程。其精密的數據挖掘技術使用户能夠對結果進行建模,瞭解哪些因素會對結果產生影響。它還能可提供數據挖掘相關的數據提取、轉換、分析建模、評估、部署等全過程的功能[3]。通常,SPSSModeler將數據以一條條記錄的形式讀入,然後通過對數據進行一系列操作,最後將其發送至某個地方(可以是模型,或某種格式的數據輸出)[3]。使用SPSSModeler處理數據的三個步驟:(1)將數據讀入SPSSModeler;(2)通過一系列操縱運行數據;(3)將數據發送到目標位置。

2客户流失預測分析

2.1數據預處理數據預處理[6],將需要的客户投保數據按照業務預測分析的要求,將數據抽取到中間數據中,同時對數據清洗和轉換,滿足業務預測分析要求。每日凌晨調用存儲過程將核心業務系統數據提取到中間數據庫,壽險業務數據與其他數據一樣,存在不安全和不一致時,數據清洗與轉換可以幫助提升數據質量,進而提升數據挖掘進程的有效性和準確性。數據清洗主要包括:遺漏數據清洗,錯誤數據處理,垃圾數據處理[1]。

2.2數據選取數據預處理後,可以從中得到投保人的投保信息,包括投保人姓名,投保年齡(有效保單為當前年齡,無效保單為退保年齡),保費,投保年期,保單狀態等。數據如圖1所示。

2.3客户流失預測模型建立壽險業務按渠道來分可分為個人保險、團體保險、銀行保險、網銷保險、經代保險五類。由於團體保險在壽險公司發展比較緩慢,團險業務基本屬於停滯階段。結合壽險公司的營銷特點,選定個人保單作為分析的對象,通過IBMSPSSModeler預測模型工具[3],使用決策樹預測模型對客户流失進行預測分析。

2.4結果分析通過使用IBMSPSSModeler決策類預測模型分析某壽險公司2013年個人客户承保情況來看有以下規則:(1)投保年數在1年以內,首期保費在0~2000元或大於9997.130保費的客户比較容易流失。(2)保單終止保單中,女性客户較男性客户容易流失。(3)投保年數在2年以上,湖北及河北分支機構客户流失率比較容易流失。(4)分紅壽險相對傳統壽險,健康壽險的客户比較容易流失[1]。

3總結

本文在IBMSPSSModeler軟件應用的基礎上,根據現有的壽險業務數據信息,利用數據挖掘的決策樹預測模型,對壽險進行流失規則的分析,比較全面的瞭解了壽險公司客户流失的原因,並建立客户流失的決策樹預測模型,便於公司客户服務部對現有客户採取合適的措施防止客户流失,從而達到保留現有客户的目的。

數據挖掘論文 篇七

1.1GPUGPU之所以在某些應用中較CPU能夠獲得更高的性能,主要是因為GPU和CPU在硬件結構設計上存在很大差異。如圖1所示[10],GPU將大量的晶體管用作ALU計算單元,從而適應密集且可並行的圖像渲染計算處理需要。相對GPU而言,CPU卻是將更多的晶體管用作複雜的控制單元和緩存等非計算功能,並以此來提高少量執行單元的執行效率。此外,存儲帶寬是另一個重要問題。存儲器到處理器的帶寬已經成為許多應用程序的瓶頸。目前GPU的芯片帶寬是CPU芯片帶寬的6倍左右。

1.2CPU/GPU協同並行計算在諸多適用於高性能計算的體系結構中,採用通用多核CPU與定製加速協處理器相結合的異構體系結構成為構造千萬億次計算機系統的一種可行途徑。而在眾多異構混合平台中,基於CPU/GPU異構協同的計算平台具有很大的發展潛力。在協同並行計算時,CPU和GPU應各取所長,即CPU承擔程序控制,而密集計算交由GPU完成。另外,除管理和調度GPU計算任務外,CPU也應當承擔一部分科學計算任務[12]。新型異構混合體繫結構對大規模並行算法研究提出了新的挑戰,迫切需要深入研究與該體系結構相適應的並行算法。事實上,目前基於GPU加速的數據挖掘算法實現都有CPU參與協同計算,只是討論的重點多集中在為適應GPU而進行的並行化設計上。實踐中,需要找出密集計算部分並將其遷移到GPU中執行,剩餘部分仍然由CPU來完成。

1.3CUDA為了加速GPU通用計算的發展,NVIDIA公司在2007年推出統一計算設備架構(ComputeUnifiedDeviceArchitecture,CUDA)[10,13]。CUDA編程模型將CPU作為主機,GPU作為協處理器,兩者協同工作,各司其職。CPU負責進行邏輯性強的事務處理和串行計算,GPU則專注於執行高度線程化的並行處理任務。CUDA採用單指令多線程(SIMT)執行模式,而內核函數(kernel)執行GPU上的並行計算任務,是整個程序中一個可以被並行執行的步驟。CUDA計算流程通常包含CPU到GPU數據傳遞、內核函數執行、GPU到CPU數據傳遞三個步驟。CUDA不需要藉助於圖形學API,並採用了比較容易掌握的類C/C++語言進行開發,為開發人員有效利用GPU的強大性能提供了條件。CUDA被廣泛應用於石油勘探、天文計算、流體力學模擬、分子動力學仿真、生物計算和圖像處理等領域,在很多應用中獲得了幾倍、幾十倍,乃至上百倍的加速比[13]。

1.4並行編程語言和模型過去幾十年裏,人們相繼提出了很多並行編程語言和模型,其中使用最廣泛的是為可擴展的集羣計算設計的消息傳遞接口(MessagePassingInterface,MPI)和為共享存儲器的多處理器系統設計的OpenMP[14]。OpenMP最初是為CPU執行而設計的。OpenACC[15]是計算機廠商為異構計算系統提出的一種新編程模型,其主要優勢是為抽象掉許多並行編程細節提供了編譯自動化和運行時系統支持。這使得應用程序在不同廠商的計算機和同一廠商不同時代的產品中保持兼容性。然而,學習OpenACC需要理解所有相關的並行編程細節。在MPI編程模型中,集羣中的計算節點之間相互不共享存儲器;節點之間的數據共享與交互都通過顯式傳遞消息的方式實現。MPI成功應用於高性能科學計算(HPC)領域。現在很多HPC集羣採用的是異構的CPU/GPU節點。在集羣層次上,開發人員使用MPI進行編程,但在節點層次上,CUDA是非常高效的編程接口。由於計算節點之間缺乏共享存儲器機制,要把應用程序移植到MPI中需要做大量針對性分析和分解工作。包括蘋果公司在內的幾大公司在2009年共同開發了一套標準編程接口,稱之為OpenCL[16]。與CUDA類似,OpenCL編程模型定義了語言擴展和運行時API,使程序員可以在大規模並行處理中進行並行管理和數據傳遞。與CUDA相比,OpenCL更多地依賴API,而不是語言的擴展,這允許廠商快速調整現有編譯器和工具來處理OpenCL程序。OpenCL和CUDA在關鍵概念和特性上有諸多相似之處,因此CUDA程序員可以很快掌握OpenCL。

1.5MATLAB因提供豐富的庫函數庫以及諸多其他研究者貢獻和共享的函數庫,MATLAB是研究人員實現算法的常用平台。通過封裝的數據容器(GPUArrays)和函數,MATLAB允許沒有底層CUDA編程能力的研究人員可以較容易獲得GPU計算能力,因此MATLAB較OpenCL更容易上手。截止準備本文時,2014版本的MATLAB提供了226個內置的GPU版本的庫函數。對於有CUDA編程經驗的人員,MATLAB允許直接集成CUDA內核進MATLAB應用。本文第四節的實驗亦基於MATLAB實現。

1.6JACKET引擎JACKET[17]是一個由AccelerEyes公司開發專門用於以MATLAB為基礎的基於GPU的計算引擎,其最新版本已經包含了高層的接口,完全屏蔽了底層硬件的複雜性,並支持所有支持CUDA的GPU計算,降低了進行CUDA開發的門檻。JACKET是MATLAB代碼在GPU上運行的插件。JACKET允許標準的MATLAB代碼能夠在任何支持CUDA的GPU上運行,這使得廣大的MATLAB及C/C++用户可以直接使用GPU強大的計算能力進行相關應用領域的快速原型開發。JACKET包含了一套運行於MATLAB環境中優化並行計算的基礎函數庫。並且支持MATLAB數據類型,可將任何存儲於MATLABCPU內存中的變量數據轉換為GPU上的數據類型,對以往的MATLAB程序來説,只需更改數據類型,就能遷移到GPU上運行。本文的第四節的實驗亦基於JACKET在MATLAB上實現。

2相關工作綜述

2.1基於CPU的數據挖掘算法實現數據挖掘算法的研究一直很活躍,許多成熟和經典的算法已經實現在諸多研究或商用軟件包/平台,例如開源的Weka[18]和KNIME,以及商用的IBM公司的PASWModeler(即之前SPSS公司的Clementine®)。這些軟件默認都是單機版本,可運行在普通PC或高性能服務器上,基於CPU的計算能力。為了適應目前大規模的計算,出現了基於Google公司提出的MapReduce[19]計算框架實現的開源數據挖掘平台Mahout[20]。相關的研究起源於斯坦福大學AndrewNg研究組2006年的經典論著[21]。由於現有的算法需要先找到可“遷移”到MapReduce的方式,因此目前Mahout平台上僅有幾個能支持分佈式部署的數據挖掘算法,包括用於分類的樸素貝葉斯、隨機森林,用於聚類的k-Means,基於項目的協同過濾等。目前Mahout仍然是基於CPU的計算能力。

2.2聚類算法聚類是數據挖掘中用來發現數據分佈和隱含模式的一種無監督學習,每個訓練元組的類標號是未知的,並且要學習的個數或集合也可能事先不知道。對於給定的數據集,聚類算法按照一定的度量,將數據對象分組為多個簇,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別很大[22-23]。k-Means算法是經典的基於距離/劃分的聚類分析算法,也是應用得最廣泛的算法之一,採用距離作為相似性的評價指標,即認為兩個對象距離越近,其相似度就越大。k-Means算法的流程如下[24]:輸入:簇的數目k和包含n個對象數據集D。輸出:k個簇的集合。方法:1)從D中任意選擇k個對象作為初始簇中心。計算每個數據對象到各簇中心的歐氏距離,將每個數據對象分配到最相似的簇中。2)重新計算每個簇中對象的均值。3)循環執行步驟2-3兩個步驟,直到各個簇內對象不再變化。上述算法步驟2屬於計算密度最大的部分,且具備並行化的條件。計算各個數據對象到各簇中心的歐氏距離和將數據對象分配到最近的簇的時候,數據對象之間都是相互獨立的,不需要進行交換,且沒有先後順序,後計算的對象不需要等待前一次計算的結果,僅在完成全部分配過程之後,才需要進行一次數據彙總。所以文獻[25]的作者們使用GPU並行優化了一維數據的k-Means算法的步驟2,並使用帶緩存機制的常數存儲器保存中心點數據,能獲得更好的讀取效率。文獻中還展示了實驗結果,在8600GT上取得了14倍左右的加速效果。DBSCAN屬於基於密度的聚類算法中最常被引用的,G-DBSCAN是它的一個GPU加速版本[26]。文獻[26]的實驗顯示較DBSCAN可以實現高達112倍的加速。BIRCH是經典的基於層次的聚類算法,文獻[27]中基於CUDA實現的GPU加速版本在實驗中獲得了高達154倍的加速。

2.3分類算法分類是數據挖掘中應用領域極其廣泛的重要技術之一,至今已經提出很多算法。分類算法[28]是一種監督學習,通過對已知類別訓練集的分析,從中發現分類規則,以此預測新數據的類別。分類算法是將一個未知樣本分到幾個已存在類的過程,主要包含兩個步驟:首先,根據類標號已知的訓練數據集,訓練並構建一個模型,用於描述預定的數據類集或概念集;其次,使用所獲得的模型對新的數據進行分類。近年來,許多研究已經轉向實現基於GPU加速分類算法,包括k-NN(k近鄰)分類算法[29],支持向量機分類算法[30],貝葉斯分類算法[31-32]等。kNN算法[33]是數據挖掘中應用最廣泛的一種分類算法,簡單易實現。它是一種典型的基於實例的學習法,將待判定的檢驗元組與所有的訓練元組進行比較,挑選與其最相似的k個訓練數據,基於相應的標籤和一定的選舉規則來決定其標籤。在ShenshenLiang等人的文章[34]指出,由於kNN算法是一種惰性學習法,對於每個待分類的樣本,它都需要計算其與訓練樣本庫中所有樣本的距離,然後通過排序,才能得到與待分類樣本最相鄰的k個鄰居。那麼當遇到大規模數據並且是高維樣本時,kNN算法的時間複雜度和空間複雜度將會很高,造成執行效率低下,無法勝任大數據分析任務。所以加速距離的計算是提高kNN算法的核心問題。因為每個待分類的樣本都可以獨立地進行kNN分類,前後之間沒有計算順序上的相關性,因此可以採用GPU並行運算方法解決kNN算法串行復雜度高的問題。將計算測試集和訓練集中點與點之間的距離和排序一步採用GPU並行化完成,其餘如判斷類標號一步難以在GPU上高效實現,由CPU完成。文獻[34]通過GPU並行化實現kNN算法,讓kNN算法時間複雜度大幅度減少,從而説明GPU對kNN算法的加速效果是非常明顯的。

2.4關聯分析算法關聯規則挖掘是數據挖掘中較成熟和重要的研究方法,旨在挖掘事務數據庫頻繁出現的項集。因此,挖掘關聯規則的問題可以歸結為挖掘頻繁項集[35]。關聯分析算法首先找出所有的頻繁項集,然後根據最小支持度和最小置信度從頻繁項集中產生強關聯規則。Apriori算法[36]是最有影響力的挖掘布爾關聯規則頻繁項目集的經典算法。Apriori算法使用逐層搜索的迭代方法產生頻繁項目集,即利用k頻繁項集來產生(k+1)項集,是一種基於生成候選項集的關聯規則挖掘方法。在劉瑩等人的文章[37]中指出,產生候選項和計算支持度,佔據Apriori的大部分計算量。產生候選項的任務是連接兩個頻繁項集,而這個任務在不同線程之間是獨立的,所以這個過程適合在GPU上被並行化。通過掃描交易數據庫,計算支持度程序記錄一個候選項集出現的次數。由於每個候選項集的計數與其他項集的計數相對獨立,同樣適合於多線程並行。所以文獻[37]的作者們在實現Apriori時使用GPU並行化了產生候選項和計算支持度這兩個過程,取得了顯著的加速效果。文獻[38]是目前發現的對於在GPU上實現頻繁項集挖掘最全面細緻的研究。他們使用的是早期的CUDA平台,採用了bitmap和trie兩種數據結構來實現GPU的挖掘算法,並且根據不同數據集和支持度進行了算法性能的對比,均相對於CPU版本的算法獲得的一定的加速比。

2.5時序分析由於越來越多的數據都與時間有着密切的關係,時序數據作為數據挖掘研究的重要分支之一,越來越受到人們的重視。其研究的目的主要包括以下兩個方面:一是學習待觀察過程過去的行為特徵;二是預測未來該過程的可能狀態或表現。時序數據挖掘主要包含以下幾個主要任務:數據預處理,時序數據表示,分割,相似度度量,分類,聚類等。這些任務中很多都涉及到相當大的計算量。由於問題規模的不斷擴大,並且對於實時性能的要求,時序數據挖掘的任務就必須要求充分地提高計算速度或者通過優化減少計算量。時序數據的表示有時候會採取特徵來表示,這就涉及到了特徵提取問題,當特徵數量龐大的時候就需要進行維數約簡,主要的方法有奇異值分解法,離散小波變換。這些計算都涉及到很大的時間複雜度,為了減少計算的時間消耗,SheetalLahabar等人使用GPU加速SVD的計算,獲得了60多倍的加速效果[39]。動態時間彎曲(DynamicTimeWarping,DTW)起初被應用於文本數據匹配和視覺模式識別的研究領域,是一種相似性度量算法。研究表明這種基於非線性彎曲技術的算法可以獲得很高的識別、匹配精度。Berndt和Clifford提出了將DTW的概念引入小型時間序列分析領域,在初步的實驗中取得了較好的結果[40]。隨着問題規模的擴大,對於DTW的計算成為了時序數據挖掘的首先要處理的問題。在DTW中,搜索需要找出與訓練數據最近距離的樣本,這就需要搜索與每個訓練樣本的距離,這就可以很好的利用GPU進行並行化處理。DorukSart等人在對DTW加速的處理中,獲得了兩個數量級的加速效果[41]。而對於分類和聚類任務的加速,上面已經提到,這裏不再累贅。

2.6深度學習深度學習雖然隸屬機器學習,但鑑於機器學習和數據挖掘領域的緊密聯繫,深度學習必定將在數據挖掘領域獲得越來越多的應用。從2006年Hinton和他的學生Salakhutdinov在《科學》上發表的文章[42]開始,深度學習在學術界持續升温。深度學習的實質是通過構建具有很多隱層的機器學習模型和海量的訓練數據,來學習更有用的特徵,從而最終提升分類預測的準確性[43]。如何在工程上利用大規模的並行計算平台來實現海量數據訓練,是各個機構從事深度學習技術研發首先要解決的問題。傳統的大數據平台如Hadoop,由於數據處理延遲太高而不適合需要頻繁迭代的深度學習。神經網絡一般基於大量相似的神經元,故本質上可以高度並行化訓練;通過映射到GPU,可以實現比單純依賴CPU顯著地提升。谷歌搭建的DistBelief是一個採用普通服務器的深度學習並行計算平台,採用異步算法,由很多計算單元獨立更新同一個參數服務器的模型參數,實現了隨機梯度下降算法的並行化,加快了模型訓練速度。百度的多GPU並行計算平台克服了傳統SGD訓練不能並行的技術難題,神經網絡的訓練已經可以在海量語料上並行展開。NVIDIA在2014年9月推出了深度學習GPU加速庫cuDNN,可以方便地嵌入高層級機器學習框架中使用,例如Caffe[45]。cuDNN支持NVIDIA的全系列GPU,包括低端的TegraK1和高端的TeslaK40,並承諾可向上支持未來的GPU。

2.7小結並行化能帶來多少倍的加速取決於算法中可並行化的部分。例如,如果可並行部分的時間佔整個應用程序執行時間的20%,那麼即使將並行部分加速100倍,總執行時間也只能減少19.8%,整個應用程序的加速只有1.247倍;即使無限加速也只能減少約20%的執行時間,總加速不會超過1.25倍。對於一個數據挖掘(學習和預測)算法進行GPU加速實現,首先要思考是否存在可並行執行的部分,之後再結合GPU的架構特點進行鍼對性實現優化。然而,由於數據挖掘算法普遍是數據密集型計算,而GPU片內存儲容量有限,如何降低與內存交換數據集是一個要解決的關鍵問題。通過以上相關工作的分析,可以發現數據挖掘算法在GPU上的加速具有數據獨立,可並行化共同特徵。本文提出數據挖掘算法在GPU上加速實現的一種解決思路:在大數據下,分析算法的性能瓶頸,從而確定算法中耗時大,時間複雜度高的部分,將此部分在GPU上執行,不耗時部分在CPU上串行執行,以達到加速效果。為了更充分利用GPU的並行計算的體系結構,可深入分析耗時大的部分,將具有數據獨立,可並行化的部分在GPU上並行執行,達到更進一步的加速效果。

3實踐和分析:協同過濾推薦

當前主要的協同過濾推薦算法有兩類:基於用户(r-based)和基於項目(item-based)的協同過濾推薦算法。基於項目的協同過濾推薦算法[46-50]認為,項目間的評分具有相似性,可以通過用户對目標項目的若干相似項目的評分來估計該項目的分值。基於用户的協同過濾推薦算法認為,如果用户對一些項目的評分比較相似,那麼他們對其他項目的評分也比較相似。本文根據以上總結的算法特徵圍繞兩種經典協同過濾算法的實現,通過大規模數據的實驗來驗證GPU相對於傳統CPU的優勢。

3.1算法實現

3.1.1基於CPU實現協同過濾推薦的兩類經典算法本文基於MATLAB實現CPU版本的基於用户和基於項目的兩種經典協同過濾推薦算法。實現的步驟:1)數據表示:收集用户的評分數據,並進行數據清理、轉換,最終形成一個mn的用户-項目評分矩陣R,m和n分別代表矩陣中的用户數和項目數,矩陣中的元素代表用户對項目的評分值。2)最近鄰居搜索:主要完成對目標用户/項目的最近鄰居的查找。通過計算目標用户/項目與其他用户/項目之間的相似度,算出與目標用户/項目最相似的最近鄰居集。該過程分兩步完成:首先採用協同過濾推薦算法中運用較多的度量方法“Pearson相關係數”計算用户/項目之間的相似度得到相應的相似度矩陣,其次是採用最近鄰方法找到目標用户/項目的最近的K個鄰居,這些鄰居是由與目標相似度最高的一些用户/項目組成的。3)產生推薦:根據之前計算好的用户/項目之間的相似度,並使用相應的預測評分函數對用户未打分的項目進行預測,得到預測評分矩陣,然後選擇預測評分最高的Top-n項推薦給目標用户。4)性能評估:本研究擬採用平均絕對誤差MAE作為評價推薦系統預測質量的評價標準。MAE可以直觀地對預測質量進行度量,是最常用的一種方法。MAE通過計算預測的用户評分與實際評分之間的偏差度量預測的準確性;MAE越小,預測質量越高。

3.1.2基於GPU實現協同過濾推薦的兩類經典算法在大數據下,協同過濾算法中主要的時間消耗在於相似度計算模塊,佔了整個算法的大部分時間,且每個用户/項目之間的相似度可以被獨立計算,不依靠其他用户/項目,具備並行化的條件,所以在以下的實驗中,將相似度計算模塊在GPU上執行,其他部分在CPU上執行,進而提高整個算法的執行效率。使用MATLAB編程技術和JACKET編程技術在GPU上分別實現基於用户和基於項目的兩種經典協同過濾推薦算法。實現步驟如下:1)數據表示:收集用户的評分數據,並進行數據清理、轉換,最終形成用户-項目評分矩陣。2)將收集的數據從CPU傳輸至GPU。3)對傳輸到GPU上的數據執行GPU操作,調用相關函數庫,採用公式(1)和(2)分別計算並獲取用户/項目間的相似度矩陣。4)將GPU計算結果返回CPU中以便後續操作。5)採用公式(3)和(4)在CPU上分別獲取兩種經典算法的評分預測矩陣。6)選擇預測評分最高的Top-n項推薦給目標用户。7)採用公式(5)求兩種經典算法的平均絕對誤差MAE。

3.2實驗結果與分析

3.2.1實驗環境本實驗所用的CPU是IntelXeonE52687W,核心數量是八核,主頻率是3.1GHz,內存大小是32GB;所使用的GPU是NVIDIAQuadroK4000,顯存容量是3GB,顯存帶寬是134GB/s核心頻率是811MHz,流處理器數是768個。使用Windows764位操作系統,編程環境使用最新的CUDA。

3.2.2實驗數據本實驗使用目前比較常用的MovieLens[56]數據集作為測試數據,該數據集從MovieLens網站採集而來,由美國Minnesota大學的GroupLens研究小組提供,數據集1包含943個用户對1682部電影約10萬的評分數據,數據集2包含6040個用户對3952部電影約100萬的評分數據,其中每個用户至少對20部電影進行了評分。評分的範圍是1~5,1表示“很差”,5表示“很好”。實驗需要將每個數據集劃分為一個訓練集和一個測試集,每次隨機選出其中80%的評分數據用作訓練集,另20%用作測試集。

3.2.3實驗結果與分析本文采用加速比來比較算法的CPU實現和GPU實現的運行效率。計算加速比的方法如式(6)所示:在公式中,TimeCPU表示算法在CPU上的平均運行時間,TimeGPU表示算法在GPU上的平均運行時間。所有實驗中均取最近鄰居數為20,且各實驗結果均為5次獨立測試的平均值。圖2是關於兩個算法核心步驟的加速效果,而圖3則展示了算法整體加速效果。可以看出,(1)整體加速效果取決於核心步驟的加速效果,(2)GPU版本的算法在性能上較CPU版本有較顯著地優勢,且面對大數據集的加速效果更為明顯。例如在基於100萬條數據集時,Item-based的整體算法的加速比達到了14倍左右,而面對10萬條數據集時,加速比不到8倍。這可以解釋為GPU的多核優勢在面對大數據集時被更為充分地得到釋放;(3)算法對r-based和Item-based兩種算法的加速比相近。圖4是關於算法預測效果的評估,可以看出基於GPU加速的兩類經典協同過濾算法與基於CPU的兩類經典協同過濾算法在預測效果上相近。如果結合圖2和圖3,可獲得結論-能夠基於GPU獲得得可觀的計算加速而不犧牲應用效果。

3.3小結

本文通過使用JACKET加快開發過程。目前國內還缺少對JACKET的瞭解和應用,JACKET的出現為科學領域進行大規模計算仿真提供了新的研究方法,並使得研究人員可以在熟悉的MATLAB平台上實現相關算法。

4結束語

本文既對基於GPU加速經典數據挖掘的研究進行了分類回顧和小結,也實踐了基於GPU加速協同過濾計算,通過和基於CPU的版本對比,確實可以實現可觀的效率提升。這對我們深入研究將GPU應用到大數據處理場景可以積累寶貴的一手經驗,並在已知的尚未基於GPU加速的數據挖掘算法有的放矢。

數據挖掘論文 篇八

對於風電功率的預估,本文提出了一種短期的用於一至十五分鐘內的預測方法。其中輸入數據來自風力發電機的歷史寄存器,數據種類有電壓、電流、有功功率等。並且對兩種預測方法進行了比較。預測出的風力數據作為風力渦輪機預測模型的輸入值。風力發電機模型是參考了空氣力學、傳動系統、感應發電機等參數,並通過唯像模型建立的。風力渦輪模型則建立於一種現象學模型,這種模型將風的空氣動力學、傳動系統和感應發電機的參數都考慮了進來。另一種預測風電功率方法是使用數據挖掘技術來進行預測。風電發電系統中的數據庫就應用到了這些技術。為了提高算法的效率,使用了風速估計器,以估計空氣分子的布朗運動。並與沒有用風速估計器時平均發電功率進行比較。

二、風功率預測模型和現象學模型

(一)人工神經網絡

每一個人工神經網絡模型都有架構、處理單元和訓練方面的特性。在時間序列預測的人工神經網絡模型中,其中很重要的一種是集中延時神經網絡。它屬於動態神經網絡的一般類型,在這種神經網絡中,動態只出現於靜態的、有多個層級的前饋神經網絡的輸入層中。集中延時神經網絡的一個顯著特徵是它不要求有動態反向傳播來計算神經網絡的梯度,原因是抽頭延遲線只在神經網絡輸入數據時才出現。由於這個原因,這種神經網絡比其他動態網絡的訓練進行得更快。

(二)隨機時序

風功率模型和現象模型是使用最多的預測方法。如果假設預測變量Xt是已知值的線性組合,那麼自迴歸模型則能用於預測未知值。通過查看自相關函數和偏自相關函數,用於找到模型的順序和結構,從而確定模型適當的結構和式子順序。根據赤池信息準則,施瓦茨準則或貝葉斯信息標準以及校正後的決定係數,我們就能選出最好的模型。

三、算例分析

(一)提出的預處理方法

在考慮風速的複雜動態的情況下,為了更好地描述ARMA模型,本文提出了一種新的數據預處理方法。這種方法是以模型的形式呈現的,我們將這種模型稱之為函數的ARMA。

(二)實例仿真

利用SVM工具箱在matlab7.1平台上完成迴歸模型建立的工作,利用我國某風電場連續100個數據(每10s取一個數值)的實測風能功率輸出值,建立訓練和預測樣本。儘管神經網絡在預測風速時誤差已經很小,但由風力渦輪機模型和函數的ARMA模型組成的複合模型在各方面性能更好。導致這一結果的原因是焦點延時神經網絡(以下簡稱FTDNN)預測曲線的高度非線性。

四、結論

本文所得預測結果表明,當把風速預測數據當作風力渦輪模型的輸入數據時,函數的ARMA模型和焦點延時神經網絡在預測風速時產生的誤差會平均降低74%。同樣地,本文提出的函數的ARMA模型(即FARMA模型)與典型的ARMA模型相比,能降低誤差30%~40%。在所有模型中,焦點延時神經網絡(FTDNN)預測得最好。但當把現象學風力渦輪機模型和函數的AR-MA模型組成複合模型時,最終預測結果還能更好。

數據挖掘論文 篇九

系統採用C/S+B/S結構,主要由前端數據採集設備(位移及載荷傳感器)、站點客户端、數據庫及Web服務器等組成。各部分採取分佈式協同處理運行方式,站點客户端利用前端採集的數據獨立分析計算,分析完成後上傳至數據庫服務器,並通過網頁服務器對外。

2系統數據

2.1系統數據結構系統採用MicrosoftSQLServer,創建了WPGUI與WPCHQ數據庫來管理3萬餘口油井數據採集、處理及存儲等,建設數據表65張(見主要數據表的關係圖2),主要包括生產井的完井數據、靜態數據、動態數據、採集數據、原油物性數據、機杆管泵等技術數據,同時系統保存了油井近兩年功圖電參數據(每天每口井到少100張),以及根據這些數據分析計算出來的結果和彙總生成的數據。

3數據挖掘應用

數據挖掘是從大量數據集中發現可行信息的過程,是統計分析技術、數據庫技術及人工智能技術的綜合。面對油井工況實時分析及功圖計產系統大量的油井生產完備數據,長慶油田充分利用數據挖掘技術,對數據進一步清理、集成、轉換、挖掘應用,深化功圖系統數據分析,先後開展了動液麪計算,系統效率在線實時監測、區塊動態分析研究等,並應用於油田現場,取得了較好的效果,既節約了生產成本,又方便了現場管理應用,進一步提升系統在長慶油田數字化前端的核心地位。

3.1區塊動態分析

油井生產中,每天都會獲得大量的實時生產數據,目前系統主要對單井完成工況分析及產液量計算,如何通過分析和處理這些數據,及時全面瞭解油田區塊產油量、壓力、含水等變化規律是數據挖掘應用又一問題。長慶油田開展了基於油井工況診斷及功圖計產系統的區塊動態分析,從空間和歷史角度,對油井分類、分級、分層次進行統計分析,挖掘生產數據裏有用的信息,提煉區塊共性問題,並按照設計的模板(區塊指標統計圖表、供液能力分析、產量分析、故障井分析等)每月30日自動生成全面及時的區塊油井生產動態分析,從而指導區塊生產管理,實現油田的精細管理,為油田開發決策提供依據。

4結束語

隨着長慶油田數字化建設的不斷深入,各種生產、研究、管理等數據庫不斷增加,如何深化數據應用,準確迅速從數據庫是提取有用信息,已成為是數字油田生產管理的迫切需求。在基於油井工況實時分析及功圖計產系統數據挖掘應用中我們積累了不少經驗,拓展了系統功能,提升系統在長慶油田數字化前端的核心地位。在今後應用中,油田數據挖掘應用注意幾個問題:

(1)數據是數字油田的血液,為了保證數據挖掘效率,在數據庫建設中要規範數據存儲格式,保證數據源及數據類型的統一,同時加強數據審核,注重數據入庫的質量;

(2)數據挖掘中儘可能使用可視化工具,一幅圖勝過千句話,數據挖掘可視化主要包括數據可視化、挖掘結果可視化、挖掘過程可視化等;

數據挖掘論文 篇十

【關鍵詞】數據挖掘技術;檔案管理;分析運用

由於信息技術的迅速發展,現代的檔案管理模式與過去相比,也有了很大的變化,也讓如今的檔案管理模式有了新的挑戰。讓人們對信息即時、大量地獲取是目前檔案管理工作和檔案管理系統急切需要解決的問題。

一、數據挖掘概述

(一)數據挖掘技術。數據挖掘是指從大量的、不規則、亂序的數據中,進行分析歸納,得到隱藏的,未知的,但同時又含有較大價值的信息和知識。它主要對確定目標的有關信息,使用自動化和統計學等方法對信息進行預測、偏差分析和關聯分析等,從而得到合理的結論。在檔案管理中使用數據挖掘技術,能夠充分地發揮檔案管理的作用,從而達到良好的檔案管理工作效果。(二)數據挖掘技術分析。數據挖掘技術分析的方法是多種多樣的,其主要方法有以下幾種:1.關聯分析。指從已經知道的信息數據中,找到多次展現的信息數據,由信息的説明特徵,從而得到具有相同屬性的事物特徵。2.分類分析。利用信息數據的特徵,歸納總結相關信息數據的數據庫,建立所需要的數據模型,從而來識別一些未知的信息數據。3.聚類分析。通過在確定的數據中,找尋信息的價值聯繫,得到相應的管理方案。4.序列分析。通過分析信息的前後因果關係,從而判斷信息之間可能出現的聯繫。

二、數據挖掘的重要性

在進行現代檔案信息處理時,傳統的檔案管理方法已經不能滿足其管理的要求,數據挖掘技術在這方面確有着顯著的優勢。首先,檔案是較為重要的信息記錄,甚至有些檔案的重要性大到無價,因此對於此類的珍貴檔案,相關的檔案管理人員也是希望檔案本身及其價值一直保持下去。不過越是珍貴的檔案,其使用率自然也就越高,所以其安全性就很難得到保障,在檔案管理中運用數據挖掘技術,可以讓檔案的信息數據得到分析統計,歸納總結,不必次次實物查閲,這樣就極大地提升了檔案相關內容的安全性,降低檔案的磨損率。並且可以對私密檔案進行加密,進行授權查閲,進一步提高檔案信息的安全性。其次,對檔案進行鑑定與甄別,這也是檔案工作中較困難的過程,過去做好這方面的工作主要依靠管理檔案管理員自己的能力和水平,主觀上的因素影響很大,但是數據挖掘技術可以及時對檔案進行編碼和收集,對檔案進行數字化的管理和規劃,解放人力資源,提升檔案利用的服務水平。第三,數據挖掘技術可以減少檔案的收集和保管成本,根據檔案的特點和規律建立的數據模型能為之後的工作人員建立一種標準,提升了檔案的鑑定效率。

三、檔案管理的數據挖掘運用

(一)檔案信息的收集。在實施檔案管理工作時,首先需要對檔案信息數據的收集。可以運用相關檔案數據庫的數據資料,進行科學的分析,制定科學的説明方案,對確定的數據集合類型和一些相關概念的模型進行科學説明,利用這些數據説明,建立準確的數據模型,並以此數據模型作為標準,為檔案信息的快速分類以及整合奠定基礎。例如,在體育局的相關網站上提供問卷,利用問卷來得到的所需要的信息數據,導入數據庫中,讓數據庫模型中保有使用者的相關個人信息,通過對使用者的信息數據進行説明,從而判斷使用者可能的類型,提升服務的準確性。因此,數據挖掘技術為檔案信息的迅速有效收集,為檔案分類以及後續工作的順利展開,提供了有利條件,為個性化服務的實現提供了保證。(二)檔案信息的分類。數據挖掘技術具有的屬性分析能力,可以將數據庫中的信息進行分門別類,將信息的對象通過不同的特徵,規劃為不同的分類。將數據挖掘技術運用到檔案管理中時,可以簡單快速地找到想要的檔案數據,能根據數據中使用者的相關數據,找尋使用者在數據庫中的信息,使用數據模型的分析能力,分析出使用者的相關特徵。利如,在使用者上網使用網址時,數據挖掘技術可以充分利用使用者的搜索數據以及網站的訪問記錄,自動保存用户的搜索信息、搜索內容、下載次數、時間等,得到用户的偏好和特徵,對用户可能存在的需求進行預測和分類,更加迅速和準確的,為用户提供個性化的服務。(三)檔案信息的整合。數據挖掘技術可以對新舊檔案的信息進行整合處理,可以較為簡單地將“死檔案”整合形成為“活檔案”,提供良好的檔案信息和有效的檔案管理。例如,對於企事業單位而言,培訓新員工的成本往往比聘請老員工的成本要高出很多。對老員工的檔案信息情況進行全體整合,使檔案資源充分發揮作用,將檔案數據進行總結和規劃,根據數據之間的聯繫確定老員工流失的原因,然後建立清晰、明白的數據庫,這樣可以防止人才流失,也能大大提高檔案管理的效率。

四、結語

綜上所述,在這個信息技術迅速跳躍發展的時代,將數據挖掘技術運用到檔案管理工作中是時展的需求與必然結果。利用數據挖掘技術,可以使檔案管理工作的效率大大提升,不僅減少了搜索檔案信息的時間,節省人力物力,避免資源的浪費,還能幫助用户在海量的信息數據中,快速找到所需的檔案數據信息。數據挖掘技術的運用,使靜態的檔案信息變成了可以“主動”為企事業單位的發展,提供有效的個性化服務的檔案管家,推動了社會的快速發展。

【參考文獻】

[1]欒立娟,盧健,劉佳,數據挖掘技術在檔案管理系統中的應用[J].計算機光盤軟件與應用,2015:35-36.

[2]宇然,數據挖掘技術研究以及在檔案計算機管理系統中的應用[D].瀋陽工業大學,2002.

  • 文章版權屬於文章作者所有,轉載請註明 https://wenfanwang.com/muban/jingxuan/z477nq.html
專題