當前位置:文範網 >

論文模板 >論文模板精選 >

數據挖掘論文 (優選10篇)

數據挖掘論文 (優選10篇)

【導語】

數據挖掘論文 (優選10篇)

數據挖掘論文 (優選10篇) 由本站會員“zhangjun”整理投稿精心推薦,小編希望對你的學習工作能帶來參考借鑑作用。

【目錄】

篇1:數據挖掘論文篇2:數據挖掘論文篇3:數據挖掘論文篇4:數據挖掘論文篇5:數據挖掘論文篇6:數據挖掘論文篇7:數據挖掘論文篇8:數據挖掘論文篇9:數據挖掘論文篇10:數據挖掘論文

【正文】

篇1:數據挖掘論文

題目:檔案信息管理系統中的計算機數據挖掘技術探討

摘要:伴隨着計算機技術的不斷進步和發展,數據挖掘技術成為數據處理工作中的重點技術,能借助相關算法搜索相關信息,在節省人力資本的同時,提高數據檢索的實際效率,基於此,被廣泛應用在數據密集型行業中。筆者簡要分析了計算機數據挖掘技術,並集中闡釋了檔案信息管理系統計算機數據倉庫的建立和技術實現過程,以供參考。

關鍵詞:檔案信息管理系統;計算機;數據挖掘技術;

1數據挖掘技術概述

數據挖掘技術就是指在超多隨機數據中提取隱含信息,並且將其整合後應用在知識處理體系的技術過程。若是從技術層面判定數據挖掘技術,則需要將其劃分在商業數據處理技術中,整合商業數據提取和轉化機制,並且建構更加系統化的分析模型和處理機制,從根本上優化商業決策。藉助數據挖掘技術能建構完整的數據倉庫,滿足集成性、時變性以及非易失性等需求,整和數據處理和宂餘參數,確保技術框架結構的完整性。

目前,數據挖掘技術常用的工具,如SAS企業的EnterpriseMiner、IBM企業的IntellientMiner以及SPSS企業的Clementine等應用都十分廣泛。企業在實際工作過程中,往往會利用數據源和數據預處理工具進行數據定型和更新管理,並且應用聚類分析模塊、決策樹分析模塊以及關聯分析算法等,藉助數據挖掘技術對相關數據進行處理。

2檔案信息管理系統計算機數據倉庫的建立

2.1客户需求單元

為了充分發揮檔案信息管理系統的優勢,要結合客户的實際需求建立完整的處理框架體系。在數據庫體系建立中,要適應迭代式處理特徵,並且從用户需求出發整合數據模型,保證其建立過程能按照整體規劃有序進行,且能按照目標和分析框架參數完成操作。首先,要確立基礎性的數據倉庫對象,由於是檔案信息管理,因此,要集中劃分檔案數據分析的主題,並且有效錄入檔案信息,確保滿足檔案的數據分析需求。其次,要對日常工作中的用户數據進行集中的挖掘處理,從根本上提高數據倉庫分析的完整性。

(1)確定數據倉庫的基礎性用户,其中,主要包括檔案工作人員和使用人員,結合不同人員的工作需求建立相應的數據倉庫。

(2)檔案工作要利用數據分析和檔案用户特徵分析進行分類描述。

(3)確定檔案的基礎性分類主題,一般而言,要將文書檔案歸檔狀況、卷數等基礎性信息作為分類依據。

2.2數據庫設計單元

在設計過程中,要針對不同維度建立相應的參數體系和組成結構,並且有效整合組成事實表的主鍵項目,建立框架結構。

第一,建立事實表。事實表是數據模型的核心單元,主要是記錄相關業務和統計數據的表,能整合數據倉庫中的信息單元,並且提升多維空間處理效果,確保數據儲存過程切實有效。(1)檔案管理中文書檔案目錄卷數事實表:事實表主鍵,字段類型Int,字段為Id;文書歸檔年份,字段類型Int,字段為Gdyear_key;文書歸檔類型,字段類型Int,字段為Ajtm_key;文書歸檔單位,字段類型Int,字段為Gddw_key;文書檔案生成年份,字段類型Int,字段為Ajscsj_key,以及文書檔案包括的文件數目。(2)檔案管理中文書檔案卷數事實表:事實表主鍵,字段類型Int,字段為Id;文書歸檔利用日期,字段類型Int,字段為Date_key;文書歸檔利用單位,字段類型Int,字段為Dw_key;文書歸檔利用類別,字段類型Int,字段為Dalb_key;文書歸檔利用年份,字段類型Int,字段為Dayear_key等[1]。

第二,建立維度表,在實際數據倉庫建立和運維工作中,提高數據管理效果和水平,確保建立循環和反饋的系統框架體系,並且處理增長過程和完善過程,有效實現數據庫模型設計以及相關維護操作。首先,要對模式的基礎性維度進行分析並且製作相應的表,主要包括檔案年度維表、利用方式維表等。其次,要建構數據庫星型模型體系。最後,要集中判定數據庫工具,保證數據庫平台在客户管理工作方面具備必須的優勢,集中制訂商務智能解決方案,保證集成環境的穩定性和數據倉庫建模的效果,真正提高數據抽取以及轉換工作的實際水平。需要注意的是,在全面整合和分析處理數據的過程中,要分離文書檔案中的數據,相關操作如下:

deletefromdaggdtemp//刪除臨時表中的數據

Chcount=dag1.importfile(dbo.uwswj)//將文書目錄中數據導出到數據窗口

Dag1.update()//將數據窗口中的數據保存到臨時表

相關技術人員要對數據進行有效處理,以保證相關數據合併操作、連接操作以及條件性拆分操作等都能按照數據預處理管理要求合理化進行,從根本上維護數據處理效果。

2.3多維數據模型建立單元

在檔案多維數據模型建立的過程中,相關技術人員要判定聯機分析處理項目和數據挖掘方案,整合信息系統中的數據源、數據視圖、維度參數以及屬性參數等,保證具體單元能發揮其實際作用,並且真正發揮檔案維表的穩定性、安全性優勢。

第一,檔案事實表中的數據穩定,事實表是加載和處理檔案數據的基本模塊,按照檔案目錄數據表和檔案利用狀況表分析和判定其類別和歸檔時間,從而提高數據獨立分析水平。一方面,能追加有效的數據,保證數據倉庫信息的基本質量,也能追加時間判定標準,能在實際操作中減少掃描整個表浪費的時間,從根本上提高實際效率。另一方面,能刪除數據,實現數據更新,檢索相關關鍵詞即可。並且也能同時修改數據,維護檔案撤出和檔案追加的動態化處理效果。

第二,檔案維表的安全性。在維表管理工作中,檔案參數和數據的安全穩定性十分關鍵,由於其不會隨着時間的推移出現變化,因此,要對其進行合理的處理和協調。維表本身的存儲空間較小,儘管結構發生變化的概率不大,但仍會對代表的對象產生影響,這就會使得數據出現動態的變化。對於這種改變,需要藉助新維生成的方式進行處理,從而保證不同維表能有效連接,整合正確數據的同時,也能對事實表外鍵進行分析[2]。

3檔案信息管理系統計算機數據倉庫的實現

3.1描述需求

隨着互聯網技術和數據庫技術不斷進步,要提高檔案數字化水平以及完善信息化整合機制,加快數據庫管控體系的更新,確保設備存儲以及網絡環境一體化水平能滿足需求,尤其是在檔案資源重組和預測項目中,只有從根本上落實數據挖掘體系,才能為後續信息檔案管理項目升級奠定堅實基礎。另外,在數據表和文書等基礎性數據結構模型建立的基礎上,要按照規律制定具有個性化的主動性服務機制。

3.2關聯計算[由本站www.haoword.com網友投稿]

在實際檔案分析工作開展過程中,關聯算法描述十分關鍵,能對某些行為特徵進行統籌整合,從而制定分析決策。在進行關聯規則強度分析時,要結合支持度和置信度等系統化數據進行綜合衡量。例如,檔案數據庫中有A和B兩個基礎項集合,支持度為P(A∪B),則直接表述了A和B在同一時間出現的基礎性概率。若是兩者出現的概率並不大,則證明兩者之間的關聯度較低。若是兩者出現的概率較大,則説明兩者的關聯度較高。另外,在分析置信度時,利用Confidence(A→B)=(A|B),也能有效判定兩者之間的關係。在出現置信度A的狀況下,B的出現概率則是整體參數關係的關鍵,若是置信度的數值到達100%,則直接證明A和B能同一時間出現。

3.3神經網絡算法

除了要對檔案的實際資料進行數據分析和數據庫建構,也要對其利用狀況進行判定,目前較為常見的利用率分析算法就是神經網絡算法,其藉助數據分類系統判定和分析數據對象。值得注意的是,在分類技術結構中,要結合訓練數據集判定分類模型數據挖掘結構。神經網絡算法類似於人腦系統的運行結構,能建立完整的信息處理單元,並且能夠整合非線性交換結構,確保能憑藉歷史數據對計算模型和分類體系展開深度分析[3]。

3.4實現多元化應用

在檔案管理工作中應用計算機數據挖掘技術,能對檔案分類管理予以分析,保證信息需求分類總結工作的完整程度。尤其是檔案使用者在對檔案具體特徵進行差異化分析的過程中,能結合不同的元素對具體問題展開深度調研。一方面,計算機數據挖掘技術藉助決策樹算法處理規則化的檔案分析機制。在差異化訓練體系中,要對數據集合中的數據進行系統化分析以及處理,確保構建要求能適應數據挖掘的基本結構[4]。例如,檔案管理人員藉助數據挖掘技術能整合檔案使用人員長期瀏覽與關注的信息,並且能集中收集和彙總間隔時間、信息查詢停留時間等,從而建構完整的數據分析機制,有效向其推送或者是帶給便捷化查詢服務,保證檔案管理數字化水平的提高。另一方面,在檔案收集管理工作中應用數據挖掘技術,主要是對數據信息進行分析,結合基本結果建立概念模型,保證模型以及測試樣本之間的比較參數貼合標準,從而真正建立更加系統化的分類框架體系。

4結語

總而言之,在檔案管理工作中應用數據挖掘技術,能在準確判定用户需求的同時,維護數據處理效果,並且減少檔案數字化的成本,為後續工作的進一步優化奠定堅實基礎。並且,數據庫的建立,也能節省經費和設備維護成本,真正實現數字化全面發展的目標,促進檔案信息管理工作的長效進步。

參考文獻

[1]曾雪峯.計算機數據挖掘技術開發及其在檔案信息管理中的運用研究[J].科技創新與應用,2016(9):285.

[2]王曉燕.數據挖掘技術在檔案信息管理中的應用[J].蘭台世界,2014(23):25-26.

[3]韓吉義.基於數據挖掘技術的高校圖書館檔案信息管理平台的構築[J].山西檔案,2015(6):61-63.

[4]哈立原.基於數據挖掘技術的高校圖書館檔案信息管理平台構建[J].山西檔案,2016(5):105-107.

篇2:數據挖掘論文

數據挖掘在電力調度自動化系統的運用

關鍵詞:數據挖掘;電力調度自動化系統;週期性關聯規則挖掘算法

摘要:電力調度自動化系統對電力數據的收集和整理工作質量有着較高要求,而為了滿足這一要求近年來數據挖掘技術日漸受到電力行業重視,基於此,文章就數據挖掘技術進行了簡單介紹,並對數據挖掘在電力調度自動化系統中的應用進行了深入論述,期望論述資料能夠為相關業內人士帶來必須啟發。

前言

電力數據收集、整理質量直接影響電力調度自動化系統的控制和管理水平,但由於很多價值較高的數據信息往往位於隱藏的數據之中,這就使得傳統方法不能較好滿足電力調度自動化系統需要,而為了解決這一問題,正是本文就數據挖掘在電力調度自動化系統中應用展開具體研究的原因所在。

1數據挖掘技術

在大數據時代到來的這天,數據挖掘技術能夠從海量數據信息中準確找到所求信息,因此本文將數據挖掘技術視作“採用有效工具和措施從海量數據庫中提取數據和模型關係”的技術,由此企業的決策能夠得到充足的決定依據。為了更直觀瞭解數據挖掘技術,本文將數據挖掘的過程和步驟概括為以下幾個方面:(1)確定業務對象。確定業務對象屬於數據挖掘過程的基礎工作,這一過程的實質是瞭解業務問題。(2)準備數據。透過選取數據、數據預處理、轉換數據三個層面的工作,即可完成針對於挖掘算法的分析模型構建,並最終完成必須領域的數據挖掘。

2數據挖掘在電力調度自動化系統中的應用

2.1應用方式

神經網絡、灰色分析法、關聯規則均能夠用於電力調度自動化系統的數據挖掘,具體應用如下所示。

(1)神經網絡。作為應用較為廣泛的一種人工智能研究方法,神經網絡早已在我國實現了較為廣泛的應用,電力調度自動化系統的數據挖掘也是其應用的重要領域,由於數據自行處理、數據分佈存儲、高度容錯性是神經網絡的應用優勢所在,這就使得神經網絡較為適用於模糊、不完整、不準確數據的處理。在電力調度自動化系統的數據挖掘中,神經網絡主要透過關聯分析的方式實現數據邏輯處理,具體處理能夠分為以下幾個方面:a.整合統一基礎數據。由於電力調度自動化系統包含的數據具備龐大複雜、種類繁多的特點,因此神經網絡的應用需要透過整合統一使相關數據構成結構模型,透過神經網絡系統實現數據統一管理。b.實現不同環節電力調度的關聯。應用數據挖掘神經網絡方法整理不同環節的電流狀態和參數,並保證相關數據信息的整合性,即可實現不同環節電力調度的關聯。c.分析與決策。結合神經網絡整理的整合數據,即可開展分析、決策以及數據共享。

(2)灰色分析法。灰色分析法能夠較好分析電力調度過程出現的不完整數據,但不適用於較為龐大的數據是該數據挖掘方法存在的不足。一般狀況下,灰色分析法的應用需要深入瞭解設備數據參數,如用户用電狀況預測、母線負荷數據值、電力銷售狀況預測等,結合分析確定電力調度邊界電量,即可提升數據收集的可靠性,電力調度自動化系統的運行也將由此獲得較為有力的支持。

(3)關聯規則。作為數據挖掘的重要分支,關聯規則能夠透過發覺超多數據項集之間的搞笑關聯和相互聯繫實現信息的高質量分析,剛剛提到的神經網絡嚴格好處上也屬於關聯規則範疇,但是本文關於關聯規則的研究主要圍繞週期性關聯規則挖掘算法展開。週期性關聯規則挖掘算法具備掃描數據庫次數較少、避免掃描數據庫的時間開銷、連接程序中相同項目的比較次數較少、數據項集頻度統計速度較高等優勢,由此實現的週期性數據集挖掘、關聯規則挖掘便能夠大大降低電力調度自動化系統的事故發生概率。值得注意的是,本文研究的週期性關聯規則挖掘算法結合了蟻羣算法,這是由於原算法使用了超多的搜索操作、分類檢索和路徑檢索,蟻羣算法下走過的路上會留下信息素,這就使得較短路徑上的信息素濃度較高,結合負信息素理論,即可保證有信息素的地方螞蟻不能走過。如使用表1所示的事務數據庫D(部分),即可結合時態事務數據庫D分類數據集改善、每一個分類數據集週期性數據集挖掘改善,以數據項A分類為例,即可求得表2所示的時態屬性差,由此開展更深入計算則能夠更深入瞭解週期性關聯規則挖掘算法的思想,也能夠認識到蟻羣算法的重要性。

2.2應用實踐

為提升研究實踐價值,本文圍繞週期性關聯規則挖掘算法建立了基於週期性關聯規則挖掘的數據分析系統,這一系統的建立過程如下所示。

(1)開發平台選取。結合系統功能需要,選取了微軟的平台作為主要系統開發平台,該平台具備的強大數據庫訪問潛力、擴展豐富等特點,能夠較好滿足系統開發需要。

(2)基於數據橋的數據集成模塊設計。思考到我國當下電力事業的數據集成標準較為複雜、混亂,系統設計採用了自己的數據集成方法,同時應用了清晰數據清洗策略,由此即可實現不完整數據、重複數據、錯誤數據三類髒數據的清洗,數字數據不完整、日期數據不完整、錯誤日期型數據、重複數據等僅屬於清洗資料,其中除重複數據不予處理外,其他數據均採用修補空值和默認值的方式,如數字數據不完整採用“補0,補null,默認值”的清洗策略。此外,無類型文件數據集成、數據庫數據集成、異構數據庫數據集成也是這一環節設計的重要資料[3]。

(3)數據庫管理模塊設計。採用微軟公司的SQLServer數據庫系統,由此數據庫管理被分為層次數建模、數據表管理、數據表導出三部分,其中數據表管理包含數據管理、結構管理、刪除三方面功能,而數據表導出則包括文本文件、Excel文件、Access文件、Xml文件、其他數據庫五部分資料。

(4)數據分析功能模塊設計。數據分析功能模塊由同期數據分析、週期性數據分析、數據預警分析、數據關聯分析四部分組成,各部分設計如下所示:a.同期數據分析模塊設計。該模塊的運行流程主要由負荷數據、網損數據、力率數據、有功總加數據比較組成,分析流程能夠概括為:“輸入所有比較條件→合法→根據條件生成SQL語句→顯示查詢結果→打印比較圖像”。b.週期性數據分析模塊設計。圍繞報警週期性、負荷週期性、遙測週期性三方面開展數據挖掘,即可完成該模塊設計。c.數據預警分析模塊設計。分析流程為:“初始化數據集及參數→輸入預警分析參數→合法→分析預測→決定預測類型→有無推薦→輸出報警類型和推薦→輸出報警類型”。d.數據關聯分析模型設計。採用默認用户手動輸入數據集方法,程序流程為:“初始化已有周期性數據集→輸入參數→合法?→數據集交叉?→計算Conf、Sup→計算下一對數據集→完成”。

3結束語

數據挖掘能夠較好地服務於電力調度自動化系統。而在此基礎上,本文研究建立的基於週期性關聯規則挖掘的數據分析系統,則證明了研究的實踐價值。因此,在相關領域的理論研究和實踐探索中,本文資料能夠發揮必須參考作用。

參考文獻:

[1]王謙,李烽.電力調度的自動化網絡安全分析及實現[J].電子技術與軟件工程,2017(21):116.

[2]劉賓,朱亞奇,吳莎.數據挖掘在電力調度自動化系統中的應用[J].電子技術與軟件工程,2017(20):158.

[3]曹鐵生.電力調度自動化系統應用現狀與發展趨勢研究分析[J].硅谷,2014,7(23):74+76.

[4]周洋.數據挖掘在電力調度自動化系統中的應用解析[J].科技創新與應用,2017(35):149-150.

[5]李夢鳴.大數據挖掘平台在電力運營監測工作的應用[J].科技創新與應用,2016(26):21-22.

作者:何宇雄;苑晉沛;聶宇;羅超;高小芊;寇霄宇;李蔚單位:國網湖北省電力公司武漢供電公司

篇3:數據挖掘論文

後面還有多篇數據挖掘論文!

題目:機器學習算法在數據挖掘中的應用

摘要:隨着科學技術的快速發展,各種新鮮的事物和理念得到了廣泛的應用。其中機器學習算法就是一則典型案例——作為一種新型的算法,其廣泛應用於各行各業之中。本篇論文旨在探討機器學習算法在數據挖掘中的具體應用,我們利用龐大的移動終端數據網絡,加強了基於GSM網絡的户外終端定位,從而提出了3個階段的定位算法,有效提高了定位的精準度和速度。

關鍵詞:學習算法;GSM網絡;定位;數據;

移動終端定位技術由來已久,其主要是利用各種科學技術手段定位移動物體的精準位置以及高度。目前,移動終端定位技術主要應用於軍事定位、緊急救援、網絡優化、地圖導航等多個現代化的領域,由於移動終端定位技術能夠帶給精準的位置服務信息,所以其在市場上還是有較大的需求的,這也為移動終端定位技術的優化和發展,帶給了推動力。隨着通信網絡普及,移動終端定位技術的發展也得到了一些幫忙,使得其定位的精準度和速度都得到了全面的優化和提升。同時,傳統的定位方法結合先進的算法來進行精準定位,目前依舊還是有較大的進步空間。在工作中我選取機器學習算法結合數據挖掘技術對傳統定位技術加以改善,取得了不錯的效果,但也遇到了許多問題,例如:使用機器學習算法來進行精準定位暫時無法滿足更大的區域要求,還有想要利用較低的設備成本,實現得到更多的精準定位的要求比較困難。所以本文對機器學習算法進行了深入的研究,期望能夠幫忙其更快速的定位、更精準的定位,滿足市場的需要。

1數據挖掘概述

數據挖掘又名數據探勘、信息挖掘。它是數據庫知識篩選中十分重要的一步。數據挖掘其實指的就是在超多的數據中透過算法找到有用信息的行為。一般狀況下,數據挖掘都會和計算機科學緊密聯繫在一齊,透過統計集合、在線剖析、檢索篩選、機器學習、參數識別等多種方法來實現最初的目標。統計算法和機器學習算法是數據挖掘算法裏面應用得比較廣泛的兩類。統計算法依靠於概率分析,然後進行相關性決定,由此來執行運算。

而機器學習算法主要依靠人工智能科技,透過超多的樣本收集、學習和訓練,能夠自動匹配運算所需的相關參數及模式。它綜合了數學、物理學、自動化和計算機科學等多種學習理論,雖然能夠應用的領域和目標各不相同,但是這些算法都能夠被獨立使用運算,當然也能夠相互幫忙,綜合應用,能夠説是一種能夠“因時而變”、“因事而變”的算法。在機器學習算法的領域,人工神經網絡是比較重要和常見的一種。因為它的優秀的數據處理和演練、學習的潛力較強。

而且對於問題數據還能夠進行精準的識別與處理分析,所以應用的頻次更多。人工神經網絡依靠於多種多樣的建模模型來進行工作,由此來滿足不同的數據需求。綜合來看,人工神經網絡的建模,它的精準度比較高,綜合表述潛力優秀,而且在應用的過程中,不需要依靠專家的輔助力量,雖然仍有缺陷,比如在訓練數據的時候耗時較多,知識的理解潛力還沒有到達智能化的標準,但是,相對於其他方式而言,人工神經網絡的優勢依舊是比較突出的。

2以機器學習算法為基礎的GSM網絡定位

2.1定位問題的建模

建模的過程主要是以支持向量機定位方式作為基礎,把定位的位置柵格化,面積較小的柵格位置就是獨立的一種類別,在定位的位置內,我們收集數目龐大的終端測量數據,然後利用計算機對測量報告進行分析處理,測量柵格的距離度量和精準度,然後對移動終端柵格進行預估決定,最終利用機器學習進行分析求解。

2.2採集數據和預處理

本次研究,我們採用的模型對象是我國某一個周邊長達10千米的二線城市。在該城市區域內,我們測量了四個不同時間段內的數據,為了保證機器學習算法定位的精準性和有效性,我們把其中的三批數據作為訓練數據,最後一組數據作為定位數據,然後把定位數據周邊十米內的前三組訓練數據的相關信息進行清除。一旦確定某一待定位數據,就要在不同的時間內進行測量,按照測量出的數據信息的經緯度和平均值,再進行換算,最終,得到真實的數據量,提升定位的速度以及有效程度。

2.3以基站的經緯度為基礎的初步定位

用機器學習算法來進行移動終端定位,其複雜性也是比較大的,一旦區域面積增加,那麼模型和分類也相應增加,而且更加複雜,所以,利用機器學習算法來進行移動終端定位的過程,會隨着定位區域面積的增大,而耗費更多的時間。利用基站的經緯度作為基礎來進行早期的定位,則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格,如果想要定位數據集內的相關信息,就要選取對邊長是一千米的小柵格進行計算,而如果是想要獲得邊長一千米的大柵格,就要對邊長是一千米的柵格精心計算。

2.4以向量機為基礎的二次定位

在完成初步定位工作後,要確定一個邊長為兩千米的正方形,由於第一級支持向量機定位的區域是四百米,定位輸出的是以一百米柵格作為中心點的經緯度數據信息,相對於一級向量機的定位而言,二級向量機在定位計算的時候難度是較低的,更加簡便。後期的預算主要依靠決策函數計算和樣本向量機計算。隨着柵格的變小,定位的精準度將越來越高,而由於增加分類的問題數量是上升的,所以,定位的複雜度也是相對增加的。

2.5以K-近鄰法為基礎的三次定位

第一步要做的就是選定需要定位的區域面積,在二次輸出之後,確定其經緯度,然後依靠經緯度來確定邊長面積,這些都是進行區域定位的基礎性工作,緊之後就是定位模型的訓練。以K-近鄰法為基礎的三次定位需要的是綜合訓練信息數據,對於這些信息數據,要以大小為選取依據進行篩選和合並,這樣就能夠減少計算的重複性。當然了,選取的區域面積越大,其定位的速度和精準性也就越低。

3結語

近年來,隨着我國科學技術的不斷髮展和進步,數據挖掘技術愈加重要。根據上面的研究,我們證明了,在數據挖掘的過程中,應用機器學習算法具有舉足輕重的作用。作為一門多領域互相交叉的知識學科,它能夠幫忙我們提升定位的精準度以及定位速度,能夠被廣泛的應用於各行各業。所以,對於機器學習算法,相關人員要加以重視,不斷的進行改良以及改善,切實的發揮其有利的方面,將其廣泛應用於智能定位的各個領域,幫忙我們解決關於户外移動終端的定位的問題。

參考文獻

[1]陳小燕,CHENXiaoyan.機器學習算法在數據挖掘中的應用[J].現代電子技術,2015,v.38;No.451(20):11-14.

[2]李運.機器學習算法在數據挖掘中的應用[D].北京郵電大學,2014.

[3]莫雪峯.機器學習算法在數據挖掘中的應用[J].科教文匯,2016(07):175-178.

篇4:數據挖掘論文

數據挖掘與圖書館用户資源分析

摘要:人類利用圖書館產生信息活動時所表現出的最基礎、最平常、最通用的一種關係,便是用户資源和圖書館之間的關係。從這種關係出發,分析嫁接起這一簡單聯繫的規律,便是數據挖掘技術。本文認為對圖書館用户資源分析研究應以數據挖掘技術為邏輯起點,從雲計算、信息共享、數據排查、智能搜索、大數據存儲等對圖書館用户資源進行整合和建設。應對信息資源日益豐富的這天,數據挖掘技術對管理圖書館信息資源技術帶給了巨大便利。

關鍵詞:數據挖掘;用户資源

數據挖掘,即數據系統中的信息發現。隨着計算機技術,個性是雲計算、大數據記憶技術的快速發展,傳統的手動查找信息模式被大數據智能檢索替代。數據挖掘技術廣泛應用於市場、工業、金融行業、科學界、互聯網行業以及醫療業。數據挖掘技術在圖書館的應用,能夠將海量的用户資源進行聚類、關聯、整合,能夠對用户搜索記錄、圖書流通記錄、用户借閲信息等數據進行精確預判,發現一些隱蔽的聯繫,為圖書館採購圖書、淘汰文獻資料帶給科學推薦,也能夠為用户帶給個性化訂閲服務,創新用户服務模式,為圖書館建設整個信息網絡帶給有力支撐。

1大數據下的圖書館用户資源特徵

圖書館用户資源是透過數字技術進行組織和管理的:(1)經過數據關聯分析,把數據庫中存在的兩個或兩個以上用户之間的相同性提取出來,提高支持度和説服力;(2)把用户信息按照相似性歸納成幾個類別,建立宏觀概念,發現其間的相互關係;其次定義這些相互關係,概念產生以後,即等同於這些相互關係的整體信息,用於建構分類規則或者數據模型;其次利用以上數據找出變化規律,對此規律進行模型化處理,並由數據模型對未知信息進行預判;(3)把用户資源進行時序排序,檢索出高重複率的模型;(4)進行偏差比對,檢查數據之中的異常狀況。圖書館利用超多的用户訪問信息獲取用户興趣,發現用户羣體,為不同的羣體定製信息,還能夠建立一個共享信息平台,讓不同用户建立網絡交流。

1.1數據量大並且分佈更廣

大數據形勢下,圖書館能夠獲取的用户資源不僅僅限於用户個人信息和搜索記錄,也包括檔案、學術研究、教學模式、用户評價和反饋等,數據豐富。同時,數據分佈廣泛,在互聯網時代,可從圖書館應用系統、數據系統記錄以及各種網頁、移動終端的信息獲取,顯示出用户資源的分散性。

1.2數據資料多元化,形式靈活化

數據系統裏的存儲方式不同,服務器不同,系統開發平台不同,致使許多用户資源無法交流互換。圖書館用户資源有半模型化、模型化和非模型化之分。傳統的圖書館用户資源中,用户只是圖書資源的使用者,與圖書館之間只是點對點單線互動,用户之間不存在交流,而在大數據網絡平台下,用户之間能夠建立資料共享互動平台,使得用户資源的資料更加多元化。

2圖書館用户資源利用

2.1有助於利用數據挖掘技術建立用户資源圖書館

用户資源圖書館具備信息量大的特點,用户可獲得各方各面的信息,且從服務的個性化和全方位化而言,圖書館可根據社會熱點或用户需求定製服務。一方面,建立用户資源圖書館,使各類用户信息在同一界面統一呈現,方便用户的選取和檢索。另一方面,利用數據挖掘技術建立的用户資源圖書館,服務器眾多,具有較強的計算潛力和存儲潛力,擁有較高的數據處理潛力,能同時容納多數用户。因數據量大所導致的硬件費用和後期運行費用劇增,可透過構建用户資源圖書館平台以及應用服務得到解決。為應付不斷提高的用户資源存儲方面的壓為,目前亟需的就是投入超多資金以擴容存儲設備,無疑,建立用户資源平台能夠解決此問題。

2.2加速圖書館資源的數字化

強大的互聯網呈現功能和用户信息保存的可靠性功能,用户資源存儲的複雜性問題可得到很好的解決。其次,數據挖掘技術對於資源整合方面具有優勢,透過分佈式的存儲模式整合超多信息資源帶給給用户檢索。不同的數據之間的互相操作以及全方位的互聯網服務得以實現,很好的解決了資源重複建設的問題。因此,利用數據挖掘使得圖書館資源數字化具備可行性。從這個好處上來看,資源的館藏數字化將會加快發展,而不只是圖書書目的劇增。

2.3降低人力資源成本,使圖書館各類資源得以整合和優化

隨着各類用户資源利用步伐的加快,加之依靠因特網的用户對服務的可行性和效率性要求更高,超多不同體系的服務器佈置在機房,系統維護人員的壓力也相應増大。透過數據挖掘技術,可有效進行資源整合和優化,無需透過人力進行。

2.4有利於分析用户心理和提升用户體驗

數據挖掘技術能夠利用用户資源計算出用户模型,這是研究用户需求、偏好、行為的一種常規方式,一般認為用户模型是對用户在某段時間內相對穩定的信息需求的記錄。用户模型反過來對獲取用户資源有十分重要的作用,建構用户模型,能夠使圖書館更加精深、準確地掌握當前用户資源。透過對用户資源的處理來預測用户需求,進而到達持續提高服務質量和用户滿意度的目的。一方面,預判用户心理是利用圖書館用户資源更加深入的表現。隨着用户環境與圖書館環境的不斷變化,這種預判力覆蓋範圍已經不單單是用户信息行為的某個過程或某幾個過程,相反,用户心理能夠對用户需求的強弱、層次、方向產生極為重要的影響,同時也能夠對獲取用户資源全部過程產生重要影響。另一方面,最先研究用户體驗研究當屬企業營銷活動,主要用來研究用户與企業、產品或服務之間的互動。數據挖掘技術能夠更精準預測用户的實際感受,透過研究用户情感體驗與用户行為動作,提高用户的滿意度,滿足用户需求。

3結語

在數據大爆發時代,重視圖書館用户資源,透過多渠道、多方式匯聚用户資源,採用數據挖掘、數據歸檔分析等技術,掌握用户資源特徵,有助於圖書館精準定位用户羣體,對調整圖書館運營策略有重要前置作用,更能創新圖書館服務的資料和形式,實現圖書館資源的有效利用。

參考文獻

[1]陳文偉等.數據挖掘技術[M].北京:北京工業出版社,2002.

[2]郭崇慧等.北京數據挖掘教程[M].北京:清華大學出版社,2005.

[3]徐永麗等.網絡環境中用户信息需求障礙分析[J].圖書館理論與實踐,2004.

篇5:數據挖掘論文

題目:大數據挖掘在智慧旅遊應用中的探究

摘要:大數據和智慧旅遊都是當下的熱點,沒有大數據的智慧旅遊無從談“智慧”,數據挖掘是大數據應用於智慧旅遊的核心,文章探究了在智慧旅遊應用中,目前大數據挖掘存在的幾個問題。

關鍵詞:大數據;智慧旅遊;數據挖掘;

1引言

隨着人民生活水平的進一步提高,旅遊消費的需求進一步上升,在雲計算、互聯網、物聯網以及移動智能終端等信息通訊技術的飛速發展下,智慧旅遊應運而生。大數據作為當下的熱點已經成了智慧旅遊發展的有力支撐,沒有大數據帶給的有利信息,智慧旅遊無法變得“智慧”。

2大數據與智慧旅遊

旅遊業是信息密、綜合性強、信息依存度高的產業[1],這讓其與大數據自然產生了交匯。2010年,江蘇省鎮江市首先提出“智慧旅遊”的概念,雖然至今國內外對於智慧旅遊還沒有一個統一的學術定義,但在與大數據相關的描述中,有學者從大數據挖掘在智慧旅遊中的作用出發,把智慧旅遊描述為:透過充分收集和管理所有類型和來源的旅遊數據,並深入挖掘這些數據的潛在重要價值信息,然後利用這些信息為相關部門或對象帶給服務[2]。這必須義充分肯定了在發展智慧旅遊中,大數據挖掘所起的至關重要的作用,指出了在智慧旅遊的過程中,數據的收集、儲存、管理都是為數據挖掘服務,智慧旅遊最終所需要的是利用挖掘所得的有用信息。

3大數據挖掘在智慧旅遊中存在的問題

2011年,我國提出用十年時間基本實現智慧旅遊的目標[3],過去幾年,國家旅遊局的相關動作均為了實現這一目標。但是,在藉助大數據推動智慧旅遊的可持續性發展中,大數據所產生的價值卻亟待提高,原因之一就是在收集、儲存了超多數據後,對它們深入挖掘不夠,沒有發掘出數據更多的價值。

3.1信息化建設

智慧旅遊的發展離不開移動網絡、物聯網、雲平台。隨着大數據的不斷髮展,國內許多景區已經實現Wi-Fi覆蓋,部分景區也已實現人與人、人與物、人與景點之間的實時互動,多省市已建有旅遊產業監測平台或旅遊大數據中心以及數據可視化平台,從中進行數據統計、行為分析、監控預警、服務質量監督等。透過這些平台,已基本能掌握跟遊客和景點相關的數據,能夠實現更好旅遊監控、產業宏觀監控,對該地的旅遊管理和推廣都能發揮重要作用。

但從智慧化的發展來看,我國的信息化建設還需加強。雖然通訊網絡已基本能保證,但是大部分景區還無法實現對景區全面、透徹、及時的感知,更為困難的是對平台的建設。在數據共享平台的建設上,除了必備的硬件設施,大數據實驗平台還涉及超多部門,如政府管理部門、氣象部門、交通、電子商務、旅行社、旅遊網站等。如此多的部門相關聯,要想建立一個完整全面的大數據實驗平台,難度可想而知。

3.2大數據挖掘方法

大數據時代缺的不是數據,而是方法。大數據在旅遊行業的應用前景十分廣闊,但是應對超多的數據,不懂如何收集有用的數據、不懂如何對數據進行挖掘和利用,那麼“大數據”猶如礦山之中的廢石。旅遊行業所涉及的結構化與非結構化數據,透過雲計算技術,對數據的收集、存儲都較為容易,但對數據的挖掘分析則還在不斷探索中。大數據的挖掘常用的方法有關聯分析,相似度分析,距離分析,聚類分析等等,這些方法從不同的角度對數據進行挖掘。其中,相關性分析方法透過關聯多個數據來源,挖掘數據價值。但針對旅遊數據,採用這些方法挖掘數據的價值信息,難度也很大,因為旅遊數據中宂餘數據很多,數據存在形式很複雜。在旅遊非結構化數據中,一張圖片、一個天氣變化、一次輿情評價等都將會對遊客的旅行計劃帶來影響。對這些數據完全挖掘分析,對遊客“行前、行中、行後”大數據的實時性挖掘都是很大的挑戰。

3.3數據安全

2017年,數據安全事件屢見不鮮,伴着大數據而來的數據安全問題日益凸顯出來。在大數據時代,無處不在的數據收集技術使我們的個人信息在所關聯的數據中心留下痕跡,如何保證這些信息被合法合理使用,讓數據“可用不可見”[4],這是亟待解決的問題。同時,在大數據資源的開放性和共享性下,個人保密和公民權益受到嚴重威脅。這一矛盾的存在使數據共享程度與數據挖掘程度成反比。此外,經過大數據技術的分析、挖掘,個人保密更易被發現和暴露,從而可能引發一系列社會問題。

大數據背景下的旅遊數據當然也避免不了數據的安全問題。如果遊客“吃、住、行、遊、娛、購”的數據被放入數據庫,被完全共享、挖掘、分析,那遊客的人身財產安全將會受到嚴重影響,最終降低旅遊體驗。所以,數據的安全管理是進行大數據挖掘的前提。

3.4大數據人才

大數據背景下的智慧旅遊離不開人才的創新活動及技術支持,然而與專業相銜接的大數據人才培養未能及時跟上行業需求,加之創新型人才的外流,以及數據統計未來3~5年大數據行業將面臨全球性的人才荒,國內智慧旅遊的構建還缺乏超多人才。

4解決思路

在信息化建設上,加大政府投入,加強基礎設施建設,整合結構化數據,抓取非結構化數據,打通各數據壁壘,建設旅遊大數據實驗平台;在挖掘方法上,對旅遊大數據實時性數據的挖掘就應被放在重要位置;在數據安全上,從加強大數據安全立法、監管執法及強化技術手段建設等幾個方面着手,提升大數據環境下數據安全保護水平。加強人才的培養與引進,加強產學研合作,培養智慧旅遊大數據人才。

參考文獻

[1]翁凱.大數據在智慧旅遊中的應用研究[J].信息技術,2015,24:86-87.

[2]樑昌勇,馬銀超,路彩虹.大數據挖掘,智慧旅遊的核心[J].開發研究,2015,5(180):134-139.

[3]張建濤,王洋,劉力剛.大數據背景下智慧旅遊應用模型體系構建[J].企業經濟,2017,5(441):116-123.

[4]王竹欣,陳湉.保障大數據,從哪裏入手[N].人民郵電究,2017-11-30.

篇6:數據挖掘論文

雲計算下物聯網的數據挖掘

摘要:隨着我國信息技術產業日漸成熟,物聯網這一新一代信息技術關鍵技術日漸受到學界重視,基於此,本文就物聯網與雲計算、物聯網數據挖掘需要解決的關鍵性問題展開分析,並對基於雲計算的物聯網數據挖掘、實驗驗證進行了詳細論述,期望由此能夠為相關業內人士帶來必須啟發。

關鍵詞:雲計算平台;物聯網;數據挖掘;Hodoop

隨着2010年提出的“數字地球”概念影響力不斷擴大,物聯網技術與我國民眾生活之間的距離日漸拉近,越來越多的物聯網應用也開始進入人們視野,各界對物聯網的要求也在不斷提升,而為了解決物聯網領域正面臨的數據挖掘難題,正是本文就雲計算平台下物聯網數據挖掘展開具體研究的原因所在。

1物聯網與雲計算

1.1物聯網

物聯網作為學界公認的下一代網絡發展方向之一,其本身由無所不在的小型傳感器設備組成,無論是與我們日常生命聯繫緊密的計算機與智能手機,還是大型網絡的服務器、超級計算機羣,均屬於物聯網的重要組成部分,這也是很多學者將物聯網稱作新科技革命的原因。在S.Haller等業界權威學者的展望中,其認為物聯網技術在未來將實現物理對象無縫集成到信息網絡之中併成為參與者,而這些“智能對象”在保護安全與保密的前提下,則能夠在網絡中找到任何問題的解決方法。對於物聯網來説,其具備着全面感知、可靠傳遞、智能處理三方面特點,而結合現有技術獲得基本信息、結合傳感器網絡和其他通信網絡實現物體信息可靠傳遞、在雲計算與模糊識別等技術支持下處理海量異構數據則屬於物聯網三方面特點的具體表現,由此可見電子元器件、數據處理中心、傳輸通道三方面能夠視作典型物聯網應用的組成。

1.2雲計算

雲計算本質上屬於一種基於互聯網的新計算方式,其能夠結合互聯網異構、自治服務較好滿足用户的計算需要,雲計算中的“雲”也能夠被視作對IT底層基礎設施的一種抽象概念。本文研究應用的Hodoop屬於典型的雲計算基礎開發平台,其本質上屬於一個分佈式系統基礎的架構,Hodoop在雲計算領域的地位能夠説近似於IT產業的Linux系統。Hodoop的核心為分佈式文件系統HDFS和MapReduce,前者具備高容錯性、高伸縮性等優點,這些就使得Hodoop的佈置能夠較為簡單且低成本的構成分佈式文件系統,而後者則具備保證分析和處理的高效性潛力,由此Hodoop即可簡單進行數據的整合。總之,Hodoop這一雲計算基礎開發平台能夠透過簡單組織計算機資源實現分佈式計算雲平台搭建,並以此實現雲計算相關功用。

1.3物聯網數據挖掘需要解決的關鍵性問題

簡單瞭解物聯網與雲計算後,物聯網數據挖掘需要解決的關鍵性問題也應引起人們關注,那裏的關鍵性問題主要由以下幾方面構成:

1.3.1傳統模式難以應用中央模式

屬於較為傳統的數據挖掘模式,但是物聯網數據不同存儲地點的特性則使得該模式的效用無從發揮。

1.3.2對中央節點硬件要求較高

物聯網本身具備着數據規模、傳感器節點龐大的特點,而為了同時滿足其實時處理需求,高性能的中央節點硬件要求務必得到滿足。

1.3.3節點資源有限

在有限的節點資源影響下,分佈式節點務必負責原始數據的預處理與傳遞。

1.3.4外在因素影響

由於數據安全性、數據保密、法律約束等因素的影響,物聯網不能夠將所有數據統一存放在相同數據倉庫,這同樣對物聯網數據挖掘提出了較高挑戰。總的來説,現有技術與方式並不能較好滿足物聯網數據挖掘需要,這也是本文研究開展的原因所在。

2基於雲計算的物聯網數據挖掘

結合Hodoop雲計算基礎開發平台進行基礎平台搭建,選取用物聯網數據集為例,構成了物聯網感知層、傳輸層、數據層、數據挖掘服務層四部分模塊組成的平台,各模塊的實現思路與功能如下所示。

2.1物聯網感知層

物聯網感知層主要負責物聯網數據的採集,這一採集需要得到目標區域佈置的採集節點支持,那裏的採集節點主要由攝像頭、傳感器、其他儀器儀表組成,而由此構成的物聯網感知層無線傳感器網絡,便能夠將各採集點採集到的網絡數據彙集至節點,數據由此進行彙總儲存則能夠在傳輸層的支持下最終傳遞至雲平台的數據中心。

2.2傳輸層傳輸層

本質上屬於具備較高可靠性與高速性、較優無縫性特點的數據傳輸網絡,而基於Hodoop雲計算基礎開發平台構建的物聯網挖掘系統則結合傳感器網絡、有線網絡、無線網絡實現了數據傳輸網絡的構建,這就使得物聯網感知層所蒐集的信息能夠更快、更好的傳遞到雲計算數據中心,由此實現的更高質量互通互聯,則保證了系統中監測設備的網絡化高速數據傳輸得以實現。

2.3數據層

物聯網數據具備着異構性、海量性等特點,這就使得基於Hodoop雲計算基礎開發平台的物聯網數據挖掘系統對於物聯網數據的存儲與處理存在着較高要求,而在本文研究所構建的物聯網數據挖掘系統數據層中,該數據層主要由數據源轉換模塊與分佈式存儲模塊兩部分組成,其中前者主要負責物聯網異構數據的轉換,而後者則主要負責分佈式存儲物聯網所產生的海量數據,由此本文研究的物聯網挖掘系統的性能和可行性便得到了較好證實。值得注意的是,分佈式存儲模塊需要結合Hodoop雲計算基礎開發平台中的HDFS文件系統實現。物聯網中的不同對象往往會透過不同的數據類型進行表示,這就使得異構性勢必屬於物聯網的根本性特徵,一些相同對象使用不同數據表示便較為直觀説明了這一點,而這就使得物聯網對數據源轉換器有着較高需求。在本文構建的物聯網數據挖掘系統中,數據源轉換器在其中發揮着保護數據存儲完整、保證數據挖掘科學順利等功能,數據包解碼、數據的分佈式存儲也需要得到該轉化器的直接支持,這也是物聯網數據挖掘系統中各NameNode節點文件類型為PML的原因。PML能夠透過一種通用的方式進行物體描述,而作為基於XML建立的語言,PML在與XML相同核心思想的影響下,其便能夠在物品的詳細信息帶給、物品信息交換等

領域發揮不俗的功能。例如,在本文研究所構建的物聯網數據挖掘系統中,PML便在節點數據採集、傳輸、存儲過程中發揮着建模功能,相關建模信息所收錄的物體屬性信息、位置信息、環境信息、歷史元素等資料,便能夠保證物品信息實現較高質量的表達,這對於物聯網數據挖掘也將帶來較為用心影響。

2.4數據挖掘服務層

數據挖掘服務層能夠細分為數據準備模塊、數據挖掘引擎模塊、用户模塊三部分,三部分模塊的具體功用如下所示:

2.4.1數據準備模塊

主要負責物聯網蒐集數據的清理、變換、數據規約。

2.4.2數據挖掘引擎模塊

主要透過數據挖掘算法集、模式評估等功能為物聯網數據挖掘系統帶給服務,特徵、區分、關聯、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等能夠視作該模塊功能的具體組成,這些功能的實現得益於數據挖掘引擎模塊中的算法集,Hodoop雲計算基礎開發平台支持下實現的算法並行化處理則是該模塊功能實現的基礎。

2.4.3用户模塊

實現對數據挖掘知識的可視化表示。用户模塊是本文研究物聯網數據挖掘平台面向使用人員的部分,因此在設計中筆者注重了系統操作的友好性,簡單的數據挖掘任務開展、簡單獲得能夠被理解知識均屬於設計的優勢所在。值得注意的是,為了保證本文研究的物聯網數據挖掘系統具備較高的可移植性,設計人員在設計之初便為數據挖掘服務層底層模塊設計了開放接口,由此該物聯網數據挖掘系統的應用豐富性就能夠得到較好保障,表1對本文研究的物聯網數據挖掘系統組成進行了直觀展示。

3實驗驗證

3.1物聯網數據挖掘系統工作流程

基於Hodoop雲計算基礎開發平台的物聯網數據挖掘系統工作流程能夠概括為:“用户→主控節點→主控節點允許用户請求→主控節點調用數據挖掘算法→調用數據挖掘算法成功→準備物聯網數據→分佈式數據挖掘→將結果傳遞給用户”,而結合這一流程本文將圍繞以下幾部分開展具體的物聯網數據挖掘系統工作流程描述,具體描述如下:

3.1.1用户請求

在用户請求物聯網數據挖掘系統進行數據挖掘後,系統的主控節點將決定該任務是否能夠進行,而在確定能夠進行後系統將首先向用户傳遞能夠進行的信息,並隨後開始具體的數據挖掘。

3.1.2數據挖掘過程

在確定物聯網數據挖掘系統能夠進行數據挖掘後,系統的主控節點將有針對性的選取數據挖掘算法滿足用户需要,並結合MapReduce思想與Master/Slave結構進行數據挖掘任務的劃分。

3.1.3具體節點任務

在數據挖掘任務的劃分下,需要完成具體工作的節點將被分配任務,由此物聯網數據挖掘系統的具體數據處理便由此開展,同時JobTracker負責的調度和執行則將最後將數據挖掘結果傳遞給用户。

3.2實驗驗證

為了能夠直觀決定基於Hodoop雲計算基礎開發平台物聯網數據挖掘系統可行性和性能水平,明晰MapReduce數據挖掘算法在系統中發揮的作用,本文選取了結合Apriori算法開展實驗驗證的方法,實驗驗證的環境、過程、結果如下所示。

3.2.1實驗環境

實驗選取了4G內存、500G硬盤、Windows7系統的計算機作為實驗基礎,並在該計算機中透過虛擬機安裝部署了多個分佈式節點,其中共3個虛擬機中的一個為NameNodeLinux系統,其餘兩個則為DateNodeLinux系統。為了保證實驗質量與效率,筆者還在該計算機中安裝了專門用於Linux系統的Eclipse7.5集成開發環境,在Windows系統中安裝了SSHSecureShellClient、各個虛擬機操作系統中安裝了SSH服務,由此即可保證本文研究的基於Hodoop雲計算基礎開發平台物聯網數據挖掘系統的順利使用。

3.2.2實驗過程完成

實驗環境的搭建後,本文選取了一組用於關聯規則算法的實驗數據,並將該數據透過C++代碼編寫的程序透過關鍵字搜索方式轉換成立標準類型大小為1G的PML文件,在HDFS命令下該文件被放入Hadoop平台進行分佈式存儲,而在運行Java語言編寫的Apriori算法後,即可得到物聯網數據挖掘系統的運行結果,透過查看系統使用中是否找到了實驗數據集中的所有頻繁項集便能夠直觀決定其性能。值得注意的是,為了提升實驗的有效性,本文選取了不同大小的文件開展實驗,由此實現比較物聯網數據挖掘系統運行時間更深入瞭解其性能。

3.2.3實驗結果

表2對基於物聯網數據挖掘系統的實驗結果進行了直觀展示,結合該表不難發現,文件大小的提升直接導致物聯網數據挖掘系統運行時間的增長,這種增長存在典型的線性趨勢,而由於應用Apriori算法的物聯網數據挖掘系統實現了頻繁項集的發現,本文研究的基於Hodoop雲計算基礎開發平台物聯網數據挖掘系統的擴展性便得到了較為直觀展現,其所具備的物聯網海量數據挖掘潛力也得到了較好證實。

4結論

綜上所述,雲計算平台能夠較好服務於物聯網的數據挖掘。而在此基礎上,本文研究所提出了完善性與科學性較高的基於Hodoop雲計算基礎開發平台物聯網數據挖掘系統,便直觀證明了全文的實踐價值。因此,在相關領域的理論研究與實踐探索中,本文資料便能夠發揮必須參考作用。

參考文獻

[1]湯勇峯.基於雲計算平台的物聯網數據挖掘研究[J].電腦知識與技術,2017,1307:218-219.

[2]陳俊麗.基於雲計算平台的物聯網數據挖掘研究[J].中國新通信,2016,1821:74-75.

[3]武桂雲.基於hadoop平台的分佈式數據挖掘系統研究與設計[D].天津大學,2012.

[4]林昕.基於雲計算的大數據挖掘平台構建研究[J].山東工業技術,2015(17):104.

篇7:數據挖掘論文

題目:數據挖掘技術在神經根型頸椎病方劑研究中的優勢及應用進展

關鍵詞:數據挖掘技術;神經根型頸椎病;方劑;綜述;

1數據挖掘技術簡介

數據挖掘技術[1](KnowledgeDiscoveryinDatebase,KKD),是一種新興的信息處理技術,它融匯了人工智能、模式別、模糊數學、數據庫、數理統計等多種技術方法,專門用於海量數據的處理,從超多的、不完全的、有噪聲的、模糊的、隨機的數據集中,提取隱含在其中的、人們事先不明白的、但又是潛在的有用的信息和知識,其目的是發現規律而不是驗證假設。數據挖掘技術主要適用於龐大的數據庫的研究,其特點在於:基於數據分析方法角度的分類,其本質屬於觀察性研究,數據來源於日常診療工作資料,應用的技術較傳統研究更先進,分析工具、理論模型與傳統研究區別較大。其操作步驟包括[2]:選取數據,數據處理,挖掘分析,結果解釋,其中結果解釋是數據挖掘技術研究的關鍵。其方法包括分類、聚類、關聯、序列、決策樹、貝斯網絡、因子、辨別等分析[3],其結果通常表示為概念、規則、規律、模式、約束、可視化等形式圖[4]。當今數據挖掘技術的方向主要在於:特定數據挖掘,高效挖掘算法,提高結果的有效性、確定性和表達性,結果的可視化,多抽象層上的交互式數據挖掘,多元數據挖掘及數據的安全性和保密性。因其優勢和獨特性被運用於多個領域中,且結果運用後取得顯着成效,因此越來越多的中醫方劑研究者將其運用於

方劑中藥物的研究。

2數據挖掘術在神經根型頸椎病治方研究中的優勢

中醫對於神經根型頸椎病的治療準則為辨證論治,從古至今神經根型頸椎病的中醫證型有很多,其治方是集中醫之理、法、方、藥為一體的數據集合,具有以“方-藥-證”為核心的多維結構。方劑配伍本質上表現為方與方、方與藥、藥與藥、藥與劑量,以及方藥與證、病、症交叉錯綜的關聯與對應[5],而中醫方劑講究君臣佐使的配伍,藥物有升降沉浮,四氣五味及歸經之別,對於神經根型頸椎病的治療,治方中藥物的種類、炮製方法、用量、用法等都是千變萬化的,而這些海量、模糊、看似隨機的藥物背後隱藏着對臨牀有用的信息和規律,但這些大數據是無法在可承受的時間範圍內可用常規軟件工具進行捕捉、管理和處理的,是需要一個新處理模式才能具有更強的決策力、洞察力和流程優化潛力,而數據挖掘技術有可能從這些海量的的數據中發現新知識,揭示背後隱藏的關係和規則,並且對未知的狀況進行預測[6]。再者,中醫辨治充滿非線性思維,“方-藥-證”間的多層關聯、序列組合、集羣對應,構成了整體論的思維方式和原則,而數據挖掘技術數據挖掘在技術線路上與傳統數據處理方法不同在於其能對數據庫內的數據以線性和非線性方式解析,尤善處理模糊的、非量化的數據。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出症的用藥

規律時,選取了100張治方,因該病病因病機複雜,證候不一,骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數據庫,採用SPPSClementine12.0軟件對這些數據的用藥頻次、藥物關聯規則及藥物聚類進行分析,最後總結出張氏骨傷治療腰椎間盤突出症遵循病從肝治、病從血治、標本兼治的原則,也歸納出治療三種不同證型的腰突症的三類自擬方。由此看出數據挖掘技術在方劑研究中的應用對數據背後信息、規律等的挖掘及名家經驗的推廣具有重大好處,因此數據挖掘技術在神經根型頸椎病的治方研究中也同樣發揮着巨大的作用。

3數據挖掘技術在神經根型頸椎治方中的應用進展

神經根型頸椎病在所有頸椎病中最常見,約佔50%~60%[8],醫家對其治方的研究也是不計其數。近年來數據挖掘技術也被運用於其治方研究中,筆者透過萬方、中國知網等總共檢索出以下幾篇文獻,雖數量不多但其優勢明顯。劉向前等[9]在挖掘古方治療神經根型頸椎病的用藥規律時,透過檢索《中華醫典》並從中篩選以治療頸項肩臂痛為主的古方219首並建立數據庫,對不同證治古方的用藥類別、總味數、單味藥使用頻數及藥對(組)出現頻數進行統計,總結出風寒濕痺證、痰濕阻痺證、寒濕阻滯證、正虛不足證的用藥特點,得出解表藥、祛風濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用,該研究對於現代醫家在治療該病中有很好的借鑑和參考好處。齊兵獻等[10]檢索CNKI(1980-2009年)相關文獻中治療神經根型頸椎病的方劑建立數據庫,採用SPSS11.5統計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經頻率分析比較,治療神經根型頸椎病的中藥共計99味,使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風濕藥運用最多,其中藥味以辛、苦為主,藥性以温、寒為主,歸經以肝、脾、心為主,而本病以肝腎虧虛,氣血瘀滯為主,臨牀以補益藥、活血化瘀藥、祛風濕藥等中藥運用最多。這對於醫家

治療該病選用藥物的性味、歸經等具有指導好處。陳元川等[11]檢索2004年1月至2013年3月發表的以單純口服中藥治療神經根型頸椎病的有關文獻,對其中的方劑和藥物進行統計、歸類、分析,最終納入32首方劑,涉及111味中藥,補氣藥、發散風寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高,證實與古方桂枝加葛根湯主藥相同,且該方扶陽解表的治法與該研究得出的扶正祛邪的結果相吻合,同時也證實石氏傷科強調治傷科病當“以氣為主,以血為先”等正確性。所以大數據背後的規律和關係在很多方面古今是一致的,同時數據依據的支持也為現代神經根型頸椎病治療帶給有力的保障。謝輝等[12]收集2009至2014年10月3日的166張治療神經根型頸椎病的治方建立數據庫,採用關聯規則算法、複雜系統熵聚類等無監督數據挖掘方法,利用中醫傳承輔助平台(TCMISS)軟件分析處方中各種藥物的使用頻次、藥物之間的關聯規則、核心藥物組合和新處方,從中挖掘出治療該病中醫中的常用藥物、藥對,闡明瞭治療該病以解肌散寒藥、補氣活血藥、祛風勝濕藥和温經通絡藥為主,治法主要包括解肌舒筋、益氣活血和補益肝腎,這一方面很清晰明瞭地展示了藥物使用頻率、藥物之間的聯繫,證實其與很多古代

經典中治療神經根型頸椎病的治則、治法及用藥規律是吻合的,是臨牀用藥的積累和昇華,可有效地指導臨牀並提高療效;另一方面也為中藥新藥的創制帶給處方來源,指導新藥研發[13]。

4小結

數據挖掘技術作為一種新型的研究技術,在神經根型頸椎病的治方研究中的運用相對於其他領域是偏少的,並且基本上是研究文獻資料上出現的治方,在對名老中醫個人治療經驗及用藥規律的總結是缺乏的,因此研究範圍廣而缺乏針對性,同時使用該技術的相關軟件種類往往是單一的。此刻研究者在研究中醫方劑時往往採用傳統的研究方法,這就導致在大數據的研究中耗時、耗力甚則無能為力,同樣也難以精準地提取大數據背後的隱藏的潛在關係和規則及缺乏對未知狀況的預測。產生這樣的現狀,一方面是很多研究者尚未清楚該技術在方劑研究中的優勢所在,思維模式尚未更新;另一方面是很多研究者尚未清楚該技術的操作技能及軟件種類及其應用範圍。故以後應向更多研究者普及該技術的軟件種類、其中的優勢及操作技能,讓該技術在臨牀中使用更廣,產生更大的效益。

參考文獻

[1]舒正渝.淺談數據挖掘技術及應用[J].中國西部科技,2010,9(5):38-39.

[2]曹毅,季聰華.臨牀科研設計與分析[M].杭州:浙江科學技術出版社,2015:189.

[3]王靜,崔蒙.數據挖掘技術在中醫方劑學研究中的應用[J].中國中醫藥信息雜誌,2008,15(3):103-104.

[4]陳丈偉.數據倉庫與數據挖掘[M].北京:清華大學出版社,2006:5.

[5]楊玉珠.數據挖掘技術綜述與應用[J].河南科技,2014,10(19):21.

[6]餘侃侃.數據挖掘技術在方劑配伍中的研究現狀及研究方法[J].中國醫藥指南,2008,6(24):310-312.

[7]趙睿曦.方證數據挖掘分析張氏骨傷對腰椎間盤突出症的辨證用藥規律[J].陝西中醫藥大學學報,2016,39(6):44-46.

[8]李曙明,尹戰海,王瑩.神經根型頸椎病的影像學特點和分型[J].中國矯形外科雜誌,2013,21(1):7-11.

[9]劉向前,陳民,黃廣平等.頸項肩臂痛內治古方常用藥物的統計分析[J].中華中醫藥學刊,2012,30(9):42-44.

[10]齊兵獻,樊成虎,李兆和.神經根型頸椎病中醫用藥規律的文獻研究[J].河南中醫,2012,32(4):518-519.

[11]陳元川,王翔,龐堅,等.單純口服中藥治療神經根型頸椎病用藥分析[J].上海中醫藥雜誌,2014,48(6):78-80.

[12]謝輝,劉軍,潘建科,等.基於數據挖掘方法的神經根型頸椎病用藥規律研究[J].世界中西醫結合雜誌,2015,10(6):849-852.

[13]唐仕歡,楊洪軍.中醫組方用藥規律研究進展述評[J].中國實驗方劑學雜誌,2013(5):359-363.

篇8:數據挖掘論文

關於計算機Web數據及其在電子商務中的應用探析

論文摘要:目前計算機Web數據挖掘技術被廣泛應用於電子商務活動,它是隨着網絡技術和數據庫技術的快速發展而出現的一種新技術,已成為現代電子商務企業獲取市場信息極為重要的工具。介紹了Web數據挖掘的含義、特徵及類別,重點探究了計算機Web數據挖掘技術在電子商務中的幾種典型應用。

論文關鍵詞:數據挖掘;電子商務;Web數據挖掘

1引言

當前,隨着網絡技術的發展和數據庫技術的迅猛發展,有效推動了商務活動由傳統活動向電子商務變革。電子商務就是利用計算機和網絡技術以及遠程通信技術,實現整個商務活動的電子化、數字化和網絡化。基於Internet的電子商務快速發展,使現代企業積累了超多的數據,這些數據不僅僅能給企業帶來更多有用信息,同時還使其他現代企業管理者能夠及時準確的蒐集到超多的數據。訪問客户帶給更多更優質的服務,成為電子商務成敗的關鍵因素,因而受到現代電子商務經營者的高度關注,這也對計算機web數據技術提出了新的要求,Web數據挖掘技術應運而生。它是一種能夠從網上獲取超多數據,並能有效地提取有用信息供企業決策者分析參考,以便科學合理制定和調整營銷策略,為客户帶給動態、個性化、高效率服務的全新技術。目前,它已成為電子商務活動中不可或缺的重要載體。

2計算機web數據挖掘概述

2.1計算機web數據挖掘的由來

計算機Web數據挖掘是一個在Web資源上將對自己有用的數據信息進行篩選的過程。Web數據挖掘是把傳統的數據挖掘思想和方法移植到Web應用中,即從現有的Web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數據信息。計算機Web數據挖掘能夠在多領域中展示其作用,目前已被廣泛應用於數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。

2.2計算機Web數據挖掘含義及特徵

(1)Web數據挖掘的含義。

Web數據挖掘是指數據挖掘技術在Web環境下的應用,是一項數據挖掘技術與WWW技術相結合產生的新技術,綜合運用到了計算機語言、Internet、人工智能、統計學、信息學等多個領域的技術。具體説,就是透過充分利用網絡(Internet),挖掘用户訪問日誌文件、商品信息、搜索信息、購銷信息以及網絡用户登記信息等資料,從中找出隱性的、潛在有用的和有價值的信息,最後再用於企業管理和商業決策。

(2)Web數據挖掘的特點。

計算機Web數據挖掘技術具有以下特點:一是用户不用帶給主觀的評價信息;二是用户“訪問模式動態獲取”不會過時;三是能夠處理大規模的數據量,並且使用方便;四是與傳統數據庫和數據倉庫相比,Web是一個巨大、分佈廣泛、全球性的信息服務中心。

(3)計算機web數據挖掘技術的類別。

web數據挖掘技術共有三類:第一類是Web使用記錄挖掘。就是透過網絡對Web日誌記錄進行挖掘,查找用户訪問Web頁面的模式及潛在客户等信息,以此提高其站點所有服務的競爭力。第二類是Web資料挖掘。既是指從Web文檔中抽取知識的過程。第三類是Web結構挖掘。就是透過對Web上超多文檔集合的資料進行小結、聚類、關聯分析的方式,從Web文檔的組織結構和鏈接關係中預測相關信息和知識。

3計算機web數據挖掘技術與電子商務的關係

藉助計算機技術和網絡技術的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業和個人的關注。隨着電子商務企業業務規模的不斷擴大,電子商務企業的商品和客户數量也隨之迅速增加,電子商務企業以此獲得了超多的數據,這些數據正成為了電子商務企業客户管理和銷售管理的重要信息。為了更好地開發和利用這些數據資源,以便給企業和客户帶來更多的便利和實惠,各種數據挖掘技術也逐漸被應用到電子商務網站中。目前,基於數據挖掘(個性是web數據挖掘)技術構建的電子商務推薦系統正成為電子商務推薦系統發展的一種趨勢。

4計算機web數據挖掘在電子商務中的具體應用

(1)電子商務中的web數據挖掘的過程。

在電子商務中,web數據挖掘的過程主要有以下三個階段:既是數據準備階段、數據挖掘操作階段、結果表達和解釋階段。如果在結果表達階段中,分析結果不能讓電子商務企業的決策者滿意,就需要重複上述過程,直到滿意為止。

(2)Web數據挖掘技術在電子商務中的應用。

目前,電子商務在企業中得到廣泛應用,極大地促進了電子商務網站的興起,經過分析必須時期內站點上的用户的訪問信息,便可發現該商務站點上潛在的客户羣體、相關頁面、聚類客户等數據信息,企業信息系統因此會獲得超多的數據,如此多的數據使Web數據挖掘有了豐富的數據基礎,使它在各種商業領域有着更加重要的實用價值。因而,電子商務必將是未來Web數據挖掘的主攻方向。Web數據挖掘技術在電子商務中的應用主要包含以下幾方面:

一是尋找潛在客户。電子商務活動中,企業的銷售商能夠利用分類技術在Internet上找到潛在客户,透過挖掘Web日誌記錄等信息資源,對訪問者進行分類,尋找訪問客户共同的特徵和規律,然後從已經存在的分類中找到潛在的客户。

二是留住訪問客户。電子商務企業透過商務網站能夠充分挖掘客户瀏覽訪問時留下的信息,瞭解客户的瀏覽行為,然後根據客户不同的愛好和要求,及時做出讓訪問客户滿意的頁面推薦和專屬性產品,以此來不斷提高網站訪問的滿意度,最大限度延長客户駐留的時間,實現留住老客户發掘新客户的目的。

三是帶給營銷策略參考。透過Web數據挖掘,電子商務企業銷售商能夠透過挖掘商品訪問狀況和銷售狀況,同時結合市場的變化狀況,透過聚類分析的方法,推導出客户訪問的規律,不同的消費需求以及消費產品的生命週期等狀況,為決策帶給及時而準確的信息參考,以便決策者能夠適時做出商品銷售策略調整,優化商品營銷。

四是完善商務網站設計。電子商務網站站點設計者能夠利用關聯規則,來了解客户的行為記錄和反饋狀況,並以此作為改善網站的依據,不斷對網站的組織結構進行優化來方便客户訪問,不斷提高網站的點擊率。

5結語

本文對Web挖掘技術進行了綜述,講述了其在電子商務中廣泛應用。能夠看出,隨着計算機技術和數據庫技術快速發展,計算機Web數據技術的應用將更加廣泛,Web數據挖掘也將成為十分重要的研究領域,研究前景巨大、好處深遠。目前,我國的Web數據應用還處於探索和起步階段,還有許多問題值得深入研究。

篇9:數據挖掘論文

題目:軟件工程數據挖掘研究進展

摘要:數據挖掘是指在大數據中開發出有價值信息數據的過程。計算機技術的不斷進步,透過人工的方式進行軟件的開發與維護難度較大。而數據挖掘能夠有效的提升軟件開發的效率,並能夠在超多的數據中獲得有效的數據。文章主要探究軟件工程中數據挖掘技術的任務和存在的問題,並重點論述軟件開發過程中出現的問題和相關的解決措施。

關鍵詞:軟件工程;數據挖掘;解決措施;

在軟件開發過程中,為了能夠獲得更加準確的數據資源,軟件的研發人員就需要蒐集和整理數據。但是在大數據時代,人工獲取數據信息的難度極大。當前,軟件工程中運用最多的就是數據挖掘技術。軟件挖掘技術是傳統數據挖掘技術在軟件工程方向的其中一部分。但是它具有自身的特徵,體此刻以下三個方面:

(1)在軟件工程中,對有效數據的挖掘和處理;

(2)挖掘數據算法的選取問題;

(3)軟件的開發者該如何選取數據。

1在軟件工程中數據挖掘的主要任務

在數據挖掘技術中,軟件工程數據挖掘是其中之一,其挖掘的過程與傳統數據的挖掘無異。通常包括三個階段:第一階段,數據的預處理;第二階段,數據的挖掘;第三階段,對結果的評估。第一階段的主要任務有對數據的分類、對異常數據的檢測以及整理和提取複雜信息等。雖然軟件工程的數據挖掘和傳統的數據挖掘存在相似性,但是也存在必須的差異,其主要體此刻以下三個方面:

1.1軟件工程的數據更加複雜

軟件工程數據主要包括兩種,一種是軟件報告,另外一種是軟件的版本信息。當然還包括一些軟件代碼和註釋在內的非結構化數據信息。這兩種軟件工程數據的算法是不同的,但是兩者之間又有必須的聯繫,這也是軟件工程數據挖掘複雜性的重要原因。

1.2數據分析結果的表現更加特殊

傳統的數據挖掘結果能夠透過很多種結果展示出來,最常見的有報表和文字的方式。但是對於軟件工程的數據挖掘來講,它最主要的職能是給軟件的研發人員帶給更加精準的案例,軟件漏洞的實際定位以及設計構造方面的信息,同時也包括數據挖掘的統計結果。所以這就要求軟件工程的數據挖掘需要更加先進的結果提交方式和途徑。

1.3對數據挖掘結果難以達成一致的評價

我國傳統的數據挖掘已經初步構成統一的評價標準,而且評價體系相對成熟。但是軟件工程的數據挖掘過程中,研發人員需要更多複雜而又具體的數據信息,所以數據的表示方法也相對多樣化,數據之間難以進行比較,所以也就難以達成一致的評價標準和結果。不難看出,軟件工程數據挖掘的關鍵在於對挖掘數據的預處理和對數據結果的表示方法。

2軟件工程研發階段出現的問題和解決措施

軟件在研發階段主要的任務是對軟件運行程序的編寫。以下是軟件在編碼和結果的提交過程中出現的問題和相應的解決措施。

2.1對軟件代碼的編寫過程

該過程需要軟件的研發人員能夠對自己需要編寫的代碼結構與功能有充分的瞭解和認識。並能夠依據自身掌握的信息,在數據庫中搜集到能夠使用的數據信息。通常狀況下,編程需要的數據信息能夠分為三個方面:

(1)軟件的研發人員能夠在已經存在的代碼中搜集能夠重新使用的代碼;

(2)軟件的研發人員能夠搜尋能夠重用的靜態規則,比如繼承關係等。

(3)軟件的開發人員搜尋能夠重用的動態規則。

包括軟件的接口調用順序等。在尋找以上信息的過程中,通常是利用軟件的幫忙文檔、尋求外界幫忙和蒐集代碼的方式實現,但是以上方式在蒐集信息過程中往往會遇到較多的問題,比如:幫忙文檔的準確性較低,同時不夠完整,可利用的重用信息不多等。

2.2對軟件代碼的重用

在對軟件代碼重用過程中,最關鍵的問題是軟件的研發人員務必掌握需要的類或方法,並能夠透過與之有聯繫的代碼實現代碼的重用。但是這種方式哦足跡信息將會耗費工作人員超多的精力。而透過關鍵詞在代碼庫中搜集可重用的軟件代碼,同時按照代碼的相關度對蒐集到的代碼進行排序,該過程使用的原理就是可重用的代碼必然模式基本類似,最終所展現出來的搜索結果是以上下文結構的方式展現的。比如:類與類之間的聯繫。其實現的具體流程如下:

(1)軟件的開發人員建立同時具備例程和上下文架構的代碼庫;

(2)軟件的研發人員能夠向代碼庫帶給類的相關信息,然後對反饋的結果進行評估,建立新型的代碼庫。

(3)未來的研發人員在蒐集過程中能夠按照評估結果的高低排序,便於查詢,極大地縮減工作人員的任務量,提升其工作效率。

2.3對動態規則的重用

軟件工程領域內對動態規則重用的研究已經相對成熟,透過在編譯器內安裝特定插件的方式檢驗代碼是否為動態規則最適用的,並能夠將不適合的規則反饋給軟件的研發人員。其操作流程為:

(1)軟件的研發人員能夠規定動態規則的順序,主要表此刻:使用某一函數是不能夠調用其他的函數。

(2)實現對相關數據的保存,能夠透過隊列等簡單的數據結構完成。在利用編譯拓展中檢測其中的順序。

(3)能夠將錯誤的信息反饋給軟件的研發人員。

3結束語

在軟件工程的數據挖掘過程中,數據挖掘的概念才逐步被定義,但是所需要挖掘的數據是已經存在的。數據挖掘技術在軟件工程中的運用能夠降低研發人員的工作量,同時軟件工程與數據挖掘的結合是計算機技術必然的發展方向。從數據挖掘的過程來講,在其整個實施過程和週期中都包括軟件工程。而對數據挖掘的技術手段來講,它在軟件工程中的運用更加普遍。在對數據挖掘技術的研究過程中能夠發現,該技術雖然已經獲得必須的效果,但是還有更多未被挖掘的空間,還需要進一步的研究和發現。

參考文獻

[1]王藝蓉.試析面向軟件工程數據挖掘的開發測試技術[J].電子技術與軟件工程,2017(18):64.

[2]吳彥博.軟件工程中數據挖掘技術的運用探索[J].數字通信世界,2017(09):187.

[3]周雨辰.數據挖掘技術在軟件工程中的應用研究[J].電腦迷,2017(08):27-28.

[4]劉桂林.分析軟件工程中數據挖掘技術的應用方式[J].中國新通信,2017,19(13):119.

篇10:數據挖掘論文

數據挖掘在電力調度自動化系統的應用

摘要:電力調度自動化系統主要是被應用在線調度生產運行中,能夠對數據信息進行分析、控制、傳輸。數據挖掘技術作為一種人工智能和數據庫技術結合的新型技術形式,將其應用到電力調度自動化系統中能夠有效解決電力調動自動化系統數據信息應用不合理的問題。文章在闡述數據挖掘和電力調度自動化系統內涵的基礎上,結合蟻羣算法改善原有周期性數據挖掘方法,旨在進一步提升電力調度自動化系統運行速度,為相關人員的報表制定、事故預警帶給幫忙。

關鍵詞:數據挖掘;電力調度自動化系統;應用

在大數據技術的不斷髮展下,人們對數據信息的需求增加,但是現階段社會發展中缺乏對數據信息進行有效分析、處理的工具。數據庫系統也僅僅是對數據信息的簡單處理,無法充分挖掘數據信息背後的隱藏信息,因而無法發揮出數據信息在人類社會發展中的重要作用。電力調度自動化系統中包含超多電力數據信息,但是在實際應用中這些信息是很難被完全挖掘出來的。數據挖掘的出現有效解決了信息無法充分挖掘的問題,能夠實現對噪聲數據、不完全數據的有效處理。在數據挖掘中,關聯規則數據是數據挖掘的重要課題,透過關聯規則能夠發現不同數據庫數據信息之間的關聯,為數據挖掘帶給有力支持。為此,文章重點分析基於關聯規則的數據挖掘在電力調度自動化系統中的應用。

1數據挖掘概述

1.1內涵和分類

在信息技術的發展下,我國數據庫庫存容量急劇擴張,在龐大的數據信息中怎樣獲取有效的數據信息成為相關人員重點思考的問題。數據挖掘能夠從技術層面來分析、處理這些數據信息,透過各種分析工具的利用來找到數據信息和模型構建之間的關聯,為相關領域的發展帶給重要決策支持。在信息挖掘技術的發展下,出現了不同類型的數據挖掘技術和方法。

1.2關聯規則挖掘

關聯規則挖掘是數據挖掘的重要分支,是常見的數據挖掘方法,主要是對超多數據之間關聯問題的發現和分析,在找到數據聯繫之後決定哪些事件能夠一齊發生。數據庫中的關聯規則描述如下所示:假設I={i1、}是由m個不同項目組合構成的集合,項的集合是項集,包括k個項集,給定事務D(交易數據庫),事務(交易)T從屬於數據項(I),T是唯一的標示符。在X屬於T的時候,交易T則是包含項集X,關聯規則X=Y在交易數據庫中成立。

2電力調度自動化系統概述

2.1內涵

電力調度自動化系統能夠為電網系統安全、穩定運行帶給重要支持,併為相關電力人員工作、決策帶給有力信息的支持。電力調度自動化系統的組成如下所示:第一,前置機。前置機能夠從RTU從完成數據信息的收集整理工作,並能夠結合實際對系統的指令進行接收、解釋。第二,主備用服務器。主備泳服務器包括數據庫和實時庫服務器,是電力調度系統的重要組成部件,能夠對系統各個工作站的運行進行監督。第三,網絡服務器。網絡服務器主要是對數據信息分佈和數據表整理工作的監督。第四,衞星鐘。衞星鐘系統將全球定位時間作為系統時間。第五,物理隔離開關。物理隔離開關能夠解決數據的隔離應用問題。

2.2電力調度自動化系統對數據挖掘技術的需求

電力導調度自動化系統對數據挖掘技術的需求具體表此刻以下幾個方面:第一,透過數據挖掘技術減少電力調度自動化系統的工作時間,提高工作效率。第二,數據挖掘能夠提高數據挖掘技術的管理應用水平,減少外界因素對電力調度自動化的干擾。第三,能夠從不同角度對數據信息進行定量、定性分析。第四,為電網報告的分析和制定帶給輔助支持。第五,實現了對數據信息的及時查詢,為電力調度自動化工作帶給了支持。

3基於蟻羣算法的週期性關聯規則數據挖掘

3.1週期關聯規則

週期性關聯規則挖掘是時態約束關聯規則的一種,適用於對週期性關聯的發現層面,比如每年夏季城市居民用電量的均值比其他季節高,城市居民週末用電量平均值比其他週末時間高等。

3.2蟻羣算法

螞蟻的羣體行為表現出一種信息正反饋現象,蟻羣算法由轉移規則和信息素更新規則組成,具體能夠描述成:假設平面上有n個城市,n個城市的TSP問題來找到n個城市的最短路徑。假設蟻羣系統中螞蟻的數量是m、d(i,j=1,2,…,n),代表的是城市i到城市j之間的距離,b(t)表示t時刻位於城市i的螞蟻個數。在初始階段,各個線路上的信息量是對等的,假設τij(0)=c,螞蟻k在運動的過程中根據信息量來選取下一步所走的方向,t時刻螞蟻k由城市i轉移到城市j的概率表示如(1)所示。

3.3基於蟻羣算法的週期性關聯規則

假設T1、T2,Tmin為系統時間定義單位組成的時間表達式,都比零大,假設T1<T2,差的絕對值比極小時間值的小,稱作T1在T2之前發生。如果T1=T2,差的絕對值和極小時間值相等,則是説明T1和T2同時發生。假設T1,T2是系統時間定義單位組成的時間表達式,都比零大,int=[T1、T2]是T1到T2的時間隔。基於蟻羣算法的週期性關聯規則操作首先需要對數據集進行分類整理,在時間差表滿足數據庫要求的狀況下將數據集按照時間分成多個分塊,並按照時態屬性進行升序排列,結合每個類別進行週期性關聯規則挖掘,構成多個數據集。其次,對各個分類數據集進行週期性數據挖掘分析、改善。最後,對週期性數據集挖掘的改善。對數據信息進行排列整理,如果兩個週期性序列相交,以週期小的為主,在數據的時間跨度內對數據的子集進行截取。

4數據挖掘在電力調度自動化系統中的應用

4.1基於週期性關聯規則挖掘的數據分析系統平台

在社會經濟的發展下,電力調度自動化系統從原先的實時性監控報表查詢系統轉變為智能調度自動化系統,高級應用軟件的應用促進了電力調度系統朝着智能化的方向發展。基於週期性關聯規則挖掘的數據分析系統平台選取微軟的平台,在該平台的支持下為電力調度系統運行帶給了豐富數據資源的支持,且具備強大的數據庫訪問潛力。

4.2基於數據橋的數據集成模塊設計

在電力調度自動化系統的應用中存在多個標準,這些標準對分佈式電力系統發展起到了重要作用,但是在各個數據集成規約不同的影響下,電力企業發展容易出現信息混亂的現象。為了避免這種現象的發生,在數據集成模塊中需要進行數據清洗操作。

4.3數據分析功能模塊設計

第一,同期數據分析模塊。同期數據分析模塊一般被人們用在調度自動化數據系統的橫縱向比較,透過對同期數據的比對分析能夠為電力調度系統數據評估帶給更多便利。同期比較分析模塊應用了動態生成查詢語句,能夠對數據信息進行動態化的查詢和分析整理。第二,週期性數據分析。週期性數據分析主要是在數據庫系統中挖掘具有周期性特點的數據集,從而對數據波動狀況進行清晰的反應。在週期性數據分析模塊挖掘算法中存在一個最小時間的誤差參數,這參數是週期數據集的基礎數據,影響週期性數據分析的精確度。第三,數據預警分析。數據預警主要是結合現有的調度自動化系統報警信息和數據挖掘週期數據集來對關聯數據進行分析,數據分析系統採取了有限權值分配的方法,預警列表按照預警信息的大小進行有序排列,具體包含報警週期性數據集、預警信息週期性數據集大小、預警模式等資料。

5結束語

綜上所述,文章在闡述數據挖掘內涵和電力調度自動化系統內涵的基礎上研究了週期性關聯規則的數據挖掘算法知識,並將其應用到電力調度自動化系統中,取得了良好的效果。週期性關聯規則算法是數據挖掘技術的主流發展方向,在從歷史數據中尋找規律的同時能夠為電力調度自動化系統運行帶給支持,需要引起相關人員的重視。

參考文獻:

[1]肖福明.淺析數據挖掘在電力調度自動化系統中的應用[J].通訊世界,2014(17):58-59.

[2]李陽.數據挖掘在電力調度自動化系統中的應用[D].華北電力大學(河北),2009.

[3]朱維佳,曹堅.電力調度自動化系統中數據挖掘技術的應用[J].電氣時代,2015(07):108-111.

[4]於存水.基於智能電網調度系統的調度監控平台的設計與實現[D].吉林大學,2013.

[5]李豔.關於數據挖掘中關聯規則算法的相關問題研究[J].科技創新與應用,2017(33):161+163.

【小編簡評】

數據挖掘論文 (優選10篇)如果還不能滿足你的要求,請在本站搜索更多其他數據挖掘論文範文。

【網友評價】

對實際工作具有指導意義。

  • 文章版權屬於文章作者所有,轉載請註明 https://wenfanwang.com/muban/jingxuan/yryny.html
專題