當前位置:文範網 >

論文模板 >論文模板精選 >

資料探勘論文 (優選10篇)

資料探勘論文 (優選10篇)

【導語】

資料探勘論文 (優選10篇)

資料探勘論文 (優選10篇) 由本站會員“zhangjun”整理投稿精心推薦,小編希望對你的學習工作能帶來參考借鑑作用。

【目錄】

篇1:資料探勘論文篇2:資料探勘論文篇3:資料探勘論文篇4:資料探勘論文篇5:資料探勘論文篇6:資料探勘論文篇7:資料探勘論文篇8:資料探勘論文篇9:資料探勘論文篇10:資料探勘論文

【正文】

篇1:資料探勘論文

題目:檔案資訊管理系統中的計算機資料探勘技術探討

摘要:伴隨著計算機技術的不斷進步和發展,資料探勘技術成為資料處理工作中的重點技術,能借助相關演算法搜尋相關資訊,在節省人力資本的同時,提高資料檢索的實際效率,基於此,被廣泛應用在資料密集型行業中。筆者簡要分析了計算機資料探勘技術,並集中闡釋了檔案資訊管理系統計算機資料倉庫的建立和技術實現過程,以供參考。

關鍵詞:檔案資訊管理系統;計算機;資料探勘技術;

1資料探勘技術概述

資料探勘技術就是指在超多隨機資料中提取隱含資訊,並且將其整合後應用在知識處理體系的技術過程。若是從技術層面判定資料探勘技術,則需要將其劃分在商業資料處理技術中,整合商業資料提取和轉化機制,並且建構更加系統化的分析模型和處理機制,從根本上優化商業決策。藉助資料探勘技術能建構完整的資料倉庫,滿足整合性、時變性以及非易失性等需求,整和資料處理和冗餘引數,確保技術框架結構的完整性。

目前,資料探勘技術常用的工具,如SAS企業的EnterpriseMiner、IBM企業的IntellientMiner以及SPSS企業的Clementine等應用都十分廣泛。企業在實際工作過程中,往往會利用資料來源和資料預處理工具進行資料定型和更新管理,並且應用聚類分析模組、決策樹分析模組以及關聯分析演算法等,藉助資料探勘技術對相關資料進行處理。

2檔案資訊管理系統計算機資料倉庫的建立

2.1客戶需求單元

為了充分發揮檔案資訊管理系統的優勢,要結合客戶的實際需求建立完整的處理框架體系。在資料庫體系建立中,要適應迭代式處理特徵,並且從使用者需求出發整合資料模型,保證其建立過程能按照整體規劃有序進行,且能按照目標和分析框架引數完成操作。首先,要確立基礎性的資料倉庫物件,由於是檔案資訊管理,因此,要集中劃分檔案資料分析的主題,並且有效錄入檔案資訊,確保滿足檔案的資料分析需求。其次,要對日常工作中的使用者資料進行集中的挖掘處理,從根本上提高資料倉庫分析的完整性。

(1)確定資料倉庫的基礎性使用者,其中,主要包括檔案工作人員和使用人員,結合不同人員的工作需求建立相應的資料倉庫。

(2)檔案工作要利用資料分析和檔案使用者特徵分析進行分類描述。

(3)確定檔案的基礎性分類主題,一般而言,要將文書檔案歸檔狀況、卷數等基礎性資訊作為分類依據。

2.2資料庫設計單元

在設計過程中,要針對不同維度建立相應的引數體系和組成結構,並且有效整合組成事實表的主鍵專案,建立框架結構。

第一,建立事實表。事實表是資料模型的核心單元,主要是記錄相關業務和統計資料的表,能整合資料倉庫中的資訊單元,並且提升多維空間處理效果,確保資料儲存過程切實有效。(1)檔案管理中文書檔案目錄卷數事實表:事實表主鍵,欄位型別Int,欄位為Id;文書歸檔年份,欄位型別Int,欄位為Gdyear_key;文書歸檔型別,欄位型別Int,欄位為Ajtm_key;文書歸檔單位,欄位型別Int,欄位為Gddw_key;文書檔案生成年份,欄位型別Int,欄位為Ajscsj_key,以及文書檔案包括的檔案數目。(2)檔案管理中文書檔案卷數事實表:事實表主鍵,欄位型別Int,欄位為Id;文書歸檔利用日期,欄位型別Int,欄位為Date_key;文書歸檔利用單位,欄位型別Int,欄位為Dw_key;文書歸檔利用類別,欄位型別Int,欄位為Dalb_key;文書歸檔利用年份,欄位型別Int,欄位為Dayear_key等[1]。

第二,建立維度表,在實際資料倉庫建立和運維工作中,提高資料管理效果和水平,確保建立迴圈和反饋的系統框架體系,並且處理增長過程和完善過程,有效實現資料庫模型設計以及相關維護操作。首先,要對模式的基礎性維度進行分析並且製作相應的表,主要包括檔案年度維表、利用方式維表等。其次,要建構資料庫星型模型體系。最後,要集中判定資料庫工具,保證資料庫平臺在客戶管理工作方面具備必須的優勢,集中制訂商務智慧解決方案,保證整合環境的穩定性和資料倉庫建模的效果,真正提高資料抽取以及轉換工作的實際水平。需要注意的是,在全面整合和分析處理資料的過程中,要分離文書檔案中的資料,相關操作如下:

deletefromdaggdtemp//刪除臨時表中的資料

Chcount=dag1.importfile(dbo.uwswj)//將文書目錄中資料匯出到資料視窗

Dag1.update()//將資料視窗中的資料儲存到臨時表

相關技術人員要對資料進行有效處理,以保證相關資料合併操作、連線操作以及條件性拆分操作等都能按照資料預處理管理要求合理化進行,從根本上維護資料處理效果。

2.3多維資料模型建立單元

在檔案多維資料模型建立的過程中,相關技術人員要判定聯機分析處理專案和資料探勘方案,整合資訊系統中的資料來源、資料檢視、維度引數以及屬性引數等,保證具體單元能發揮其實際作用,並且真正發揮檔案維表的穩定性、安全性優勢。

第一,檔案事實表中的資料穩定,事實表是載入和處理檔案資料的基本模組,按照檔案目錄資料表和檔案利用狀況表分析和判定其類別和歸檔時間,從而提高資料獨立分析水平。一方面,能追加有效的資料,保證資料倉庫資訊的基本質量,也能追加時間判定標準,能在實際操作中減少掃描整個表浪費的時間,從根本上提高實際效率。另一方面,能刪除資料,實現資料更新,檢索相關關鍵詞即可。並且也能同時修改資料,維護檔案撤出和檔案追加的動態化處理效果。

第二,檔案維表的安全性。在維表管理工作中,檔案引數和資料的安全穩定性十分關鍵,由於其不會隨著時間的推移出現變化,因此,要對其進行合理的處理和協調。維表本身的儲存空間較小,儘管結構發生變化的概率不大,但仍會對代表的物件產生影響,這就會使得資料出現動態的變化。對於這種改變,需要藉助新維生成的方式進行處理,從而保證不同維表能有效連線,整合正確資料的同時,也能對事實表外來鍵進行分析[2]。

3檔案資訊管理系統計算機資料倉庫的實現

3.1描述需求

隨著網際網路技術和資料庫技術不斷進步,要提高檔案數字化水平以及完善資訊化整合機制,加快資料庫管控體系的更新,確保裝置儲存以及網路環境一體化水平能滿足需求,尤其是在檔案資源重組和預測專案中,只有從根本上落實資料探勘體系,才能為後續資訊檔案管理專案升級奠定堅實基礎。另外,在資料表和文書等基礎性資料結構模型建立的基礎上,要按照規律制定具有個性化的主動性服務機制。

3.2關聯計算[由本站www.haoword.com網友投稿]

在實際檔案分析工作開展過程中,關聯演算法描述十分關鍵,能對某些行為特徵進行統籌整合,從而制定分析決策。在進行關聯規則強度分析時,要結合支援度和置信度等系統化資料進行綜合衡量。例如,檔案資料庫中有A和B兩個基礎項集合,支援度為P(A∪B),則直接表述了A和B在同一時間出現的基礎性概率。若是兩者出現的概率並不大,則證明兩者之間的關聯度較低。若是兩者出現的概率較大,則說明兩者的關聯度較高。另外,在分析置信度時,利用Confidence(A→B)=(A|B),也能有效判定兩者之間的關係。在出現置信度A的狀況下,B的出現概率則是整體引數關係的關鍵,若是置信度的數值到達100%,則直接證明A和B能同一時間出現。

3.3神經網路演算法

除了要對檔案的實際資料進行資料分析和資料庫建構,也要對其利用狀況進行判定,目前較為常見的利用率分析演算法就是神經網路演算法,其藉助資料分類系統判定和分析資料物件。值得注意的是,在分類技術結構中,要結合訓練資料集判定分類模型資料探勘結構。神經網路演算法類似於人腦系統的執行結構,能建立完整的資訊處理單元,並且能夠整合非線性交換結構,確保能憑藉歷史資料對計算模型和分類體系展開深度分析[3]。

3.4實現多元化應用

在檔案管理工作中應用計算機資料探勘技術,能對檔案分類管理予以分析,保證資訊需求分類總結工作的完整程度。尤其是檔案使用者在對檔案具體特徵進行差異化分析的過程中,能結合不同的元素對具體問題展開深度調研。一方面,計算機資料探勘技術藉助決策樹演算法處理規則化的檔案分析機制。在差異化訓練體系中,要對資料集合中的資料進行系統化分析以及處理,確保構建要求能適應資料探勘的基本結構[4]。例如,檔案管理人員藉助資料探勘技術能整合檔案使用人員長期瀏覽與關注的資訊,並且能集中收集和彙總間隔時間、資訊查詢停留時間等,從而建構完整的資料分析機制,有效向其推送或者是帶給便捷化查詢服務,保證檔案管理數字化水平的提高。另一方面,在檔案收集管理工作中應用資料探勘技術,主要是對資料資訊進行分析,結合基本結果建立概念模型,保證模型以及測試樣本之間的比較引數貼合標準,從而真正建立更加系統化的分類框架體系。

4結語

總而言之,在檔案管理工作中應用資料探勘技術,能在準確判定使用者需求的同時,維護資料處理效果,並且減少檔案數字化的成本,為後續工作的進一步優化奠定堅實基礎。並且,資料庫的建立,也能節省經費和裝置維護成本,真正實現數字化全面發展的目標,促進檔案資訊管理工作的長效進步。

參考文獻

[1]曾雪峰.計算機資料探勘技術開發及其在檔案資訊管理中的運用研究[J].科技創新與應用,2016(9):285.

[2]王曉燕.資料探勘技術在檔案資訊管理中的應用[J].蘭臺世界,2014(23):25-26.

[3]韓吉義.基於資料探勘技術的高校圖書館檔案資訊管理平臺的構築[J].山西檔案,2015(6):61-63.

[4]哈立原.基於資料探勘技術的高校圖書館檔案資訊管理平臺構建[J].山西檔案,2016(5):105-107.

篇2:資料探勘論文

資料探勘在電力排程自動化系統的運用

關鍵詞:資料探勘;電力排程自動化系統;週期性關聯規則挖掘演算法

摘要:電力排程自動化系統對電力資料的收集和整理工作質量有著較高要求,而為了滿足這一要求近年來資料探勘技術日漸受到電力行業重視,基於此,文章就資料探勘技術進行了簡單介紹,並對資料探勘在電力排程自動化系統中的應用進行了深入論述,期望論述資料能夠為相關業內人士帶來必須啟發。

前言

電力資料收集、整理質量直接影響電力排程自動化系統的控制和管理水平,但由於很多價值較高的資料資訊往往位於隱藏的資料之中,這就使得傳統方法不能較好滿足電力排程自動化系統需要,而為了解決這一問題,正是本文就資料探勘在電力排程自動化系統中應用展開具體研究的原因所在。

1資料探勘技術

在大資料時代到來的這天,資料探勘技術能夠從海量資料資訊中準確找到所求資訊,因此本文將資料探勘技術視作“採用有效工具和措施從海量資料庫中提取資料和模型關係”的技術,由此企業的決策能夠得到充足的決定依據。為了更直觀瞭解資料探勘技術,本文將資料探勘的過程和步驟概括為以下幾個方面:(1)確定業務物件。確定業務物件屬於資料探勘過程的基礎工作,這一過程的實質是瞭解業務問題。(2)準備資料。透過選取資料、資料預處理、轉換資料三個層面的工作,即可完成針對於挖掘演算法的分析模型構建,並最終完成必須領域的資料探勘。

2資料探勘在電力排程自動化系統中的應用

2.1應用方式

神經網路、灰色分析法、關聯規則均能夠用於電力排程自動化系統的資料探勘,具體應用如下所示。

(1)神經網路。作為應用較為廣泛的一種人工智慧研究方法,神經網路早已在我國實現了較為廣泛的應用,電力排程自動化系統的資料探勘也是其應用的重要領域,由於資料自行處理、資料分佈儲存、高度容錯性是神經網路的應用優勢所在,這就使得神經網路較為適用於模糊、不完整、不準確資料的處理。在電力排程自動化系統的資料探勘中,神經網路主要透過關聯分析的方式實現資料邏輯處理,具體處理能夠分為以下幾個方面:a.整合統一基礎資料。由於電力排程自動化系統包含的資料具備龐大複雜、種類繁多的特點,因此神經網路的應用需要透過整合統一使相關資料構成結構模型,透過神經網路系統實現資料統一管理。b.實現不同環節電力排程的關聯。應用資料探勘神經網路方法整理不同環節的電流狀態和引數,並保證相關資料資訊的整合性,即可實現不同環節電力排程的關聯。c.分析與決策。結合神經網路整理的整合資料,即可開展分析、決策以及資料共享。

(2)灰色分析法。灰色分析法能夠較好分析電力排程過程出現的不完整資料,但不適用於較為龐大的資料是該資料探勘方法存在的不足。一般狀況下,灰色分析法的應用需要深入瞭解裝置資料引數,如使用者用電狀況預測、母線負荷資料值、電力銷售狀況預測等,結合分析確定電力排程邊界電量,即可提升資料收集的可靠性,電力排程自動化系統的執行也將由此獲得較為有力的支援。

(3)關聯規則。作為資料探勘的重要分支,關聯規則能夠透過發覺超多資料項集之間的搞笑關聯和相互聯絡實現資訊的高質量分析,剛剛提到的神經網路嚴格好處上也屬於關聯規則範疇,但是本文關於關聯規則的研究主要圍繞週期性關聯規則挖掘演算法展開。週期性關聯規則挖掘演算法具備掃描資料庫次數較少、避免掃描資料庫的時間開銷、連線程式中相同專案的比較次數較少、資料項集頻度統計速度較高等優勢,由此實現的週期性資料集挖掘、關聯規則挖掘便能夠大大降低電力排程自動化系統的事故發生概率。值得注意的是,本文研究的週期性關聯規則挖掘演算法結合了蟻群演算法,這是由於原演算法使用了超多的搜尋操作、分類檢索和路徑檢索,蟻群演算法下走過的路上會留下資訊素,這就使得較短路徑上的資訊素濃度較高,結合負資訊素理論,即可保證有資訊素的地方螞蟻不能走過。如使用表1所示的事務資料庫D(部分),即可結合時態事務資料庫D分類資料集改善、每一個分類資料集週期性資料集挖掘改善,以資料項A分類為例,即可求得表2所示的時態屬性差,由此開展更深入計算則能夠更深入瞭解週期性關聯規則挖掘演算法的思想,也能夠認識到蟻群演算法的重要性。

2.2應用實踐

為提升研究實踐價值,本文圍繞週期性關聯規則挖掘演算法建立了基於週期性關聯規則挖掘的資料分析系統,這一系統的建立過程如下所示。

(1)開發平臺選取。結合系統功能需要,選取了微軟的平臺作為主要系統開發平臺,該平臺具備的強大資料庫訪問潛力、擴充套件豐富等特點,能夠較好滿足系統開發需要。

(2)基於資料橋的資料整合模組設計。思考到我國當下電力事業的資料整合標準較為複雜、混亂,系統設計採用了自己的資料整合方法,同時應用了清晰資料清洗策略,由此即可實現不完整資料、重複資料、錯誤資料三類髒資料的清洗,數字資料不完整、日期資料不完整、錯誤日期型資料、重複資料等僅屬於清洗資料,其中除重複資料不予處理外,其他資料均採用修補空值和預設值的方式,如數字資料不完整採用“補0,補null,預設值”的清洗策略。此外,無型別檔案資料整合、資料庫資料整合、異構資料庫資料整合也是這一環節設計的重要資料[3]。

(3)資料庫管理模組設計。採用微軟公司的SQLServer資料庫系統,由此資料庫管理被分為層次數建模、資料表管理、資料表匯出三部分,其中資料表管理包含資料管理、結構管理、刪除三方面功能,而資料表匯出則包括文字檔案、Excel檔案、Access檔案、Xml檔案、其他資料庫五部分資料。

(4)資料分析功能模組設計。資料分析功能模組由同期資料分析、週期性資料分析、資料預警分析、資料關聯分析四部分組成,各部分設計如下所示:a.同期資料分析模組設計。該模組的執行流程主要由負荷資料、網損資料、力率資料、有功總加資料比較組成,分析流程能夠概括為:“輸入所有比較條件→合法→根據條件生成SQL語句→顯示查詢結果→列印比較影象”。b.週期性資料分析模組設計。圍繞報警週期性、負荷週期性、遙測週期性三方面開展資料探勘,即可完成該模組設計。c.資料預警分析模組設計。分析流程為:“初始化資料集及引數→輸入預警分析引數→合法→分析預測→決定預測型別→有無推薦→輸出報警型別和推薦→輸出報警型別”。d.資料關聯分析模型設計。採用預設使用者手動輸入資料集方法,程式流程為:“初始化已有周期性資料集→輸入引數→合法?→資料集交叉?→計算Conf、Sup→計算下一對資料集→完成”。

3結束語

資料探勘能夠較好地服務於電力排程自動化系統。而在此基礎上,本文研究建立的基於週期性關聯規則挖掘的資料分析系統,則證明了研究的實踐價值。因此,在相關領域的理論研究和實踐探索中,本文資料能夠發揮必須參考作用。

參考文獻:

[1]王謙,李烽.電力排程的自動化網路安全分析及實現[J].電子技術與軟體工程,2017(21):116.

[2]劉賓,朱亞奇,吳莎.資料探勘在電力排程自動化系統中的應用[J].電子技術與軟體工程,2017(20):158.

[3]曹鐵生.電力排程自動化系統應用現狀與發展趨勢研究分析[J].矽谷,2014,7(23):74+76.

[4]周洋.資料探勘在電力排程自動化系統中的應用解析[J].科技創新與應用,2017(35):149-150.

[5]李夢鳴.大資料探勘平臺在電力運營監測工作的應用[J].科技創新與應用,2016(26):21-22.

作者:何宇雄;苑晉沛;聶宇;羅超;高小芊;寇霄宇;李蔚單位:國網湖北省電力公司武漢供電公司

篇3:資料探勘論文

後面還有多篇資料探勘論文!

題目:機器學習演算法在資料探勘中的應用

摘要:隨著科學技術的快速發展,各種新鮮的事物和理念得到了廣泛的應用。其中機器學習演算法就是一則典型案例——作為一種新型的演算法,其廣泛應用於各行各業之中。本篇論文旨在探討機器學習演算法在資料探勘中的具體應用,我們利用龐大的移動終端資料網路,加強了基於GSM網路的戶外終端定位,從而提出了3個階段的定位演算法,有效提高了定位的精準度和速度。

關鍵詞:學習演算法;GSM網路;定位;資料;

移動終端定位技術由來已久,其主要是利用各種科學技術手段定位移動物體的精準位置以及高度。目前,移動終端定位技術主要應用於軍事定位、緊急救援、網路優化、地圖導航等多個現代化的領域,由於移動終端定位技術能夠帶給精準的位置服務資訊,所以其在市場上還是有較大的需求的,這也為移動終端定位技術的優化和發展,帶給了推動力。隨著通訊網路普及,移動終端定位技術的發展也得到了一些幫忙,使得其定位的精準度和速度都得到了全面的優化和提升。同時,傳統的定位方法結合先進的演算法來進行精準定位,目前依舊還是有較大的進步空間。在工作中我選取機器學習演算法結合資料探勘技術對傳統定位技術加以改善,取得了不錯的效果,但也遇到了許多問題,例如:使用機器學習演算法來進行精準定位暫時無法滿足更大的區域要求,還有想要利用較低的裝置成本,實現得到更多的精準定位的要求比較困難。所以本文對機器學習演算法進行了深入的研究,期望能夠幫忙其更快速的定位、更精準的定位,滿足市場的需要。

1資料探勘概述

資料探勘又名資料探勘、資訊挖掘。它是資料庫知識篩選中十分重要的一步。資料探勘其實指的就是在超多的資料中透過演算法找到有用資訊的行為。一般狀況下,資料探勘都會和電腦科學緊密聯絡在一齊,透過統計集合、線上剖析、檢索篩選、機器學習、引數識別等多種方法來實現最初的目標。統計演算法和機器學習演算法是資料探勘演算法裡面應用得比較廣泛的兩類。統計演算法依靠於概率分析,然後進行相關性決定,由此來執行運算。

而機器學習演算法主要依靠人工智慧科技,透過超多的樣本收集、學習和訓練,能夠自動匹配運算所需的相關引數及模式。它綜合了數學、物理學、自動化和電腦科學等多種學習理論,雖然能夠應用的領域和目標各不相同,但是這些演算法都能夠被獨立使用運算,當然也能夠相互幫忙,綜合應用,能夠說是一種能夠“因時而變”、“因事而變”的演算法。在機器學習演算法的領域,人工神經網路是比較重要和常見的一種。因為它的優秀的資料處理和演練、學習的潛力較強。

而且對於問題資料還能夠進行精準的識別與處理分析,所以應用的頻次更多。人工神經網路依靠於多種多樣的建模模型來進行工作,由此來滿足不同的資料需求。綜合來看,人工神經網路的建模,它的精準度比較高,綜合表述潛力優秀,而且在應用的過程中,不需要依靠專家的輔助力量,雖然仍有缺陷,比如在訓練資料的時候耗時較多,知識的理解潛力還沒有到達智慧化的標準,但是,相對於其他方式而言,人工神經網路的優勢依舊是比較突出的。

2以機器學習演算法為基礎的GSM網路定位

2.1定位問題的建模

建模的過程主要是以支援向量機定位方式作為基礎,把定位的位置柵格化,面積較小的柵格位置就是獨立的一種類別,在定位的位置內,我們收集數目龐大的終端測量資料,然後利用計算機對測量報告進行分析處理,測量柵格的距離度量和精準度,然後對移動終端柵格進行預估決定,最終利用機器學習進行分析求解。

2.2採集資料和預處理

本次研究,我們採用的模型物件是我國某一個周邊長達10千米的二線城市。在該城市區域內,我們測量了四個不同時間段內的資料,為了保證機器學習演算法定位的精準性和有效性,我們把其中的三批資料作為訓練資料,最後一組資料作為定位資料,然後把定位資料周邊十米內的前三組訓練資料的相關資訊進行清除。一旦確定某一待定位資料,就要在不同的時間內進行測量,按照測量出的資料資訊的經緯度和平均值,再進行換算,最終,得到真實的資料量,提升定位的速度以及有效程度。

2.3以基站的經緯度為基礎的初步定位

用機器學習演算法來進行移動終端定位,其複雜性也是比較大的,一旦區域面積增加,那麼模型和分類也相應增加,而且更加複雜,所以,利用機器學習演算法來進行移動終端定位的過程,會隨著定位區域面積的增大,而耗費更多的時間。利用基站的經緯度作為基礎來進行早期的定位,則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格,如果想要定位資料集內的相關資訊,就要選取對邊長是一千米的小柵格進行計算,而如果是想要獲得邊長一千米的大柵格,就要對邊長是一千米的柵格精心計算。

2.4以向量機為基礎的二次定位

在完成初步定位工作後,要確定一個邊長為兩千米的正方形,由於第一級支援向量機定位的區域是四百米,定位輸出的是以一百米柵格作為中心點的經緯度資料資訊,相對於一級向量機的定位而言,二級向量機在定位計算的時候難度是較低的,更加簡便。後期的預算主要依靠決策函式計算和樣本向量機計算。隨著柵格的變小,定位的精準度將越來越高,而由於增加分類的問題數量是上升的,所以,定位的複雜度也是相對增加的。

2.5以K-近鄰法為基礎的三次定位

第一步要做的就是選定需要定位的區域面積,在二次輸出之後,確定其經緯度,然後依靠經緯度來確定邊長面積,這些都是進行區域定位的基礎性工作,緊之後就是定位模型的訓練。以K-近鄰法為基礎的三次定位需要的是綜合訓練資訊資料,對於這些資訊資料,要以大小為選取依據進行篩選和合並,這樣就能夠減少計算的重複性。當然了,選取的區域面積越大,其定位的速度和精準性也就越低。

3結語

近年來,隨著我國科學技術的不斷髮展和進步,資料探勘技術愈加重要。根據上面的研究,我們證明了,在資料探勘的過程中,應用機器學習演算法具有舉足輕重的作用。作為一門多領域互相交叉的知識學科,它能夠幫忙我們提升定位的精準度以及定位速度,能夠被廣泛的應用於各行各業。所以,對於機器學習演算法,相關人員要加以重視,不斷的進行改良以及改善,切實的發揮其有利的方面,將其廣泛應用於智慧定位的各個領域,幫忙我們解決關於戶外移動終端的定位的問題。

參考文獻

[1]陳小燕,CHENXiaoyan.機器學習演算法在資料探勘中的應用[J].現代電子技術,2015,v.38;No.451(20):11-14.

[2]李運.機器學習演算法在資料探勘中的應用[D].北京郵電大學,2014.

[3]莫雪峰.機器學習演算法在資料探勘中的應用[J].科教文匯,2016(07):175-178.

篇4:資料探勘論文

資料探勘與圖書館使用者資源分析

摘要:人類利用圖書館產生資訊活動時所表現出的最基礎、最平常、最通用的一種關係,便是使用者資源和圖書館之間的關係。從這種關係出發,分析嫁接起這一簡單聯絡的規律,便是資料探勘技術。本文認為對圖書館使用者資源分析研究應以資料探勘技術為邏輯起點,從雲端計算、資訊共享、資料排查、智慧搜尋、大資料儲存等對圖書館使用者資源進行整合和建設。應對資訊資源日益豐富的這天,資料探勘技術對管理圖書館資訊資源技術帶給了巨大便利。

關鍵詞:資料探勘;使用者資源

資料探勘,即資料系統中的資訊發現。隨著計算機技術,個性是雲端計算、大資料記憶技術的快速發展,傳統的手動查詢資訊模式被大資料智慧檢索替代。資料探勘技術廣泛應用於市場、工業、金融行業、科學界、網際網路行業以及醫療業。資料探勘技術在圖書館的應用,能夠將海量的使用者資源進行聚類、關聯、整合,能夠對使用者搜尋記錄、圖書流通記錄、使用者借閱資訊等資料進行精確預判,發現一些隱蔽的聯絡,為圖書館採購圖書、淘汰文獻資料帶給科學推薦,也能夠為使用者帶給個性化訂閱服務,創新使用者服務模式,為圖書館建設整個資訊網路帶給有力支撐。

1大資料下的圖書館使用者資源特徵

圖書館使用者資源是透過數字技術進行組織和管理的:(1)經過資料關聯分析,把資料庫中存在的兩個或兩個以上使用者之間的相同性提取出來,提高支援度和說服力;(2)把使用者資訊按照相似性歸納成幾個類別,建立巨集觀概念,發現其間的相互關係;其次定義這些相互關係,概念產生以後,即等同於這些相互關係的整體資訊,用於建構分類規則或者資料模型;其次利用以上資料找出變化規律,對此規律進行模型化處理,並由資料模型對未知資訊進行預判;(3)把使用者資源進行時序排序,檢索出高重複率的模型;(4)進行偏差比對,檢查資料之中的異常狀況。圖書館利用超多的使用者訪問資訊獲取使用者興趣,發現使用者群體,為不同的群體定製資訊,還能夠建立一個共享資訊平臺,讓不同使用者建立網路交流。

1.1資料量大並且分佈更廣

大資料形勢下,圖書館能夠獲取的使用者資源不僅僅限於使用者個人資訊和搜尋記錄,也包括檔案、學術研究、教學模式、使用者評價和反饋等,資料豐富。同時,資料分佈廣泛,在網際網路時代,可從圖書館應用系統、資料系統記錄以及各種網頁、移動終端的資訊獲取,顯示出使用者資源的分散性。

1.2資料資料多元化,形式靈活化

資料系統裡的儲存方式不同,伺服器不同,系統開發平臺不同,致使許多使用者資源無法交流互換。圖書館使用者資源有半模型化、模型化和非模型化之分。傳統的圖書館使用者資源中,使用者只是圖書資源的使用者,與圖書館之間只是點對點單線互動,使用者之間不存在交流,而在大資料網路平臺下,使用者之間能夠建立資料共享互動平臺,使得使用者資源的資料更加多元化。

2圖書館使用者資源利用

2.1有助於利用資料探勘技術建立使用者資源圖書館

使用者資源圖書館具備資訊量大的特點,使用者可獲得各方各面的資訊,且從服務的個性化和全方位化而言,圖書館可根據社會熱點或使用者需求定製服務。一方面,建立使用者資源圖書館,使各類使用者資訊在同一介面統一呈現,方便使用者的選取和檢索。另一方面,利用資料探勘技術建立的使用者資源圖書館,伺服器眾多,具有較強的計算潛力和儲存潛力,擁有較高的資料處理潛力,能同時容納多數使用者。因資料量大所導致的硬體費用和後期執行費用劇增,可透過構建使用者資源圖書館平臺以及應用服務得到解決。為應付不斷提高的使用者資源儲存方面的壓為,目前亟需的就是投入超多資金以擴容儲存裝置,無疑,建立使用者資源平臺能夠解決此問題。

2.2加速圖書館資源的數字化

強大的網際網路呈現功能和使用者資訊儲存的可靠性功能,使用者資源儲存的複雜性問題可得到很好的解決。其次,資料探勘技術對於資源整合方面具有優勢,透過分散式的儲存模式整合超多資訊資源帶給給使用者檢索。不同的資料之間的互相操作以及全方位的網際網路服務得以實現,很好的解決了資源重複建設的問題。因此,利用資料探勘使得圖書館資源數字化具備可行性。從這個好處上來看,資源的館藏數字化將會加快發展,而不只是圖書書目的劇增。

2.3降低人力資源成本,使圖書館各類資源得以整合和優化

隨著各類使用者資源利用步伐的加快,加之依靠因特網的使用者對服務的可行性和效率性要求更高,超多不同體系的伺服器佈置在機房,系統維護人員的壓力也相應増大。透過資料探勘技術,可有效進行資源整合和優化,無需透過人力進行。

2.4有利於分析使用者心理和提升使用者體驗

資料探勘技術能夠利用使用者資源計算出使用者模型,這是研究使用者需求、偏好、行為的一種常規方式,一般認為使用者模型是對使用者在某段時間內相對穩定的資訊需求的記錄。使用者模型反過來對獲取使用者資源有十分重要的作用,建構使用者模型,能夠使圖書館更加精深、準確地掌握當前使用者資源。透過對使用者資源的處理來預測使用者需求,進而到達持續提高服務質量和使用者滿意度的目的。一方面,預判使用者心理是利用圖書館使用者資源更加深入的表現。隨著使用者環境與圖書館環境的不斷變化,這種預判力覆蓋範圍已經不單單是使用者資訊行為的某個過程或某幾個過程,相反,使用者心理能夠對使用者需求的強弱、層次、方向產生極為重要的影響,同時也能夠對獲取使用者資源全部過程產生重要影響。另一方面,最先研究使用者體驗研究當屬企業營銷活動,主要用來研究使用者與企業、產品或服務之間的互動。資料探勘技術能夠更精準預測使用者的實際感受,透過研究使用者情感體驗與使用者行為動作,提高使用者的滿意度,滿足使用者需求。

3結語

在資料大爆發時代,重檢視書館使用者資源,透過多渠道、多方式匯聚使用者資源,採用資料探勘、資料歸檔分析等技術,掌握使用者資源特徵,有助於圖書館精準定位使用者群體,對調整圖書館運營策略有重要前置作用,更能創新圖書館服務的資料和形式,實現圖書館資源的有效利用。

參考文獻

[1]陳文偉等.資料探勘技術[M].北京:北京工業出版社,2002.

[2]郭崇慧等.北京資料探勘教程[M].北京:清華大學出版社,2005.

[3]徐永麗等.網路環境中使用者資訊需求障礙分析[J].圖書館理論與實踐,2004.

篇5:資料探勘論文

題目:大資料探勘在智慧旅遊應用中的探究

摘要:大資料和智慧旅遊都是當下的熱點,沒有大資料的智慧旅遊無從談“智慧”,資料探勘是大資料應用於智慧旅遊的核心,文章探究了在智慧旅遊應用中,目前大資料探勘存在的幾個問題。

關鍵詞:大資料;智慧旅遊;資料探勘;

1引言

隨著人民生活水平的進一步提高,旅遊消費的需求進一步上升,在雲端計算、網際網路、物聯網以及移動智慧終端等資訊通訊技術的飛速發展下,智慧旅遊應運而生。大資料作為當下的熱點已經成了智慧旅遊發展的有力支撐,沒有大資料帶給的有利資訊,智慧旅遊無法變得“智慧”。

2大資料與智慧旅遊

旅遊業是資訊密、綜合性強、資訊依存度高的產業[1],這讓其與大資料自然產生了交匯。2010年,江蘇省鎮江市首先提出“智慧旅遊”的概念,雖然至今國內外對於智慧旅遊還沒有一個統一的學術定義,但在與大資料相關的描述中,有學者從大資料探勘在智慧旅遊中的作用出發,把智慧旅遊描述為:透過充分收集和管理所有型別和來源的旅遊資料,並深入挖掘這些資料的潛在重要價值資訊,然後利用這些資訊為相關部門或物件帶給服務[2]。這必須義充分肯定了在發展智慧旅遊中,大資料探勘所起的至關重要的作用,指出了在智慧旅遊的過程中,資料的收集、儲存、管理都是為資料探勘服務,智慧旅遊最終所需要的是利用挖掘所得的有用資訊。

3大資料探勘在智慧旅遊中存在的問題

2011年,我國提出用十年時間基本實現智慧旅遊的目標[3],過去幾年,國家旅遊局的相關動作均為了實現這一目標。但是,在藉助大資料推動智慧旅遊的可持續性發展中,大資料所產生的價值卻亟待提高,原因之一就是在收集、儲存了超多資料後,對它們深入挖掘不夠,沒有發掘出資料更多的價值。

3.1資訊化建設

智慧旅遊的發展離不開行動網路、物聯網、雲平臺。隨著大資料的不斷髮展,國內許多景區已經實現Wi-Fi覆蓋,部分景區也已實現人與人、人與物、人與景點之間的實時互動,多省市已建有旅遊產業監測平臺或旅遊大資料中心以及資料視覺化平臺,從中進行資料統計、行為分析、監控預警、服務質量監督等。透過這些平臺,已基本能掌握跟遊客和景點相關的資料,能夠實現更好旅遊監控、產業巨集觀監控,對該地的旅遊管理和推廣都能發揮重要作用。

但從智慧化的發展來看,我國的資訊化建設還需加強。雖然通訊網路已基本能保證,但是大部分景區還無法實現對景區全面、透徹、及時的感知,更為困難的是對平臺的建設。在資料共享平臺的建設上,除了必備的硬體設施,大資料實驗平臺還涉及超多部門,如政府管理部門、氣象部門、交通、電子商務、旅行社、旅遊網站等。如此多的部門相關聯,要想建立一個完整全面的大資料實驗平臺,難度可想而知。

3.2大資料探勘方法

大資料時代缺的不是資料,而是方法。大資料在旅遊行業的應用前景十分廣闊,但是應對超多的資料,不懂如何收集有用的資料、不懂如何對資料進行挖掘和利用,那麼“大資料”猶如礦山之中的廢石。旅遊行業所涉及的結構化與非結構化資料,透過雲端計算技術,對資料的收集、儲存都較為容易,但對資料的挖掘分析則還在不斷探索中。大資料的挖掘常用的方法有關聯分析,相似度分析,距離分析,聚類分析等等,這些方法從不同的角度對資料進行挖掘。其中,相關性分析方法透過關聯多個數據來源,挖掘資料價值。但針對旅遊資料,採用這些方法挖掘資料的價值資訊,難度也很大,因為旅遊資料中冗餘資料很多,資料存在形式很複雜。在旅遊非結構化資料中,一張圖片、一個天氣變化、一次輿情評價等都將會對遊客的旅行計劃帶來影響。對這些資料完全挖掘分析,對遊客“行前、行中、行後”大資料的實時性挖掘都是很大的挑戰。

3.3資料安全

2017年,資料安全事件屢見不鮮,伴著大資料而來的資料安全問題日益凸顯出來。在大資料時代,無處不在的資料收集技術使我們的個人資訊在所關聯的資料中心留下痕跡,如何保證這些資訊被合法合理使用,讓資料“可用不可見”[4],這是亟待解決的問題。同時,在大資料資源的開放性和共享性下,個人保密和公民權益受到嚴重威脅。這一矛盾的存在使資料共享程度與資料探勘程度成反比。此外,經過大資料技術的分析、挖掘,個人保密更易被發現和暴露,從而可能引發一系列社會問題。

大資料背景下的旅遊資料當然也避免不了資料的安全問題。如果遊客“吃、住、行、遊、娛、購”的資料被放入資料庫,被完全共享、挖掘、分析,那遊客的人身財產安全將會受到嚴重影響,最終降低旅遊體驗。所以,資料的安全管理是進行大資料探勘的前提。

3.4大資料人才

大資料背景下的智慧旅遊離不開人才的創新活動及技術支援,然而與專業相銜接的大資料人才培養未能及時跟上行業需求,加之創新型人才的外流,以及資料統計未來3~5年大資料行業將面臨全球性的人才荒,國內智慧旅遊的構建還缺乏超多人才。

4解決思路

在資訊化建設上,加大政府投入,加強基礎設施建設,整合結構化資料,抓取非結構化資料,打通各資料壁壘,建設旅遊大資料實驗平臺;在挖掘方法上,對旅遊大資料實時性資料的挖掘就應被放在重要位置;在資料安全上,從加強大資料安全立法、監管執法及強化技術手段建設等幾個方面著手,提升大資料環境下資料安全保護水平。加強人才的培養與引進,加強產學研合作,培養智慧旅遊大資料人才。

參考文獻

[1]翁凱.大資料在智慧旅遊中的應用研究[J].資訊科技,2015,24:86-87.

[2]樑昌勇,馬銀超,路彩虹.大資料探勘,智慧旅遊的核心[J].開發研究,2015,5(180):134-139.

[3]張建濤,王洋,劉力剛.大資料背景下智慧旅遊應用模型體系構建[J].企業經濟,2017,5(441):116-123.

[4]王竹欣,陳湉.保障大資料,從哪裡入手[N].人民郵電究,2017-11-30.

篇6:資料探勘論文

雲端計算下物聯網的資料探勘

摘要:隨著我國資訊科技產業日漸成熟,物聯網這一新一代資訊科技關鍵技術日漸受到學界重視,基於此,本文就物聯網與雲端計算、物聯網資料探勘需要解決的關鍵性問題展開分析,並對基於雲端計算的物聯網資料探勘、實驗驗證進行了詳細論述,期望由此能夠為相關業內人士帶來必須啟發。

關鍵詞:雲端計算平臺;物聯網;資料探勘;Hodoop

隨著2010年提出的“數字地球”概念影響力不斷擴大,物聯網技術與我國民眾生活之間的距離日漸拉近,越來越多的物聯網應用也開始進入人們視野,各界對物聯網的要求也在不斷提升,而為了解決物聯網領域正面臨的資料探勘難題,正是本文就雲端計算平臺下物聯網資料探勘展開具體研究的原因所在。

1物聯網與雲端計算

1.1物聯網

物聯網作為學界公認的下一代網路發展方向之一,其本身由無所不在的小型感測器裝置組成,無論是與我們日常生命聯絡緊密的計算機與智慧手機,還是大型網路的伺服器、超級計算機群,均屬於物聯網的重要組成部分,這也是很多學者將物聯網稱作新科技革命的原因。在S.Haller等業界權威學者的展望中,其認為物聯網技術在未來將實現物理物件無縫整合到資訊網路之中併成為參與者,而這些“智慧物件”在保護安全與保密的前提下,則能夠在網路中找到任何問題的解決方法。對於物聯網來說,其具備著全面感知、可靠傳遞、智慧處理三方面特點,而結合現有技術獲得基本資訊、結合感測器網路和其他通訊網路實現物體資訊可靠傳遞、在雲端計算與模糊識別等技術支援下處理海量異構資料則屬於物聯網三方面特點的具體表現,由此可見電子元器件、資料處理中心、傳輸通道三方面能夠視作典型物聯網應用的組成。

1.2雲端計算

雲端計算本質上屬於一種基於網際網路的新計算方式,其能夠結合網際網路異構、自治服務較好滿足使用者的計算需要,雲端計算中的“雲”也能夠被視作對IT底層基礎設施的一種抽象概念。本文研究應用的Hodoop屬於典型的雲端計算基礎開發平臺,其本質上屬於一個分散式系統基礎的架構,Hodoop在雲端計算領域的地位能夠說近似於IT產業的Linux系統。Hodoop的核心為分散式檔案系統HDFS和MapReduce,前者具備高容錯性、高伸縮性等優點,這些就使得Hodoop的佈置能夠較為簡單且低成本的構成分散式檔案系統,而後者則具備保證分析和處理的高效性潛力,由此Hodoop即可簡單進行資料的整合。總之,Hodoop這一雲端計算基礎開發平臺能夠透過簡單組織計算機資源實現分散式計算雲平臺搭建,並以此實現雲端計算相關功用。

1.3物聯網資料探勘需要解決的關鍵性問題

簡單瞭解物聯網與雲端計算後,物聯網資料探勘需要解決的關鍵性問題也應引起人們關注,那裡的關鍵性問題主要由以下幾方面構成:

1.3.1傳統模式難以應用中央模式

屬於較為傳統的資料探勘模式,但是物聯網資料不同儲存地點的特性則使得該模式的效用無從發揮。

1.3.2對中央節點硬體要求較高

物聯網本身具備著資料規模、感測器節點龐大的特點,而為了同時滿足其實時處理需求,高效能的中央節點硬體要求務必得到滿足。

1.3.3節點資源有限

在有限的節點資源影響下,分散式節點務必負責原始資料的預處理與傳遞。

1.3.4外在因素影響

由於資料安全性、資料保密、法律約束等因素的影響,物聯網不能夠將所有資料統一存放在相同資料倉庫,這同樣對物聯網資料探勘提出了較高挑戰。總的來說,現有技術與方式並不能較好滿足物聯網資料探勘需要,這也是本文研究開展的原因所在。

2基於雲端計算的物聯網資料探勘

結合Hodoop雲端計算基礎開發平臺進行基礎平臺搭建,選取用物聯網資料集為例,構成了物聯網感知層、傳輸層、資料層、資料探勘服務層四部分模組組成的平臺,各模組的實現思路與功能如下所示。

2.1物聯網感知層

物聯網感知層主要負責物聯網資料的採集,這一採集需要得到目標區域佈置的採集節點支援,那裡的採集節點主要由攝像頭、感測器、其他儀器儀表組成,而由此構成的物聯網感知層無線感測器網路,便能夠將各採集點採集到的網路資料彙集至節點,資料由此進行彙總儲存則能夠在傳輸層的支援下最終傳遞至雲平臺的資料中心。

2.2傳輸層傳輸層

本質上屬於具備較高可靠性與高速性、較優無縫性特點的資料傳輸網路,而基於Hodoop雲端計算基礎開發平臺構建的物聯網挖掘系統則結合感測器網路、有線網路、無線網路實現了資料傳輸網路的構建,這就使得物聯網感知層所蒐集的資訊能夠更快、更好的傳遞到雲端計算資料中心,由此實現的更高質量互通互聯,則保證了系統中監測裝置的網路化高速資料傳輸得以實現。

2.3資料層

物聯網資料具備著異構性、海量性等特點,這就使得基於Hodoop雲端計算基礎開發平臺的物聯網資料探勘系統對於物聯網資料的儲存與處理存在著較高要求,而在本文研究所構建的物聯網資料探勘系統資料層中,該資料層主要由資料來源轉換模組與分散式儲存模組兩部分組成,其中前者主要負責物聯網異構資料的轉換,而後者則主要負責分散式儲存物聯網所產生的海量資料,由此本文研究的物聯網挖掘系統的效能和可行性便得到了較好證實。值得注意的是,分散式儲存模組需要結合Hodoop雲端計算基礎開發平臺中的HDFS檔案系統實現。物聯網中的不同物件往往會透過不同的資料型別進行表示,這就使得異構性勢必屬於物聯網的根本性特徵,一些相同物件使用不同資料表示便較為直觀說明了這一點,而這就使得物聯網對資料來源轉換器有著較高需求。在本文構建的物聯網資料探勘系統中,資料來源轉換器在其中發揮著保護資料儲存完整、保證資料探勘科學順利等功能,資料包解碼、資料的分散式儲存也需要得到該轉化器的直接支援,這也是物聯網資料探勘系統中各NameNode節點檔案型別為PML的原因。PML能夠透過一種通用的方式進行物體描述,而作為基於XML建立的語言,PML在與XML相同核心思想的影響下,其便能夠在物品的詳細資訊帶給、物品資訊交換等

領域發揮不俗的功能。例如,在本文研究所構建的物聯網資料探勘系統中,PML便在節點資料採集、傳輸、儲存過程中發揮著建模功能,相關建模資訊所收錄的物體屬性資訊、位置資訊、環境資訊、歷史元素等資料,便能夠保證物品資訊實現較高質量的表達,這對於物聯網資料探勘也將帶來較為用心影響。

2.4資料探勘服務層

資料探勘服務層能夠細分為資料準備模組、資料探勘引擎模組、使用者模組三部分,三部分模組的具體功用如下所示:

2.4.1資料準備模組

主要負責物聯網蒐集資料的清理、變換、資料規約。

2.4.2資料探勘引擎模組

主要透過資料探勘演算法集、模式評估等功能為物聯網資料探勘系統帶給服務,特徵、區分、關聯、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等能夠視作該模組功能的具體組成,這些功能的實現得益於資料探勘引擎模組中的演算法集,Hodoop雲端計算基礎開發平臺支援下實現的演算法並行化處理則是該模組功能實現的基礎。

2.4.3使用者模組

實現對資料探勘知識的視覺化表示。使用者模組是本文研究物聯網資料探勘平臺面向使用人員的部分,因此在設計中筆者注重了系統操作的友好性,簡單的資料探勘任務開展、簡單獲得能夠被理解知識均屬於設計的優勢所在。值得注意的是,為了保證本文研究的物聯網資料探勘系統具備較高的可移植性,設計人員在設計之初便為資料探勘服務層底層模組設計了開放介面,由此該物聯網資料探勘系統的應用豐富性就能夠得到較好保障,表1對本文研究的物聯網資料探勘系統組成進行了直觀展示。

3實驗驗證

3.1物聯網資料探勘系統工作流程

基於Hodoop雲端計算基礎開發平臺的物聯網資料探勘系統工作流程能夠概括為:“使用者→主控節點→主控節點允許使用者請求→主控節點呼叫資料探勘演算法→呼叫資料探勘演算法成功→準備物聯網資料→分散式資料探勘→將結果傳遞給使用者”,而結合這一流程本文將圍繞以下幾部分開展具體的物聯網資料探勘系統工作流程描述,具體描述如下:

3.1.1使用者請求

在使用者請求物聯網資料探勘系統進行資料探勘後,系統的主控節點將決定該任務是否能夠進行,而在確定能夠進行後系統將首先向使用者傳遞能夠進行的資訊,並隨後開始具體的資料探勘。

3.1.2資料探勘過程

在確定物聯網資料探勘系統能夠進行資料探勘後,系統的主控節點將有針對性的選取資料探勘演算法滿足使用者需要,並結合MapReduce思想與Master/Slave結構進行資料探勘任務的劃分。

3.1.3具體節點任務

在資料探勘任務的劃分下,需要完成具體工作的節點將被分配任務,由此物聯網資料探勘系統的具體資料處理便由此開展,同時JobTracker負責的排程和執行則將最後將資料探勘結果傳遞給使用者。

3.2實驗驗證

為了能夠直觀決定基於Hodoop雲端計算基礎開發平臺物聯網資料探勘系統可行性和效能水平,明晰MapReduce資料探勘演算法在系統中發揮的作用,本文選取了結合Apriori演算法開展實驗驗證的方法,實驗驗證的環境、過程、結果如下所示。

3.2.1實驗環境

實驗選取了4G記憶體、500G硬碟、Windows7系統的計算機作為實驗基礎,並在該計算機中透過虛擬機器安裝部署了多個分散式節點,其中共3個虛擬機器中的一個為NameNodeLinux系統,其餘兩個則為DateNodeLinux系統。為了保證實驗質量與效率,筆者還在該計算機中安裝了專門用於Linux系統的Eclipse7.5整合開發環境,在Windows系統中安裝了SSHSecureShellClient、各個虛擬機器作業系統中安裝了SSH服務,由此即可保證本文研究的基於Hodoop雲端計算基礎開發平臺物聯網資料探勘系統的順利使用。

3.2.2實驗過程完成

實驗環境的搭建後,本文選取了一組用於關聯規則演算法的實驗資料,並將該資料透過C++程式碼編寫的程式透過關鍵字搜尋方式轉換成立標準型別大小為1G的PML檔案,在HDFS命令下該檔案被放入Hadoop平臺進行分散式儲存,而在執行Java語言編寫的Apriori演算法後,即可得到物聯網資料探勘系統的執行結果,透過檢視系統使用中是否找到了實驗資料集中的所有頻繁項集便能夠直觀決定其效能。值得注意的是,為了提升實驗的有效性,本文選取了不同大小的檔案開展實驗,由此實現比較物聯網資料探勘系統執行時間更深入瞭解其效能。

3.2.3實驗結果

表2對基於物聯網資料探勘系統的實驗結果進行了直觀展示,結合該表不難發現,檔案大小的提升直接導致物聯網資料探勘系統執行時間的增長,這種增長存在典型的線性趨勢,而由於應用Apriori演算法的物聯網資料探勘系統實現了頻繁項集的發現,本文研究的基於Hodoop雲端計算基礎開發平臺物聯網資料探勘系統的擴充套件性便得到了較為直觀展現,其所具備的物聯網海量資料探勘潛力也得到了較好證實。

4結論

綜上所述,雲端計算平臺能夠較好服務於物聯網的資料探勘。而在此基礎上,本文研究所提出了完善性與科學性較高的基於Hodoop雲端計算基礎開發平臺物聯網資料探勘系統,便直觀證明了全文的實踐價值。因此,在相關領域的理論研究與實踐探索中,本文資料便能夠發揮必須參考作用。

參考文獻

[1]湯勇峰.基於雲端計算平臺的物聯網資料探勘研究[J].電腦知識與技術,2017,1307:218-219.

[2]陳俊麗.基於雲端計算平臺的物聯網資料探勘研究[J].中國新通訊,2016,1821:74-75.

[3]武桂雲.基於hadoop平臺的分散式資料探勘系統研究與設計[D].天津大學,2012.

[4]林昕.基於雲端計算的大資料探勘平臺構建研究[J].山東工業技術,2015(17):104.

篇7:資料探勘論文

題目:資料探勘技術在神經根型頸椎病方劑研究中的優勢及應用進展

關鍵詞:資料探勘技術;神經根型頸椎病;方劑;綜述;

1資料探勘技術簡介

資料探勘技術[1](KnowledgeDiscoveryinDatebase,KKD),是一種新興的資訊處理技術,它融匯了人工智慧、模式別、模糊數學、資料庫、數理統計等多種技術方法,專門用於海量資料的處理,從超多的、不完全的、有噪聲的、模糊的、隨機的資料集中,提取隱含在其中的、人們事先不明白的、但又是潛在的有用的資訊和知識,其目的是發現規律而不是驗證假設。資料探勘技術主要適用於龐大的資料庫的研究,其特點在於:基於資料分析方法角度的分類,其本質屬於觀察性研究,資料來源於日常診療工作資料,應用的技術較傳統研究更先進,分析工具、理論模型與傳統研究區別較大。其操作步驟包括[2]:選取資料,資料處理,挖掘分析,結果解釋,其中結果解釋是資料探勘技術研究的關鍵。其方法包括分類、聚類、關聯、序列、決策樹、貝斯網路、因子、辨別等分析[3],其結果通常表示為概念、規則、規律、模式、約束、視覺化等形式圖[4]。當今資料探勘技術的方向主要在於:特定資料探勘,高效挖掘演算法,提高結果的有效性、確定性和表達性,結果的視覺化,多抽象層上的互動式資料探勘,多元資料探勘及資料的安全性和保密性。因其優勢和獨特性被運用於多個領域中,且結果運用後取得顯著成效,因此越來越多的中醫方劑研究者將其運用於

方劑中藥物的研究。

2資料探勘術在神經根型頸椎病治方研究中的優勢

中醫對於神經根型頸椎病的治療準則為辨證論治,從古至今神經根型頸椎病的中醫證型有很多,其治方是集中醫之理、法、方、藥為一體的資料集合,具有以“方-藥-證”為核心的多維結構。方劑配伍本質上表現為方與方、方與藥、藥與藥、藥與劑量,以及方藥與證、病、症交叉錯綜的關聯與對應[5],而中醫方劑講究君臣佐使的配伍,藥物有升降沉浮,四氣五味及歸經之別,對於神經根型頸椎病的治療,治方中藥物的種類、炮製方法、用量、用法等都是千變萬化的,而這些海量、模糊、看似隨機的藥物背後隱藏著對臨床有用的資訊和規律,但這些大資料是無法在可承受的時間範圍內可用常規軟體工具進行捕捉、管理和處理的,是需要一個新處理模式才能具有更強的決策力、洞察力和流程優化潛力,而資料探勘技術有可能從這些海量的的資料中發現新知識,揭示背後隱藏的關係和規則,並且對未知的狀況進行預測[6]。再者,中醫辨治充滿非線性思維,“方-藥-證”間的多層關聯、序列組合、叢集對應,構成了整體論的思維方式和原則,而資料探勘技術資料探勘在技術線路上與傳統資料處理方法不同在於其能對資料庫內的資料以線性和非線性方式解析,尤善處理模糊的、非量化的資料。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出症的用藥

規律時,選取了100張治方,因該病病因病機複雜,證候不一,骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證資料庫,採用SPPSClementine12.0軟體對這些資料的用藥頻次、藥物關聯規則及藥物聚類進行分析,最後總結出張氏骨傷治療腰椎間盤突出症遵循病從肝治、病從血治、標本兼治的原則,也歸納出治療三種不同證型的腰突症的三類自擬方。由此看出資料探勘技術在方劑研究中的應用對資料背後資訊、規律等的挖掘及名家經驗的推廣具有重大好處,因此資料探勘技術在神經根型頸椎病的治方研究中也同樣發揮著巨大的作用。

3資料探勘技術在神經根型頸椎治方中的應用進展

神經根型頸椎病在所有頸椎病中最常見,約佔50%~60%[8],醫家對其治方的研究也是不計其數。近年來資料探勘技術也被運用於其治方研究中,筆者透過萬方、中國知網等總共檢索出以下幾篇文獻,雖數量不多但其優勢明顯。劉向前等[9]在挖掘古方治療神經根型頸椎病的用藥規律時,透過檢索《中華醫典》並從中篩選以治療頸項肩臂痛為主的古方219首並建立資料庫,對不同證治古方的用藥類別、總味數、單味藥使用頻數及藥對(組)出現頻數進行統計,總結出風寒溼痺證、痰溼阻痺證、寒溼阻滯證、正虛不足證的用藥特點,得出解表藥、祛風溼藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用,該研究對於現代醫家在治療該病中有很好的借鑑和參考好處。齊兵獻等[10]檢索CNKI(1980-2009年)相關文獻中治療神經根型頸椎病的方劑建立資料庫,採用SPSS11.5統計軟體這些治方常用藥物使用頻次頻率、性味頻率、歸經頻率分析比較,治療神經根型頸椎病的中藥共計99味,使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風溼藥運用最多,其中藥味以辛、苦為主,藥性以溫、寒為主,歸經以肝、脾、心為主,而本病以肝腎虧虛,氣血瘀滯為主,臨床以補益藥、活血化瘀藥、祛風溼藥等中藥運用最多。這對於醫家

治療該病選用藥物的性味、歸經等具有指導好處。陳元川等[11]檢索2004年1月至2013年3月發表的以單純口服中藥治療神經根型頸椎病的有關文獻,對其中的方劑和藥物進行統計、歸類、分析,最終納入32首方劑,涉及111味中藥,補氣藥、發散風寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高,證實與古方桂枝加葛根湯主藥相同,且該方扶陽解表的治法與該研究得出的扶正祛邪的結果相吻合,同時也證實石氏傷科強調治傷科病當“以氣為主,以血為先”等正確性。所以大資料背後的規律和關係在很多方面古今是一致的,同時資料依據的支援也為現代神經根型頸椎病治療帶給有力的保障。謝輝等[12]收集2009至2014年10月3日的166張治療神經根型頸椎病的治方建立資料庫,採用關聯規則演算法、複雜系統熵聚類等無監督資料探勘方法,利用中醫傳承輔助平臺(TCMISS)軟體分析處方中各種藥物的使用頻次、藥物之間的關聯規則、核心藥物組合和新處方,從中挖掘出治療該病中醫中的常用藥物、藥對,闡明瞭治療該病以解肌散寒藥、補氣活血藥、祛風勝溼藥和溫經通絡藥為主,治法主要包括解肌舒筋、益氣活血和補益肝腎,這一方面很清晰明瞭地展示了藥物使用頻率、藥物之間的聯絡,證實其與很多古代

經典中治療神經根型頸椎病的治則、治法及用藥規律是吻合的,是臨床用藥的積累和昇華,可有效地指導臨床並提高療效;另一方面也為中藥新藥的創制帶給處方來源,指導新藥研發[13]。

4小結

資料探勘技術作為一種新型的研究技術,在神經根型頸椎病的治方研究中的運用相對於其他領域是偏少的,並且基本上是研究文獻資料上出現的治方,在對名老中醫個人治療經驗及用藥規律的總結是缺乏的,因此研究範圍廣而缺乏針對性,同時使用該技術的相關軟體種類往往是單一的。此刻研究者在研究中醫方劑時往往採用傳統的研究方法,這就導致在大資料的研究中耗時、耗力甚則無能為力,同樣也難以精準地提取大資料背後的隱藏的潛在關係和規則及缺乏對未知狀況的預測。產生這樣的現狀,一方面是很多研究者尚未清楚該技術在方劑研究中的優勢所在,思維模式尚未更新;另一方面是很多研究者尚未清楚該技術的操作技能及軟體種類及其應用範圍。故以後應向更多研究者普及該技術的軟體種類、其中的優勢及操作技能,讓該技術在臨床中使用更廣,產生更大的效益。

參考文獻

[1]舒正渝.淺談資料探勘技術及應用[J].中國西部科技,2010,9(5):38-39.

[2]曹毅,季聰華.臨床科研設計與分析[M].杭州:浙江科學技術出版社,2015:189.

[3]王靜,崔蒙.資料探勘技術在中醫方劑學研究中的應用[J].中國中醫藥資訊雜誌,2008,15(3):103-104.

[4]陳丈偉.資料倉庫與資料探勘[M].北京:清華大學出版社,2006:5.

[5]楊玉珠.資料探勘技術綜述與應用[J].河南科技,2014,10(19):21.

[6]餘侃侃.資料探勘技術在方劑配伍中的研究現狀及研究方法[J].中國醫藥指南,2008,6(24):310-312.

[7]趙睿曦.方證資料探勘分析張氏骨傷對腰椎間盤突出症的辨證用藥規律[J].陝西中醫藥大學學報,2016,39(6):44-46.

[8]李曙明,尹戰海,王瑩.神經根型頸椎病的影像學特點和分型[J].中國矯形外科雜誌,2013,21(1):7-11.

[9]劉向前,陳民,黃廣平等.頸項肩臂痛內治古方常用藥物的統計分析[J].中華中醫藥學刊,2012,30(9):42-44.

[10]齊兵獻,樊成虎,李兆和.神經根型頸椎病中醫用藥規律的文獻研究[J].河南中醫,2012,32(4):518-519.

[11]陳元川,王翔,龐堅,等.單純口服中藥治療神經根型頸椎病用藥分析[J].上海中醫藥雜誌,2014,48(6):78-80.

[12]謝輝,劉軍,潘建科,等.基於資料探勘方法的神經根型頸椎病用藥規律研究[J].世界中西醫結合雜誌,2015,10(6):849-852.

[13]唐仕歡,楊洪軍.中醫組方用藥規律研究進展述評[J].中國實驗方劑學雜誌,2013(5):359-363.

篇8:資料探勘論文

關於計算機Web資料及其在電子商務中的應用探析

論文摘要:目前計算機Web資料探勘技術被廣泛應用於電子商務活動,它是隨著網路技術和資料庫技術的快速發展而出現的一種新技術,已成為現代電子商務企業獲取市場資訊極為重要的工具。介紹了Web資料探勘的含義、特徵及類別,重點探究了計算機Web資料探勘技術在電子商務中的幾種典型應用。

論文關鍵詞:資料探勘;電子商務;Web資料探勘

1引言

當前,隨著網路技術的發展和資料庫技術的迅猛發展,有效推動了商務活動由傳統活動向電子商務變革。電子商務就是利用計算機和網路技術以及遠端通訊技術,實現整個商務活動的電子化、數字化和網路化。基於Internet的電子商務快速發展,使現代企業積累了超多的資料,這些資料不僅僅能給企業帶來更多有用資訊,同時還使其他現代企業管理者能夠及時準確的蒐集到超多的資料。訪問客戶帶給更多更優質的服務,成為電子商務成敗的關鍵因素,因而受到現代電子商務經營者的高度關注,這也對計算機web資料技術提出了新的要求,Web資料探勘技術應運而生。它是一種能夠從網上獲取超多資料,並能有效地提取有用資訊供企業決策者分析參考,以便科學合理制定和調整營銷策略,為客戶帶給動態、個性化、高效率服務的全新技術。目前,它已成為電子商務活動中不可或缺的重要載體。

2計算機web資料探勘概述

2.1計算機web資料探勘的由來

計算機Web資料探勘是一個在Web資源上將對自己有用的資料資訊進行篩選的過程。Web資料探勘是把傳統的資料探勘思想和方法移植到Web應用中,即從現有的Web文件和活動中挑選自己感興趣且有用的模式或者隱藏的資料資訊。計算機Web資料探勘能夠在多領域中展示其作用,目前已被廣泛應用於資料庫技術、資訊獲取技術、統計學、人工智慧中的機器學習和神經網路等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。

2.2計算機Web資料探勘含義及特徵

(1)Web資料探勘的含義。

Web資料探勘是指資料探勘技術在Web環境下的應用,是一項資料探勘技術與WWW技術相結合產生的新技術,綜合運用到了計算機語言、Internet、人工智慧、統計學、資訊學等多個領域的技術。具體說,就是透過充分利用網路(Internet),挖掘使用者訪問日誌檔案、商品資訊、搜尋資訊、購銷資訊以及網路使用者登記資訊等資料,從中找出隱性的、潛在有用的和有價值的資訊,最後再用於企業管理和商業決策。

(2)Web資料探勘的特點。

計算機Web資料探勘技術具有以下特點:一是使用者不用帶給主觀的評價資訊;二是使用者“訪問模式動態獲取”不會過時;三是能夠處理大規模的資料量,並且使用方便;四是與傳統資料庫和資料倉庫相比,Web是一個巨大、分佈廣泛、全球性的資訊服務中心。

(3)計算機web資料探勘技術的類別。

web資料探勘技術共有三類:第一類是Web使用記錄挖掘。就是透過網路對Web日誌記錄進行挖掘,查詢使用者訪問Web頁面的模式及潛在客戶等資訊,以此提高其站點所有服務的競爭力。第二類是Web資料挖掘。既是指從Web文件中抽取知識的過程。第三類是Web結構挖掘。就是透過對Web上超多文件集合的資料進行小結、聚類、關聯分析的方式,從Web文件的組織結構和連結關係中預測相關資訊和知識。

3計算機web資料探勘技術與電子商務的關係

藉助計算機技術和網路技術的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業和個人的關注。隨著電子商務企業業務規模的不斷擴大,電子商務企業的商品和客戶數量也隨之迅速增加,電子商務企業以此獲得了超多的資料,這些資料正成為了電子商務企業客戶管理和銷售管理的重要資訊。為了更好地開發和利用這些資料資源,以便給企業和客戶帶來更多的便利和實惠,各種資料探勘技術也逐漸被應用到電子商務網站中。目前,基於資料探勘(個性是web資料探勘)技術構建的電子商務推薦系統正成為電子商務推薦系統發展的一種趨勢。

4計算機web資料探勘在電子商務中的具體應用

(1)電子商務中的web資料探勘的過程。

在電子商務中,web資料探勘的過程主要有以下三個階段:既是資料準備階段、資料探勘操作階段、結果表達和解釋階段。如果在結果表達階段中,分析結果不能讓電子商務企業的決策者滿意,就需要重複上述過程,直到滿意為止。

(2)Web資料探勘技術在電子商務中的應用。

目前,電子商務在企業中得到廣泛應用,極大地促進了電子商務網站的興起,經過分析必須時期內站點上的使用者的訪問資訊,便可發現該商務站點上潛在的客戶群體、相關頁面、聚類客戶等資料資訊,企業資訊系統因此會獲得超多的資料,如此多的資料使Web資料探勘有了豐富的資料基礎,使它在各種商業領域有著更加重要的實用價值。因而,電子商務必將是未來Web資料探勘的主攻方向。Web資料探勘技術在電子商務中的應用主要包含以下幾方面:

一是尋找潛在客戶。電子商務活動中,企業的銷售商能夠利用分類技術在Internet上找到潛在客戶,透過挖掘Web日誌記錄等資訊資源,對訪問者進行分類,尋找訪問客戶共同的特徵和規律,然後從已經存在的分類中找到潛在的客戶。

二是留住訪問客戶。電子商務企業透過商務網站能夠充分挖掘客戶瀏覽訪問時留下的資訊,瞭解客戶的瀏覽行為,然後根據客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產品,以此來不斷提高網站訪問的滿意度,最大限度延長客戶駐留的時間,實現留住老客戶發掘新客戶的目的。

三是帶給營銷策略參考。透過Web資料探勘,電子商務企業銷售商能夠透過挖掘商品訪問狀況和銷售狀況,同時結合市場的變化狀況,透過聚類分析的方法,推匯出客戶訪問的規律,不同的消費需求以及消費產品的生命週期等狀況,為決策帶給及時而準確的資訊參考,以便決策者能夠適時做出商品銷售策略調整,優化商品營銷。

四是完善商務網站設計。電子商務網站站點設計者能夠利用關聯規則,來了解客戶的行為記錄和反饋狀況,並以此作為改善網站的依據,不斷對網站的組織結構進行優化來方便客戶訪問,不斷提高網站的點選率。

5結語

本文對Web挖掘技術進行了綜述,講述了其在電子商務中廣泛應用。能夠看出,隨著計算機技術和資料庫技術快速發展,計算機Web資料技術的應用將更加廣泛,Web資料探勘也將成為十分重要的研究領域,研究前景巨大、好處深遠。目前,我國的Web資料應用還處於探索和起步階段,還有許多問題值得深入研究。

篇9:資料探勘論文

題目:軟體工程資料探勘研究進展

摘要:資料探勘是指在大資料中開發出有價值資訊資料的過程。計算機技術的不斷進步,透過人工的方式進行軟體的開發與維護難度較大。而資料探勘能夠有效的提升軟體開發的效率,並能夠在超多的資料中獲得有效的資料。文章主要探究軟體工程中資料探勘技術的任務和存在的問題,並重點論述軟體開發過程中出現的問題和相關的解決措施。

關鍵詞:軟體工程;資料探勘;解決措施;

在軟體開發過程中,為了能夠獲得更加準確的資料資源,軟體的研發人員就需要蒐集和整理資料。但是在大資料時代,人工獲取資料資訊的難度極大。當前,軟體工程中運用最多的就是資料探勘技術。軟體挖掘技術是傳統資料探勘技術在軟體工程方向的其中一部分。但是它具有自身的特徵,體此刻以下三個方面:

(1)在軟體工程中,對有效資料的挖掘和處理;

(2)挖掘資料演算法的選取問題;

(3)軟體的開發者該如何選取資料。

1在軟體工程中資料探勘的主要任務

在資料探勘技術中,軟體工程資料探勘是其中之一,其挖掘的過程與傳統資料的挖掘無異。通常包括三個階段:第一階段,資料的預處理;第二階段,資料的挖掘;第三階段,對結果的評估。第一階段的主要任務有對資料的分類、對異常資料的檢測以及整理和提取複雜資訊等。雖然軟體工程的資料探勘和傳統的資料探勘存在相似性,但是也存在必須的差異,其主要體此刻以下三個方面:

1.1軟體工程的資料更加複雜

軟體工程資料主要包括兩種,一種是軟體報告,另外一種是軟體的版本資訊。當然還包括一些軟體程式碼和註釋在內的非結構化資料資訊。這兩種軟體工程資料的演算法是不同的,但是兩者之間又有必須的聯絡,這也是軟體工程資料探勘複雜性的重要原因。

1.2資料分析結果的表現更加特殊

傳統的資料探勘結果能夠透過很多種結果展示出來,最常見的有報表和文字的方式。但是對於軟體工程的資料探勘來講,它最主要的職能是給軟體的研發人員帶給更加精準的案例,軟體漏洞的實際定位以及設計構造方面的資訊,同時也包括資料探勘的統計結果。所以這就要求軟體工程的資料探勘需要更加先進的結果提交方式和途徑。

1.3對資料探勘結果難以達成一致的評價

我國傳統的資料探勘已經初步構成統一的評價標準,而且評價體系相對成熟。但是軟體工程的資料探勘過程中,研發人員需要更多複雜而又具體的資料資訊,所以資料的表示方法也相對多樣化,資料之間難以進行比較,所以也就難以達成一致的評價標準和結果。不難看出,軟體工程資料探勘的關鍵在於對挖掘資料的預處理和對資料結果的表示方法。

2軟體工程研發階段出現的問題和解決措施

軟體在研發階段主要的任務是對軟體執行程式的編寫。以下是軟體在編碼和結果的提交過程中出現的問題和相應的解決措施。

2.1對軟體程式碼的編寫過程

該過程需要軟體的研發人員能夠對自己需要編寫的程式碼結構與功能有充分的瞭解和認識。並能夠依據自身掌握的資訊,在資料庫中搜集到能夠使用的資料資訊。通常狀況下,程式設計需要的資料資訊能夠分為三個方面:

(1)軟體的研發人員能夠在已經存在的程式碼中搜集能夠重新使用的程式碼;

(2)軟體的研發人員能夠搜尋能夠重用的靜態規則,比如繼承關係等。

(3)軟體的開發人員搜尋能夠重用的動態規則。

包括軟體的介面呼叫順序等。在尋找以上資訊的過程中,通常是利用軟體的幫忙文件、尋求外界幫忙和蒐集程式碼的方式實現,但是以上方式在蒐集資訊過程中往往會遇到較多的問題,比如:幫忙文件的準確性較低,同時不夠完整,可利用的重用資訊不多等。

2.2對軟體程式碼的重用

在對軟體程式碼重用過程中,最關鍵的問題是軟體的研發人員務必掌握需要的類或方法,並能夠透過與之有聯絡的程式碼實現程式碼的重用。但是這種方式哦足跡資訊將會耗費工作人員超多的精力。而透過關鍵詞在程式碼庫中搜集可重用的軟體程式碼,同時按照程式碼的相關度對蒐集到的程式碼進行排序,該過程使用的原理就是可重用的程式碼必然模式基本類似,最終所展現出來的搜尋結果是以上下文結構的方式展現的。比如:類與類之間的聯絡。其實現的具體流程如下:

(1)軟體的開發人員建立同時具備例程和上下文架構的程式碼庫;

(2)軟體的研發人員能夠向程式碼庫帶給類的相關資訊,然後對反饋的結果進行評估,建立新型的程式碼庫。

(3)未來的研發人員在蒐集過程中能夠按照評估結果的高低排序,便於查詢,極大地縮減工作人員的任務量,提升其工作效率。

2.3對動態規則的重用

軟體工程領域內對動態規則重用的研究已經相對成熟,透過在編譯器內安裝特定外掛的方式檢驗程式碼是否為動態規則最適用的,並能夠將不適合的規則反饋給軟體的研發人員。其操作流程為:

(1)軟體的研發人員能夠規定動態規則的順序,主要表此刻:使用某一函式是不能夠呼叫其他的函式。

(2)實現對相關資料的儲存,能夠透過佇列等簡單的資料結構完成。在利用編譯拓展中檢測其中的順序。

(3)能夠將錯誤的資訊反饋給軟體的研發人員。

3結束語

在軟體工程的資料探勘過程中,資料探勘的概念才逐步被定義,但是所需要挖掘的資料是已經存在的。資料探勘技術在軟體工程中的運用能夠降低研發人員的工作量,同時軟體工程與資料探勘的結合是計算機技術必然的發展方向。從資料探勘的過程來講,在其整個實施過程和週期中都包括軟體工程。而對資料探勘的技術手段來講,它在軟體工程中的運用更加普遍。在對資料探勘技術的研究過程中能夠發現,該技術雖然已經獲得必須的效果,但是還有更多未被挖掘的空間,還需要進一步的研究和發現。

參考文獻

[1]王藝蓉.試析面向軟體工程資料探勘的開發測試技術[J].電子技術與軟體工程,2017(18):64.

[2]吳彥博.軟體工程中資料探勘技術的運用探索[J].數字通訊世界,2017(09):187.

[3]周雨辰.資料探勘技術在軟體工程中的應用研究[J].電腦迷,2017(08):27-28.

[4]劉桂林.分析軟體工程中資料探勘技術的應用方式[J].中國新通訊,2017,19(13):119.

篇10:資料探勘論文

資料探勘在電力排程自動化系統的應用

摘要:電力排程自動化系統主要是被應用線上排程生產執行中,能夠對資料資訊進行分析、控制、傳輸。資料探勘技術作為一種人工智慧和資料庫技術結合的新型技術形式,將其應用到電力排程自動化系統中能夠有效解決電力調動自動化系統資料資訊應用不合理的問題。文章在闡述資料探勘和電力排程自動化系統內涵的基礎上,結合蟻群演算法改善原有周期性資料探勘方法,旨在進一步提升電力排程自動化系統執行速度,為相關人員的報表制定、事故預警帶給幫忙。

關鍵詞:資料探勘;電力排程自動化系統;應用

在大資料技術的不斷髮展下,人們對資料資訊的需求增加,但是現階段社會發展中缺乏對資料資訊進行有效分析、處理的工具。資料庫系統也僅僅是對資料資訊的簡單處理,無法充分挖掘資料資訊背後的隱藏資訊,因而無法發揮出資料資訊在人類社會發展中的重要作用。電力排程自動化系統中包含超多電力資料資訊,但是在實際應用中這些資訊是很難被完全挖掘出來的。資料探勘的出現有效解決了資訊無法充分挖掘的問題,能夠實現對噪聲資料、不完全資料的有效處理。在資料探勘中,關聯規則資料是資料探勘的重要課題,透過關聯規則能夠發現不同資料庫資料資訊之間的關聯,為資料探勘帶給有力支援。為此,文章重點分析基於關聯規則的資料探勘在電力排程自動化系統中的應用。

1資料探勘概述

1.1內涵和分類

在資訊科技的發展下,我國資料庫庫存容量急劇擴張,在龐大的資料資訊中怎樣獲取有效的資料資訊成為相關人員重點思考的問題。資料探勘能夠從技術層面來分析、處理這些資料資訊,透過各種分析工具的利用來找到資料資訊和模型構建之間的關聯,為相關領域的發展帶給重要決策支援。在資訊挖掘技術的發展下,出現了不同型別的資料探勘技術和方法。

1.2關聯規則挖掘

關聯規則挖掘是資料探勘的重要分支,是常見的資料探勘方法,主要是對超多資料之間關聯問題的發現和分析,在找到資料聯絡之後決定哪些事件能夠一齊發生。資料庫中的關聯規則描述如下所示:假設I={i1、}是由m個不同專案組合構成的集合,項的集合是項集,包括k個項集,給定事務D(交易資料庫),事務(交易)T從屬於資料項(I),T是唯一的標示符。在X屬於T的時候,交易T則是包含項集X,關聯規則X=Y在交易資料庫中成立。

2電力排程自動化系統概述

2.1內涵

電力排程自動化系統能夠為電網系統安全、穩定執行帶給重要支援,併為相關電力人員工作、決策帶給有力資訊的支援。電力排程自動化系統的組成如下所示:第一,前置機。前置機能夠從RTU從完成資料資訊的收集整理工作,並能夠結合實際對系統的指令進行接收、解釋。第二,主備用伺服器。主備泳伺服器包括資料庫和實時庫伺服器,是電力排程系統的重要組成部件,能夠對系統各個工作站的執行進行監督。第三,網路伺服器。網路伺服器主要是對資料資訊分佈和資料表整理工作的監督。第四,衛星鐘。衛星鐘系統將全球定位時間作為系統時間。第五,物理隔離開關。物理隔離開關能夠解決資料的隔離應用問題。

2.2電力排程自動化系統對資料探勘技術的需求

電力導排程自動化系統對資料探勘技術的需求具體表此刻以下幾個方面:第一,透過資料探勘技術減少電力排程自動化系統的工作時間,提高工作效率。第二,資料探勘能夠提高資料探勘技術的管理應用水平,減少外界因素對電力排程自動化的干擾。第三,能夠從不同角度對資料資訊進行定量、定性分析。第四,為電網報告的分析和制定帶給輔助支援。第五,實現了對資料資訊的及時查詢,為電力排程自動化工作帶給了支援。

3基於蟻群演算法的週期性關聯規則資料探勘

3.1週期關聯規則

週期性關聯規則挖掘是時態約束關聯規則的一種,適用於對週期性關聯的發現層面,比如每年夏季城市居民用電量的均值比其他季節高,城市居民週末用電量平均值比其他週末時間高等。

3.2蟻群演算法

螞蟻的群體行為表現出一種資訊正反饋現象,蟻群演算法由轉移規則和資訊素更新規則組成,具體能夠描述成:假設平面上有n個城市,n個城市的TSP問題來找到n個城市的最短路徑。假設蟻群系統中螞蟻的數量是m、d(i,j=1,2,…,n),代表的是城市i到城市j之間的距離,b(t)表示t時刻位於城市i的螞蟻個數。在初始階段,各個線路上的資訊量是對等的,假設τij(0)=c,螞蟻k在運動的過程中根據資訊量來選取下一步所走的方向,t時刻螞蟻k由城市i轉移到城市j的概率表示如(1)所示。

3.3基於蟻群演算法的週期性關聯規則

假設T1、T2,Tmin為系統時間定義單位組成的時間表達式,都比零大,假設T1<T2,差的絕對值比極小時間值的小,稱作T1在T2之前發生。如果T1=T2,差的絕對值和極小時間值相等,則是說明T1和T2同時發生。假設T1,T2是系統時間定義單位組成的時間表達式,都比零大,int=[T1、T2]是T1到T2的時間隔。基於蟻群演算法的週期性關聯規則操作首先需要對資料集進行分類整理,在時間差表滿足資料庫要求的狀況下將資料集按照時間分成多個分塊,並按照時態屬性進行升序排列,結合每個類別進行週期性關聯規則挖掘,構成多個數據集。其次,對各個分類資料集進行週期性資料探勘分析、改善。最後,對週期性資料集挖掘的改善。對資料資訊進行排列整理,如果兩個週期性序列相交,以週期小的為主,在資料的時間跨度內對資料的子集進行擷取。

4資料探勘在電力排程自動化系統中的應用

4.1基於週期性關聯規則挖掘的資料分析系統平臺

在社會經濟的發展下,電力排程自動化系統從原先的實時性監控報表查詢系統轉變為智慧排程自動化系統,高階應用軟體的應用促進了電力排程系統朝著智慧化的方向發展。基於週期性關聯規則挖掘的資料分析系統平臺選取微軟的平臺,在該平臺的支援下為電力排程系統執行帶給了豐富資料資源的支援,且具備強大的資料庫訪問潛力。

4.2基於資料橋的資料整合模組設計

在電力排程自動化系統的應用中存在多個標準,這些標準對分散式電力系統發展起到了重要作用,但是在各個資料整合規約不同的影響下,電力企業發展容易出現資訊混亂的現象。為了避免這種現象的發生,在資料整合模組中需要進行資料清洗操作。

4.3資料分析功能模組設計

第一,同期資料分析模組。同期資料分析模組一般被人們用在排程自動化資料系統的橫縱向比較,透過對同期資料的比對分析能夠為電力排程系統資料評估帶給更多便利。同期比較分析模組應用了動態生成查詢語句,能夠對資料資訊進行動態化的查詢和分析整理。第二,週期性資料分析。週期性資料分析主要是在資料庫系統中挖掘具有周期性特點的資料集,從而對資料波動狀況進行清晰的反應。在週期性資料分析模組挖掘演算法中存在一個最小時間的誤差引數,這引數是週期數據集的基礎資料,影響週期性資料分析的精確度。第三,資料預警分析。資料預警主要是結合現有的排程自動化系統報警資訊和資料探勘週期數據集來對關聯資料進行分析,資料分析系統採取了有限權值分配的方法,預警列表按照預警資訊的大小進行有序排列,具體包含報警週期性資料集、預警資訊週期性資料集大小、預警模式等資料。

5結束語

綜上所述,文章在闡述資料探勘內涵和電力排程自動化系統內涵的基礎上研究了週期性關聯規則的資料探勘演算法知識,並將其應用到電力排程自動化系統中,取得了良好的效果。週期性關聯規則演算法是資料探勘技術的主流發展方向,在從歷史資料中尋找規律的同時能夠為電力排程自動化系統執行帶給支援,需要引起相關人員的重視。

參考文獻:

[1]肖福明.淺析資料探勘在電力排程自動化系統中的應用[J].通訊世界,2014(17):58-59.

[2]李陽.資料探勘在電力排程自動化系統中的應用[D].華北電力大學(河北),2009.

[3]朱維佳,曹堅.電力排程自動化系統中資料探勘技術的應用[J].電氣時代,2015(07):108-111.

[4]於存水.基於智慧電網排程系統的排程監控平臺的設計與實現[D].吉林大學,2013.

[5]李豔.關於資料探勘中關聯規則演算法的相關問題研究[J].科技創新與應用,2017(33):161+163.

【小編簡評】

資料探勘論文 (優選10篇)如果還不能滿足你的要求,請在本站搜尋更多其他資料探勘論文範文。

【網友評價】

對實際工作具有指導意義。

  • 文章版權屬於文章作者所有,轉載請註明 https://wenfanwang.com/zh-tw/muban/jingxuan/yryny.html
專題