引言
隨著現代化計算機技術的不斷發(fā)展與進步,社會逐步進入網絡化和信息化的時代,網絡時代信息的有效收集、提取、存儲與分析等勢必也會與網絡產生千絲萬縷的聯系,但是,現階段網絡信息的安全性受到很大的挑戰(zhàn),對網絡信息監(jiān)督與控制已是迫在眉睫。數據挖掘技術可以及時有效地發(fā)現信息本身的特征及不同信息系統之間的關系,進而追蹤信息發(fā)展,可以有效地實現對信息的監(jiān)督與控制。在計算機網絡系統中,會有很多包含信息安全的證據被隱藏于文本文件或者音頻、視頻等文件中。而網絡數據挖掘技術恰好可以針對證據的這類特點對數據進行分析與整理,發(fā)現數據之間的關系及數據本身所存在的某些特征,進而對信息安全進行有效監(jiān)督與控制。
1數據挖掘技術
數據挖掘是人工智能與數據庫技術相結合的產物,是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的卻又潛在有用的信息和知識的過程。根據數據挖掘的目標,采用人工智能、集合論、統計學等方法,應用相應的數據挖掘算法,分析數據并通過可視化工具表述獲得模式或規(guī)則。它使數據存儲技術進入一個更高級階段,它不僅利用了傳統的數據庫的存儲功能,對歷史數據進行查詢和遍歷,而且還能夠找出歷史數據之間的內在聯系,掘出數據庫中大量數據背后隱藏著的許多重要信息。這些信息是關于數據的整體特征的描述及對發(fā)展趨勢的預測,在決策生成中具有重要的參考價值。數據挖掘作為一門交叉學科,把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。該技術所能發(fā)現的知識可以劃分為如下幾種模型:關聯模型、回歸模型、分類模型以及序列模型等。
1.1關聯模型
關聯模型主要用于分析不同事件之間的關聯性,即一個事件發(fā)生的同時,另一個事件也經常發(fā)生。關聯模型中所關注的重點是那些有實用價值的關聯發(fā)生的事件。其主要依據是事件發(fā)生的概率和條件概率應該符合一定的統計意義。關聯的規(guī)則是形如X一Y的蘊涵式,表示數據庫中滿足x條件的記錄必定也滿足Y的條件。其中x和Y分別稱為關聯規(guī)則的先導(LHS)和后繼(RHS)。
1.2回歸模型
回歸模型主要是用于分析一個變量(被解釋變量)關于另一個(些)變量(解釋變量)的具體依賴關系的計算方法和理論。從一組樣本數據出發(fā),確定變量之間的數學關系式對這些關系式的可信程度進行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著。利用所求的關系式,根據一個或幾個變量的取值來預測或控制另一個特定變量的取值,并給出這種預測或控制的精確程度。
1.3分類模型
分類模型主要是通過分析具有類別的樣本的特點,得到決定樣本屬于各種類別的規(guī)則或方法。利用這些規(guī)則和方法對未知類別的樣本分類時應該具有一定的準確度。其主要方法有基于統計學的貝葉斯方法、神經網絡方法、決策樹方法等。
1.4序列模型
序列模型主要是在多個序列組成的數據集合中,設定一個最小支持度閾值,挖掘相對時間出現頻率較高,即子序列出現的頻率不低于給定的最小支持度閾值的模式。序列模式挖掘的對象以及結果都是有序排列的,即數據集中的每個序列在時間或空間上是有序的,輸出結果也是有序的。
2數據挖掘技術在信息安全中的應用
信息安全的威脅無處不在,圖1所示給出了信息網絡所遭遇的較大威脅。隨著云計算和移動互聯讓IT產業(yè)發(fā)生巨變,這將不可避免地帶來信息安全產業(yè)的變革。以APT為代表的下一代安全威脅帶給業(yè)界前所未有的挑戰(zhàn),基于社會工程學的攻擊方式也令人防不勝防,傳統的安全防護手段已經不足以抵抗這些新的威脅。
圖1 信息網絡所遭遇的大威脅
目前,網絡信息安全的監(jiān)督與控制手段主要集中在多種工具的綜合利用上,通過多元化的收集工具對信息進行收集,并在此基礎上采用一定的計算機算法對數據進行綜合處理,之后將信息進行歸類,提取需要的信息。這一信息收集處理過程與數據挖掘技術結合,使得整個過程分為數據的采集、預處理、挖掘、結果四部分,程序變得相對簡單。但如果與互聯網相連接,則會衍生出多種技術的綜合使用,比如針對某一特定網站或者數據庫的捜索等。通過網絡數據挖掘技術和信息處理分析與歸類技術對互聯網所收集的信息與數據進行整理存儲,再以某種特定算法對數據進行分析,之后找出數據的基本特征和數據之間的某種關系,從而為相關方面的決策提供建議。
2.1數據挖掘在信息安全證據獲取中的應用
證據的獲取主要是對包括圖片、文本、視頻、音頻等在內的多種數據形式進行信息的收集。要獲取全面可靠、劃分粒度適中、滿足應用的證據是信息安全證據評估的基礎。包含網絡信息安全的各種證據包含在各種應用協議報文的巨大網絡流量中。證據獲取要全面、實時、真實可靠,盡量不影響網絡的正常流量。目前,可用于獲取證據的方法有以下幾種[3]:
利用網絡流量檢測與分析工具,如Bandwidthd,它可以獲得每個網關的各種協議的詳細IP流量,查看網絡狀態(tài),如數據包的傳輸和接收速率等。
利用目前已有的入侵檢測系統,如RealSecur,可以獲得訪問次數、操作時延,用戶入侵概率等。還有著名的KDD99網絡入侵檢測數據等。
利用審計跟蹤系統產生的系統事件記錄和用戶行為記錄,包括系統日志、審計記錄、應用程序日志、網絡管理日志截獲的用戶數據包及相應的操作記錄等。
專門的數據采集工具,如Cisc。的NetFlowMonitor,NetScout公司的NetScout網絡性能管理產品,可獲得不同用戶對帶寬的占用等。
根據協議標準(如RMON、SNMP等)自己開發(fā)軟件獲取信息安全證據。
根據獲取證據的行為方式,證據可分為主動獲取和被動獲取證據。主動獲取如IP分組的平均傳輸延遲,可用ping命令主動探測;而被動獲取證據是根據用戶的實際行為所產生的影響獲得證據,如用戶占用的存儲資源。
2.2數據挖掘在信息安全證據預處理中的應用
在獲得證據后,還要進行“清理”,即剔除冗余的、無效的證據,將無序的、雜亂的證據整理成有序的、完備的證據,并進行規(guī)范化表示,為信息安全證據評估奠定堅實的基礎。證據的規(guī)范化表示有兩種方式:
2.2.1百分比和二進制表示證據的規(guī)范化表示
在百分比和二進制表示的證據其范圍本身都在[0,1]范圍內,當它們是正向遞增時不需要改變,但當它們是正向遞減
值時,通過公式et=1/et將它們改變成正向遞增值。
2.2.2具體值表示證據的規(guī)范;化表示
對于正向遞增的具體值可以通過et=把它轉化成[0,1]范圍內的正向遞增值,其中etmax是et范圍內的最大值。對于正向遞減的具體值可以通過et=把它轉化為[0,1]范圍的正向遞增值。
2.3信息安全證據庫挖掘屬性分析
經過前期數據獲取與預處理之后,生成統一的證據庫,之后便需要對這些證據進行數據挖掘屬性分析,以確定從模型庫中選擇相對應的模型,從算法庫中選取要采用的算法。預處理后的證據庫具有以下兩個性質:
原始證據的客觀性使得信息安全的主觀判斷具有客觀依據,同時,也為具有主觀特殊性的信任信息共享提供了可能性。
證據的規(guī)范化處理解決了證據的范圍、單調性和方向性不一致問題,因為即使兩個原始證據有組合的意義,但如果兩個證據值范圍差別很大的話,權重組合會導致大的數據淹沒小的數據。
另外,要提高證據挖掘的整體準確性與針對性,還需要不斷進行挖掘方法的試錯,通過試錯來找到最好的算法,也就是我們所熟悉的挖掘訓練。這個過程主要表現如下:首先從證據庫中抽取一部分數據作為訓練樣本,之后從算法庫中選取某種算法,從模型庫中選取某種模型,將數據挖掘的結果與參照集進行一定的對比。如果結合與要求相符,則開始正式的挖掘,反之,則需要重新選擇。
3結語
信息安全的實質就是要保護信息系統或信息網絡中的信息資源免受各種類型的威脅、干擾和破壞,即保證信息的安全性。通過網絡數據挖掘技術,可以有效解決信息安全在證據獲取和處理分類上所遇到難題,生成規(guī)范的證據庫。結合挖掘模型庫和挖掘算法,可以有效發(fā)現信息網絡中潛在的威脅因素,提高信息網絡的安全指數。





