基于数据挖掘技术的异常入侵检测系统研究

出处:曲 萍 发布于:2011-08-30 21:05:20

 

  入侵检测系统IDS(intrusion detection system)是用户计算机主动安全防护的一种措施,它用于检测未经用户授权直接进行计算机信息访问的行为,它从系统内部和各种网络资源中主动采集信息,从中分析可能的异常入侵。

    根据入侵检测方法,IDS分为异常检测系统和误用检测系统两大类。误用检测系统只能检测出已知特征模式的攻击,对未知特征模式的攻击无法检测。而异常检测系统采用将系统当前的活动与过去行为模型进行比较的方法,能够有效地对新的、未知的攻击进行检测。本文提出了一种新的基于数据挖掘技术的异常入侵检测系统ANEIDSDM(A New Exception Intrusion Detection System based on Data Mining)。

  1 ANEIDSDM模型概述

  在ANEIDSDM模型中,数据信息E是否异常,由数据评估W决定。只有当数据评估通过数据信息异常检测,满足相似度、支持度和置信区阈值时,数据信息E才被认为是正常的数据信息,否则为异常。

  数据信息是分散地存储于计算机和传播于网络中的,对于数据的采集是基于一定条件的,有基于主机的信息采集,也有基于网络的信息采集和混合型的数据信息采集等。当数据信息采集完成后,会经过数据预处理,形成数据项集S,对S分类产生高频繁集和低频繁集。对于高频繁数据项集进行模式分析,形成数据模式集O。每一种模式集都对应一种数据规则,对数据模式集的数据分析处理过程就是数据挖掘规则过程,数据规则集Q形成后,为了便于检测,对其进行分类分析二次数据挖掘,形成分类规则集,终形成规则库K。经过多次训练后,数据采集的规则库具有一定的记忆,当数据进行抓取时结合记忆库和规则库的双重考核,数据信息更加安全可信。

  数据挖掘过程中对数据项集分析产生的数据模式可能有用,也可能是无关的。所以为了节约计算机存储空间和数据挖掘速度,采取以某一主属性为特征属性的方式对数据信息E进行挖掘。当待测数据信息E进行攻击时,启动检测系统,快速对其数据信息进行分析,形成数据规则集V,对规则集V实行分类匹配,对比相似度,搜索与之相对应或相类似的规则库对其规则集进行检验。若异常,则实行预警,否则以正常信息对待。当数据信息庞杂时,根据分类规则库,可快捷对数据规则集实行查找匹配,快速对数据信息进行检测。

  数据检测时结合在线滑动窗口T,不仅对原始获取数据信息进行实时检测,而且对当前由用户操作所引起的原始数据部分信息丢失、更改等现象具有一定的处理应变能力。当数据评估W完成后,评估结果存入决策列表L中,以供用户决策。

  其思想有以下特点:

    (1)数据信息的采集结合主属性产生高频和低频数据项集,减少了无关信息的处理过程。

    (2)采取关联分析和分类分析二次挖掘,数据处理速度和数据挖掘质量有明显的提高。

    (3)在线检测数据记录匹配,实时性更高。

    (4)引入相似度匹配检测思想,实现快速数据评估。

  2 相关知识与定义

  2.1数据挖掘

  数据挖掘(DATA Mining)是指从大量数据信息中发现数据间的潜在规律,进而提取人们感兴趣的和有用的知识的方法和技术,这些知识具有隐含性、未知性、异常性,但又是潜在的对系统安全检测有用的信息。数据挖掘过程一般由三个阶段组成:数据准备阶段(包括数据清理与集成、数据选择与变换)、数据挖掘阶段、评估与表示阶段(结果表达与解释)。数据挖掘的模式有关联模式、分类模式、回归模式、时间序列模式、聚类模式和序列模式六种。与数据挖掘的模式相对应的数据挖掘算法有:关联分析算法、数据分类算法、序列分析算法和聚类分析算法等。目前,应用于入侵检测领域的数据挖掘算法主要是关联分析算法、数据分类算法和序列分析算法。

  (1)数据预处理

  数据预处理模块处理原始数据包,抽取对应的主特征属性组成数据信息集,提供给数据挖掘模块。由于数据连接过程需要传送许多数据包,而这些数据包的基本属性很多是重复的,所以对于TCP连接,从连接建立到连接终止过程中所有数据包的传送抽象为一个连接事件,而对每一个连接事件建立一个与之相对应的数据项集。对无连接的UDP,可简单地将每一个数据包抽象成一个连接事件。

  (2)关联规则挖掘

  关联规则是指对数据项集中各种数据模式的有代表性的数据之间知识规律的规则描述。在入侵检测系统中,设定一个支持度和一个置信度来度量关联规则的相关性,从已知的数据信息中产生关联规则,保证其支持度和置信度大于用户预先设定的支持度和置信度阈值。其过程为:①特征抽取与数据预处理。数据信息被采集后形成数据项集,每一个数据项集以一个主属性为参考,对无关数据项集进行处理。②关联规则挖掘分析。对数据模式中关联规则的数据进行规则挖掘。③检测入侵。将新产生的关联规则添加到关联规则库中去,然后将用户行为与关联规则库中的规则匹配来判断是否入侵。常见的算法有Apriori算法和AprioriTid算法。

  (3)频度分析

  频度分析是指在一定时间窗口事件发生的频度,它有高频和低频繁两种。①高频挖掘:即数据项集的属性集大于一定支持度和置信度,如DDOS攻击,在高频繁挖掘时就能检测出这类攻击。②低频繁挖掘:即数据项集的属性集支持度低于一定阈值而置信度大于一定阈值,如慢扫描过程在单位时间内异常扫描较少,假如只检查高频数据项集,就会漏掉这类模式的攻击。

  (4)数据分类分析

  数据分类的目的是提取数据库中数据项的特征属性,生成分类模型,把数据库中的数据项映射到预先定义的类别中的一个,异常入侵检测时它可以用数据规则集的形式表示。数据分类的步骤如下:①训练数据项集,将待测数据信息训练成数据规则集。②分析数据规则集,提取主特征属性。③根据标准数据规则库中数据规则集对待测数据规则集进行分类。常用的分类算法有RIPPER、m3、C4.5、Near-neighbor和神经网络等。

  2.2 基础定义

  定义1 滑动窗口。在t时间内,数据匹配检测的范围。设开始时间为t=nt0,则滑动窗口T的检测范围为t=T+nt0。其中,t0为步长,T为窗口大小,t为时间。一般T是固定值[13],为用户默认,可根据系统安全等级设置其值大小。

  定义2 相似度。数据挖掘规则库与系统检测匹配规则库的相似性度量值。

  


  定义3 数据评估。对数据规则是否符合系统安全的衡量。

  设数据评估为W,则W=[正常,异常],其评估过程为在滑动窗口T内对规则库Ki的相似匹配和检测匹配。

  2.3 ANEIDSDM定义

  本模型由一个10元组{E,S,O,Q,P,K,W,T,M,L}来表示。其中E表示数据信息,包含基于网络流量,基于主机和混合型的数据信息。当获取数据信息E后,对其形成主属性为采集标准的数据项集S,如在时间、方向、端口号、主机IP地址等属性中,以目的主机IP地址为主属性,采集的所有数据记录经过数据去噪、预处理后形成数据项集。数据项集S经过数据模式分析后形成数据模式集,用O来表示。每种数据模式都对应一种数据规则算法,经过数据挖掘,形成数据规则集,用Q来表示。对数据挖掘的规则集进行分类分析,形成数据分类集,用P来表示。数据挖掘的结果终形成规则库K。数据挖掘完成后需要对数据挖掘结果进行数据评估,用W来表示。在数据评估过程中引入滑动窗口T和相似度M,数据评估结束后结果添加在决策列表L,提供给用户。用户响应后,规则库K自动更新。

  3 模型

  ANEIDSDM模型的框架如图1所示。本框架由以下几部分组成:

    (1)数据信息。数据信息既有基于网络流量的,也有基于主机的,亦有混合型数据信息。

    (2)数据采集。数据采集包括数据获取,数据去噪和数据预处理3个部分。数据信息的采集是数据挖掘的基础阶段,采集数据质量的好坏直接影响到数据挖掘质量的优劣。

    (3)数据分析。数据采集后需要对其进行模式分析,根据模式分析的方式选取合适的规则库算法,形成规则库挖掘。对数据挖掘产生的规则库进行二次挖掘,产生分类规则库。

    (4)数据评估。对数据挖掘的结果需要进行数据评估,为了提高数据匹配算法的实时性和高效性,引入了在线滑动窗口和相似度匹配思想,对于数据挖掘产生的规则库根据相似度匹配算法快速分类,然后通过滑动窗口在线对规则库进行匹配检测。

    (5)事件响应。对数据评估的结果进行决策,如果确定为异常数据记录,则启动预警系统,更新规则库。规则库作为数据去噪和数据挖掘的一个参考衡量标准,可以提高数据纯净度和数据挖掘质量。

    (6)用户。用户对事件响应有决策权,事件响应反映给用户时,用户可根据自己设置的系统安全等级选择是否预警。

  4 算法分析

  ANEIDSDM模型的算法流程图如图2所示。ANEIDSDM模型采用滑动窗口和相似度技术,窗口大小为T,步长为t0(t0<T),相似度为m,具体方案如下:

  (1)数据信息训练算法

  输入:数据信息E,滑动窗口T,时间t,相似度m,窗口个数k,步长t0。

  输出:数据挖掘规则库K。

   
  


  将数据规则集中重复度小于阈值的规则舍去,输出规则库K;

  (2)检测阶段的数据信息挖掘过程算法

  输入:数据信息E,滑动窗口T,时间t,相似度m,窗口个数k,步长t0,数据挖掘规则库K,待测数据规则为V。

       

 

  ⑤if W={异常}重复②、③、④ //对滑动时间窗口得到数据规则集进行数据评估;

  L=W  //每次检测结果提交决策列表以供用户决策;

  5 实验分析

  数据参考MIT林肯实验的DARPA 1999年评测数据集。由于数据信息自身的复杂性,需要对数据信息进行多次训练以降低数据噪音的影响。在本实验中对ANEIDSDM算法进行模拟测试分为两个阶段:

  (1)为数据训练阶段:首先收集数据信息,依此数据信息对其抽取特征主属性,挖掘高频度数据项集和低频数据项集,对高频数据项集进行数据模式集,对数据模式集进行数据挖掘,形成数据规则集,对数据规则集进行分类,形成标准规则库。实验时分为3个阶段收集,实现3次训练,如表1所示。

 

 

  (2)数据模拟检测阶段:对待测数据信息进行数据规则集的挖掘,根据与标准规则库中分类规则集的相似度对比,快速分类,通过在线滑动窗口和匹配检测方法,对数据信息进行异常入侵检测。若属于异常信息,则进行预警。实验时通过对7种常见攻击类型的模式进行异常入侵检测,如表2所示。

  通过模拟攻击实验表明,数据信息经过ANEIDSDM入侵检测能够很好地检测异常数据信息,其误警率和检测率都有了明显的提高。本实验同时可以有效地提高入侵检测系统的检测速度。

  本文针对现有异常入侵检测系统存在的问题,建立了一种新的基于数据挖掘技术的异常入侵检测系统模型。该模型包括数据采集、数据分析、数据评估、事件响应等一系列检测过程,利用多次训练、滑动窗口、规则分类和相似度匹配思想,大大降低了系统的误警率,提高了检测速度,提升了检测率,增强了网络系统的安全性能。


  

版权与免责声明

凡本网注明“出处:维库电子市场网”的所有作品,版权均属于维库电子市场网,转载请必须注明维库电子市场网,https://www.dzsc.com,违反者本网将追究相关法律责任。

本网转载并注明自其它出处的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品出处,并自负版权等法律责任。

如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。

OEM清单文件: OEM清单文件
*公司名:
*联系人:
*手机号码:
QQ:
有效期:

扫码下载APP,
一键连接广大的电子世界。

在线人工客服

买家服务:
卖家服务:
技术客服:

0571-85317607

网站技术支持

13606545031

客服在线时间周一至周五
9:00-17:30

关注官方微信号,
第一时间获取资讯。

建议反馈

联系人:

联系方式:

按住滑块,拖拽到最右边
>>
感谢您向阿库提出的宝贵意见,您的参与是维库提升服务的动力!意见一经采纳,将有感恩红包奉上哦!