Rough集理论是由Pawlak在80年代初首先引入计算机科学领域的,它作为一种基于数学概念方法,已广泛用于数据挖掘的各个领域。隐含在Rough集模型中最原始的观点为:有关决策的信息通常是模糊的,这种模糊性来自于信息源的不确定性和不精确性,模糊性可能是由于信息的表示粒度而导致[3].在Rough集模型中,知识表示是通过信息系统来完成的。如果信息系统中的信息粒度较大,即属性的等价类数量较多,且每个等价类中只包含很少的对象,则这样的信息系统所产生的规则虽然在训练集上具有较好的分类能力,但不能保证其在测试集或对新对象集上有较好的分类预测能力。因此,有必要对原始的信息系统进行数据过滤,以降低信息粒度。提出了一个简单的数据过滤方法,能够提高规则的统计意义,而保持信息系统内在依赖信息不受损失。其基本的工具是利用二元信息系统首先将原始的信息系统转化为二元信息系统,然后在二元信息系统的基础上利用一定的方法对属性进行合并,以完成数据的过滤,减低信息的粒度,提高规则统计意义而保持规则的近似质量[5])不变。由于在信息系统二元化过程中需要将每个非二元属性q拆成Vq个属性,因此当信息系统属性较多,且属性的值域较大时,将产生庞大的二元信息系统,导致计算复杂性提高。为此我们提出一种基于Rough集的数据过滤算法,该方法直观,计算复杂性也不高,能达到文献[4]同样的效果。本文的组织如下:在第2节中,我们简要提出了一些Rough集理论的有关概念;我们提出的基于Rough集理论的数据过滤算法,并从理论上证明了该算法不仅能保证规则的近似质量不变,而且能有效地提高规则的统计意义;2Rough集概念Rough集理论已经在数据挖掘各个领域中取得了广泛的应用。在叙述我们的过滤算法之前,先简要回顾一下Rough集理论的有关概念。
在Rough集理论中,核被认为是知识表示的基本属性集,当信息系统的核为空时,说明该信息系统中的属性具有较高的替代率。其原因可能是由于原始数据不完备的预处理所导致的高粒度的信息系统所致,因此,有必要降低信息粒度。一个具有正确的高近似质量的规则并不能保证其是有效的。例如,如果我们用Rough集的方法在基于少量的对象的信息系统中,发现出规则Q→P,尽管其近似质量可能很高,甚至为1.0,但是,由于支持其成立的对象少,这种近似质量可能是由于偶然因素引起的,导致其在分类新对象的预测能力较低。因此,规则预测的有效性必须用统计意义进行测试。
当信息系统中的信息粒度较高时,规则的统计意义的值往往是很高的。为此,我们提出一种基于Rough集理论的数据过滤算法。它的基本思想是通过D确定的Q等价类的合并,提高规则的统计意义,从而降数据过滤方法的分析为了说明上述基于Rough集理论的数据过滤方法的有效性,我们从下面两方面来分析,首先证明该算法能保证规则的近似质量,然后证明进行数据过滤后的信息系统的规则统计意义不大于过滤以前的信息系统的规则统计意义。
结束语我们在研究Rough集理论的基础上,提出了一种基于Rough集理论的数据过滤算法。该算法的基本思想是基于P确定的等价类的合并,算法直观,计算简便。理论和实验表明,该算法能够减低信息系统中信息的粒度,在保持规则近似质量不变的前提下,有效提高规则的统计意义,从而提高了规则的预测强度。