论述:上篇文章主要采用的相对风险模型来进行挖掘,为了减少模型的数量,在已经选择的风险模型中继续的选择具有代表的风险模型。可以说这种方法是在先验的数据基础上建立的统计模型算法,基本的原理是极大后验概率准则!实际上模型的数据挖掘早就提出来过(见网站http://fimi.cs.helsinki.fi/),只不过以风险模式的形式首先提出是在文章(Relative Risk and Odds Ratio: A Data Mining PerspectiveHaiquan Li, Jinyan Li, & Limsoon ,WongMengling Feng &YapPeng Tan)中。 缺陷:1)必须要有一定的数据源,如果数据源不准确所得到的结果完全背离实际的应用;再者有可能出现虚报和漏报的情况(解决的方法可以采用贝叶斯代价函数来表示,以及减少各种信息偏倚)。 2)必须要预先设置supp(P)和相对风险阈值,此值的设置关乎得到的模型的可信程度。 |