关联挖掘之Apriori算法
1. 什么是关联挖掘(Association rule mining): Finding frequent patterns,associations,correlations or causal structure among set of items or objects in transaction databases,reletional databases and other information repositories. 说白了,就是找到一堆数据中找到相应的关联关系,比如最有名的奶粉和尿布的例子 下面用一个例子来介绍下Apriori算法 假设上图是一个数据库,需要找到items_bought中的关系,在Apriori算法中,往往有两个参数,support和confidence,先设置一个最小的support和confidence数值,如果每次计算得到的数值少于support或者confidence,就被剪枝,这里我们设support最小为50%, confidence为50% support(1,2) = P(1^2) confidence(1,2) = P(1^2) / P(1) 有事还会有interesting, interesting = P(1^2) / (P(1)*P(2)) = confidence / P(2)? 即,support为12出现的概率,confidence为12出现的概率/2出现的概率 接下来是Apriori算法: 1. 将一个个items列出来,并计算个数和support 由于我们设置的最小support为50%,这里有4个items,所以必须出现次数大于等于2次保留{4}被剪枝 2. 连接 连接的时候需要注意,只有除了末尾元素一样的才能连接,如{1,2}和{1,3}可以连接成{1,2,3}但是{1,3}和{2,3}不能自连接成{1,3},经过上述步骤以后,就得到了最终序列{2,3,5} 3. 推荐 上述得到的{2,5},可以得到以下结果 分别计算confidence和support是否满足最小值,满足则为我们需要的结果 (编辑:上海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |