apriori算法例题 Apriori算法是一种经典的关联规则挖掘算法,它能够从大规模数据集中挖掘出频繁项集。下面是一道Apriori算法的例题。 假设有一个超市销售系统,记录了每位顾客购买商品的清单。现在需要使用Apriori算法来挖掘出频繁购买商品的组合。 以下是一组数据集: | 顾客 | 购买的商品 | | --- | --- | | 1 | 牛奶,面包,尿布 | | 2 | 牛奶,饼干 | | 3 | 牛奶,尿布 | | 4 | 牛奶,面包,饼干 | | 5 | 面包,尿布 | 假设我们要找出所有至少被购买了两次的商品组合。 步骤1:计算每种商品的支持度 先对数据集进行处理,得到每种商品的支持度(即在多少个购物清单中出现过)。如下表所示: | 商品 | 支持度 | | --- | --- | | 牛奶 | 4 | | 面包 | 3 | | 尿布 | 3 | - 1 - | 饼干 | 2 | 步骤2:筛选出支持度大于等于2的商品组合 根据Apriori算法的原理,只有那些支持度大于等于2的商品组合才有可能是频繁项集。因此,我们筛选出支持度大于等于2的商品组合,如下表所示: | 商品组合 | 支持度 | | --- | --- | | 牛奶 | 4 | | 面包 | 3 | | 尿布 | 3 | | 饼干 | 2 | | 牛奶,面包 | 2 | | 牛奶,尿布 | 3 | | 牛奶,饼干 | 2 | | 面包,尿布 | 2 | | 牛奶,面包,尿布 | 2 | 步骤3:从支持度大于等于2的商品组合中挖掘出频繁项集 根据Apriori算法的原理,如果一个商品组合是频繁项集,那么它的所有子集也一定是频繁项集。因此,我们可以在支持度大于等于2的商品组合中,挖掘出所有的频繁项集。如下表所示: | 频繁项集 | 支持度 | | --- | --- | - 2 - 本文来源:https://www.wddqw.com/doc/eb73d9b52bea81c758f5f61fb7360b4c2f3f2a06.html