唐辉军 王乐 樊成立

Tang Hui-Jun, Wang Le, Fan Cheng-Li. A new algorithm for mining high utility sequential patterns based on pattern-growth. Acta Automatica Sinica, 2021, 47(4): 943-954 doi: 10.16383/j.aas.c180660
doi: 10.16383/j.aas.c180660

浙江省公益技术应用研究计划项目 LGF19H180002

浙江省公益技术应用研究计划项目 2017C35014

宁波市自然科学基金项目 2017A610122

慈溪市社会发展科技计划项目 CN2018001


    王乐  宁波财经学院数字技术与工程学院副教授. 2013年获得大连理工大学博士学位. 主要研究方向为数据挖掘. E-mail: wangleboro@163.com

    樊成立  宁波财经学院金融与信息学院副教授. 2007年获得北京化工大学硕士学位. 主要研究方向为信息管理. E-mail: 380577275@qq.com


    唐辉军  宁波财经学院金融与信息学院副教授. 2008年获得浙江工业大学硕士学位. 主要研究方向为数据挖掘技术. 本文通信作者. E-mail: totti_2018@sina.com

A New Algorithm for Mining High Utility Sequential Patterns Based on Pattern-growth


    WANG Le  Associate professor at the School of Digital Technology and Engineering, Ningbo University of Finance and Economics. She received her Ph. D. degree in computer application from Dalian University of Technology in 2013. Her main research interest is data mining

    FAN Cheng-Li  Associate professor at the School of Finance and Information, Ningbo University of Finance and Economics. He received his master degree from Beijing University of Chemical Technology in 2007. His main research interest is information management

    Corresponding author: TANG Hui-Jun  Associate professor at the School of Finance and Information, Ningbo University of Finance and Economics. He received his master degree from Zhejiang University of Techology in 2008. His main research interest is data mining. Corresponding author of this paper
  • 摘要: 高效用序列模式挖掘是数据挖掘领域的一项重要内容, 在生物信息学、消费行为分析等方面具有重要的应用.与传统基于频繁项模式挖掘方法不同, 高效用序列模式挖掘不仅考虑项集的内外效用, 更突出项集的时间序列含义, 计算复杂度较高.尽管已经有一定数量的算法被提出应用于解决该类问题, 挖掘算法的时空效率依然成为该领域的主要研究热点问题.鉴于此, 本文提出一个基于模式增长的高效用序列模式挖掘算法HUSP-FP.依据高效用序列项集必须满足事务效用闭包属性要求, 算法首先在去除无用项后建立全局树, 进而采用模式增长方法从全局树上获取全部高效用序列模式, 避免产生候选项集. 在实验环节与目前效率较好的HUSP-Miner、USPAN、HUS-Span三类算法进行了时空计算对比, 实验结果表明本文给出算法在较小阈值下仍能有效挖掘到相关序列模式, 并且在计算时间和空间使用效率两方面取得了较大的提高.
    Recommended by Associate Editor ZHANG Jun-Ping
    1)  本文责任编委 张军平
  • 图  1  序列全局树构建实例

    Fig.  1  An example of constructing a sequential global tree

    图  2  序列子树构建实例

    Fig.  2  An example of constructing a sequential sub-tree

    图  3  运行时间

    Fig.  3  Running time

    图  4  内存消耗

    Fig.  4  Memory consumption

    图  5  不同数据量运行时间

    Fig.  5  Running time under different data size

    图  6  不同数据量内存消耗

    Fig.  6  Memory consumption under different data size

    图  7  数据流运行时间

    Fig.  7  Running time based on data stream

    图  8  数据流内存消耗

    Fig.  8  Memory consumption based on data stream

    图  9  HUSP-FP和HUSP-Miner的对比评价

    Fig.  9  Evaluation of HUSP-FP and HUSP-Miner

    表  1  高效用数据集

    Table  1  High utility dataset

    TID Transaction (item, quantity)
    $ t_1 $ $ (A, 4) (B, 3) (D, 3) (E, 1) $
    $ t_2 $ $ (B, 2) (C, 2) (B, 1) (G, 4) $
    $ t_3 $ $ (A, 3) (C, 4) $
    $ t_4 $ $ (B, 1) (C, 1) (C, 2) $
    $ t_5 $ $ (A, 2) (B, 3) (D, 3) (E, 2) (F, 9) $
    $ t_6 $ $ (C, 2) (D, 2) (C, 1) (G, 7) $
    $ t_7 $ $ (A, 2) (B, 1) (A, 1) (A, 1) (B, 1) $
    表  2  利润表(外部效用值)

    Table  2  A Profit Table (External utility value)

    TID Transaction (item, quantity)
    $ A $ 3
    $ B $ 3
    $ C $ 2
    $ D $ 2
    $ E $ 2
    $ F $ 1
    $ G $ 1
    表  3  算法复杂度比较

    Table  3  Comparisons of algorithm complexity

    算法 事务存储 效用存储 挖掘方式 候选项
    HUSP-FP 全局树 叶子结点 模式增长, 一次性完成
    HUSP-Miner 序列表格 序列树结点 表格搜索, 深度剪枝
    USPAN 序列字典树 效用矩阵 枚举搜索, 剩余量剪枝
    HUS-Span 序列枚举树 链表 效用上界深度搜索
    表  4  算法复杂度比较

    Table  4  Data characteristics

    数据集 项数 序列事务项集平均长度 序列事务总数
    Bible 13 905 21.64 36 369
    FIFA 13 749 45.32 573 060
    Kosarak 10k 39 998 11.64 638 811
    SIGN 267 93.00 730
图(9) / 表(4)
