近日,我校计算机与人工智能学院认知计算与群智协同创新实验室2023级博士研究生曹雪梅,在导师杨新教授指导下以第一作者完成的学术论文《Open Continual Feature Selection via Granular-Ball Knowledge Transfer》被国际著名学术期刊《IEEE Transactions on Knowledge and Data Engineering》接收,并于2024年7月正式线上发表。
论文简介
特征选择在现实应用中至关重要,通过从复杂、高维的数据中提取最具代表性的特征,能够显著提高模型的预测性能、减少计算资源的消耗,并提升模型的可解释性。在金融、医疗等领域,面对数据的高复杂性和冗余性,合理的特征选择不仅能够加快模型的训练与推理,还能确保模型的稳定性和准确性。然而,在开放且动态变化的环境中,特征选择面临新的挑战。数据的动态演化和未知类别的不断出现,使得传统静态特征选择方法难以适应。因此,如何在应对新增的未知数据时,快速迁移已有知识和挖掘新知识,成为应对复杂多变环境的关键问题。
为了解决上述问题,文章提出了一种持续特征选择(CFS)新框架。在此基础上,进一步提出了结合持续学习和粒球计算优势的持续特征选择方法GBCFS。该方法通过构建粒球知识库,实现知识的表示、积累、更新和迁移,从而在每个新时期实现快速特征选择。GBCFS包括两个阶段:初始学习和开放学习。初始学习阶段通过粒球的多粒度表示构建初始知识库,作为应对开放环境中风险控制的先验知识;开放学习阶段则利用已有知识识别新数据中的潜在类别,通过将未知转换成已知,及时生成新的粒球并更新知识库,从而达到强化旧知识、整合新知识的目的。最终,GBCFS通过动态特征子集机制,将最少新增特征合并到现有最优子集中,确保在每个新时期高效地选择出最优结果。
研究价值
文章首次在开放环境中,借鉴人类终身学习的模式和多粒度认知思维,针对动态出现的已知和未知类别,深入探讨了基于知识积累、更新与迁移的持续特征选择问题。具体而言,文章提出了一个用于开放数据流的持续特征选择框架,并引入了知识库的概念,为机器学习中的知识表示提供了新的思路和方法。此外,还提出了一种基于已有知识识别新数据中的已知与未知类别的策略,通过多粒度数据表示来清晰地刻画已有数据的决策边界,实现了对数据分布外未知类别的精确检测,为在开放且不确定的环境中控制未知风险提供了有效依据。文章进一步探讨了对未知数据进行学习并将其转化为已知类别的机制,同时设计了旧知识巩固与新知识整合的策略,模拟了人类从未知事物中学习新知识的能力,从而提升了模型的动态适应性和鲁棒性。最后,通过大量实验证明,所提出的方法在多个领域数据集上表现出优越的有效性与高效性。研究成果为处理开放环境中复杂且动态变化的数据提供了全新思路,特别是在数据预处理阶段,通过持续优化特征选择有效提升了模型的整体性能,为金融、医疗等数据驱动型行业应对动态数据提供了有力支持,具有重要的参考价值和实践意义。
作者简介
曹雪梅,计算机与人工智能学院人工智能理论与应用专业2023级博士研究生,主要研究领域为持续学习、多粒度认知计算、遗忘学习和智能金融。作为主要参与者参与国家自然科学基金面上项目、四川省中央引导地方科技发展项目、四川省科技创新(苗子工程)培育项目等省部级以上科研项目多项。目前作为第一作者或第二作者(导师第一作者)已在IEEE TKDE和Pattern Recognition等高水平学术期刊及会议上发表论文8篇,授权国家发明专利2项。曾多次参加中国粒计算与知识发现学术会议、认知与智能计算高峰论坛等国内外知名会议并发言。
杨新,工学博士,教授,博士生导师,西南财经大学计算机与人工智能学院副院长,互联网金融创新及监管四川省协同创新中心主任,认知计算与群智协同创新团队(CCCI)负责人,成都市青年科技联合会副主席,中国计算机学会(CCF)杰出会员和杰出传播者,CCF成都秘书长,YOCSEF 成都学术委员会(22-23)主席,CCF数字金融分会常务委员,CCF大数据专委会执行委员,CCF大模型论坛执行委员,CCF传播工作委员会委员和传播大使,中国人工智能学会(CAAI)高级会员和粒计算与知识发现专委会常务委员,四川省人工智能学会常务理事,入选斯坦福/爱思唯尔全球前2%顶尖科学家榜单,主要研究方向是机器学习、数据挖掘和金融科技等,主持/主研国家级和省部级科研项目10余项,已在IEEE TKDE、IEEE TFS等高水平国际期刊和KDD、WWW、AAAI、CVPR、ACM MM等一流国际会议发表学术论文80余篇,主编/参编教材4部和专著2部,授权/授理国家发明专利7项,HCIS等国际期刊编委,IEEE ICICML、DSInS和PAKDD等国际会议大会主席/TPC/SC,主编国际会议论文集4部,曾获四川省第一届青年教师教学竞赛三等奖,省级一流课程《现代科技与人工智能》(全校通识课)负责人,指导学生获得ACM优秀硕士论文和优秀本科生等奖项以及学科竞赛100余项。
团队介绍
“认知计算与群智协同创新团队”长期致力于探索认知计算与群体智能协同创新等前沿科学领域,聚焦持续学习和可信联邦学习两大新型机器学习范式,围绕学习可持续、知识可传输、性能可使用、效率可控、隐私可保护、安全可证明等核心问题,深入研究具备人脑认知稳定性-可塑性能力的新一代人工智能理论和方法,努力推动人工智能新质生产力与数字经济的交叉融合发展和应用成果转化。
博士研究生教育是国民教育的最高层次,是国家创新体系的关键支撑。学校坚持用习近平新时代中国特色社会主义思想铸魂育人,对标“新财经”战略升级,立足西南财经大学学科特色优势,切实发挥研究生导师第一责任人作用,不断完善优生优师优培机制,加强拔尖创新人才自主培养体系构建,加快推动博士研究生教育高质量发展,持续培育和涌现出高水平、标志性的育人成果,为服务教育强国、科技强国、人才强国建设贡献西财力量。