深兰自动机器学习论文入选 KDD2021论文录取名单!
3.2 技术创新
下图描述了多表融合最复杂情况多对多(M-M)情况的处理:表A中的一行可能与表B中的许多行链接在一起,反之亦然。深兰团队根据特征类型(即分类或多分类特征,数字特征或时间特征)合并相关表。例如,对于数字特征和分类特征,团队将相关表中的平均值和众数作为主表中key ids的值。至于时间特征,则将最新时间作为主表的合并值。
为了充分利用表信息并最大程度地减少内存使用量,我们将特征工程划分为四个顺序的模块。对于每个模块,我们使用LightGBM来验证每个特征的有效性并进行功能选择。此处特征工程是通过多个模块递归进行的,在每个模块的开头,都会从主表中生成新功能,然后根据向下采样的子数据集进行功能选择,再从中使用所选功能来更新主表。
LightGBM模型的两个主要超参数是boosting轮数和学习率,其他大多数团队都使用贝叶斯优化进行超参数调整。但是,这种方法需要对整个样本进行多次训练才能获得超参数的性能分布,这在时间上效率低下,尤其是在处理大规模数据集时。不同的是,深兰团队利用先验知识来实现类似包装器的方法,以减少搜索空间。借助采样数据或小规模的boosting回合,即使没有一次完整的模型训练也能快速获得成功的必要先验知识,从而得到预设的学习率和boosting轮数。
3.3 资源控制
模型学习花费了大部分培训时间,在框架中利用集成学习的力量来构建模型。相应地,在给定时间预算的情况下,模型可以自动快速地适应最佳情况。
下图给出了内存控制之前和之后的模型性能示例。可以看到,特征工程中的优化减少了处理时间。通过节省时间,可以将一个新模型自动添加到集成建模中,以获得更好的结果。
总结
在这项工作中,深兰团队为时态关系数据提出了一个高效且自动的机器学习框架AutoSmart,包括自动数据处理、表合并、功能工程和模型调整,并与时间和内存控制单元集成在一起。
实验表明,AutoSmart
可以有效地挖掘有用的信息,并在不同的时间关系数据集上提供一致的出色性能;
可以在时间和内存预算内有效地对给定的数据集进行自我调整;
可扩展到更大比例或某些极端情况(例如,缺失值太多)的数据集。
简而言之,论文中所提出的框架可以在不同情况下实现最佳和稳定的性能。此外,论文代码是公开的,并可以方便地应用于工业应用。

图片新闻
最新活动更多
-
6月13日立即参评>> 【评选】维科杯·OFweek2025中国工业自动化及数字化行业年度评选
-
7.30-8.1火热报名中>> 全数会2025(第六届)机器人及智能工厂展
-
7月30-31日报名参会>>> 全数会2025中国激光产业高质量发展峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 宾采尔激光焊接领域一站式应用方案在线研讨会
-
精彩回顾立即查看>> 【在线会议】安森美Hyperlux™ ID系列引领iToF技术革新
推荐专题
- 1 智造赋能,生态共融:大联大携手产业伙伴,共绘新质工业宏伟蓝图
- 2 谁将成为行业榜样?维科杯·OFweek2025中国工业自动化及数字化行业年度评选等您来参与!
- 3 【重磅来袭】6月17日上海见!全球智造巨头聚首,60余场前沿论坛,制造业数字化盛会邀您共启数智破局之旅!
- 4 开目新一代MOM:AI赋能高端制造的破局之道
- 5 安森美正式参评“维科杯·OFweek 2025中国工业自动化与数字化行业优秀产品奖”
- 6 当数智工业邂逅大湾区,看PHIIDF2025如何破界,链动全球!
- 7 iEi威强电邀您共襄AIAE Expo 2025北京国际工业自动化盛会,探索智能工业新边界!
- 8 抢先解锁!全数会2025机器人及智能工厂展览会核心亮点速递
- 9 欧姆龙正式参评“维科杯·OFweek 2025中国工业自动化与数字化行业优秀产品奖”
- 10 世界计量日盛会启幕,聚焦测量体系变革:质量、效率与动力
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论