深兰自动机器学习论文入选 KDD2021论文录取名单！ - OFweek工控网

首页

资讯

视点

采访

专题

新品

产品试用

技术

市场

财经

报告

白皮书

在线研讨会

直播

视频

会展

行业会议

维科号

更多>> 热门搜索：

当前位置： OFweek 工控网 > 机器视觉 > 正文

深兰自动机器学习论文入选 KDD2021论文录取名单！

2021-05-21 17:56

3．2 技术创新

下图描述了多表融合最复杂情况多对多（M－M）情况的处理：表A中的一行可能与表B中的许多行链接在一起，反之亦然。深兰团队根据特征类型（即分类或多分类特征，数字特征或时间特征）合并相关表。例如，对于数字特征和分类特征，团队将相关表中的平均值和众数作为主表中key ids的值。至于时间特征，则将最新时间作为主表的合并值。

为了充分利用表信息并最大程度地减少内存使用量，我们将特征工程划分为四个顺序的模块。对于每个模块，我们使用LightGBM来验证每个特征的有效性并进行功能选择。此处特征工程是通过多个模块递归进行的，在每个模块的开头，都会从主表中生成新功能，然后根据向下采样的子数据集进行功能选择，再从中使用所选功能来更新主表。

LightGBM模型的两个主要超参数是boosting轮数和学习率，其他大多数团队都使用贝叶斯优化进行超参数调整。但是，这种方法需要对整个样本进行多次训练才能获得超参数的性能分布，这在时间上效率低下，尤其是在处理大规模数据集时。不同的是，深兰团队利用先验知识来实现类似包装器的方法，以减少搜索空间。借助采样数据或小规模的boosting回合，即使没有一次完整的模型训练也能快速获得成功的必要先验知识，从而得到预设的学习率和boosting轮数。

3．3 资源控制

模型学习花费了大部分培训时间，在框架中利用集成学习的力量来构建模型。相应地，在给定时间预算的情况下，模型可以自动快速地适应最佳情况。

下图给出了内存控制之前和之后的模型性能示例。可以看到，特征工程中的优化减少了处理时间。通过节省时间，可以将一个新模型自动添加到集成建模中，以获得更好的结果。

总结

在这项工作中，深兰团队为时态关系数据提出了一个高效且自动的机器学习框架AutoSmart，包括自动数据处理、表合并、功能工程和模型调整，并与时间和内存控制单元集成在一起。

实验表明，AutoSmart

可以有效地挖掘有用的信息，并在不同的时间关系数据集上提供一致的出色性能；

可以在时间和内存预算内有效地对给定的数据集进行自我调整；

可扩展到更大比例或某些极端情况（例如，缺失值太多）的数据集。

简而言之，论文中所提出的框架可以在不同情况下实现最佳和稳定的性能。此外，论文代码是公开的，并可以方便地应用于工业应用。

<上一页 1 2 3

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

暂无评论

图片新闻

行业报告

最新活动更多

6月13日
立即参评>> 【评选】维科杯·OFweek2025中国工业自动化及数字化行业年度评选
7.30-8.1
火热报名中>> 全数会2025（第六届）机器人及智能工厂展
7月30-31日
报名参会>>> 全数会2025中国激光产业高质量发展峰会
即日-2025.8.1
立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
精彩回顾
立即查看>> 宾采尔激光焊接领域一站式应用方案在线研讨会
精彩回顾
立即查看>> 【在线会议】安森美Hyperlux™ ID系列引领iToF技术革新

一周热点月点击榜

企业服务广告服务猎头服务薪酬报告

工控猎头职位更多

文章纠错

x

_*文字标题：

_*纠错内容：

联系邮箱：

_*验证码：

看不清，点击换一张

粤公网安备 44030502002758号