请选择 进入手机版 | 继续访问电脑版

Science:有查询拜访 有真相!某些AI领域多年无实际进展

[复制链接]
查看1406 | 回复7 | 2020-11-13 13:57:09 | 显示全部楼层 |阅读模式
黄冈风云网信息:
Science:有查询拜访 有真相!某些AI领域多年无实际进展-1.jpg


作者 | 蒋宝尚

编辑   | 丛末

5月29日,Science刊登了一篇题目 为“人工智能某些领域的核心进展一直停滞不前”的文章,在文章里,作者Matthew Hutson提到:一些多年之前的“老算法”如果经过微调,其性能足以匹敌当前的SOTA。

Science:有查询拜访 有真相!某些AI领域多年无实际进展-2.jpg


另外,作者在文章中还列举了一些论文,这些论文对当前症结 的AI建模技术进行了剖析 ,所有的剖析 结果主要有两种:1、研究员声称的核心立异 只是对原算法的微改进  ;2、新技术与多年前的旧算法在性能上相差不年夜 。

具体到技术层面,论文比较 剖析 的AI建模办法 包含 :神经网络剪枝、神经网络推荐算法、深度器量 学习、对抗  性训练、语言模型。

科研有风险,入坑需谨慎。下面,AI科技评论简要介绍这几篇论文,为年夜 家提供避坑指南。

1 神经网络剪枝:评价指标模糊

Science:有查询拜访 有真相!某些AI领域多年无实际进展-3.jpg


论文地址:

https://proceedings.mlsys.org/static/paper_files/mlsys/2020/73-Paper.pdf

对神经网络剪枝技术进行比较 剖析 的论文是“What is the State of Neural Network Pruning?”,论文一作是来自麻省理工的研究员Davis Blalock。

他们通过比较 81相关篇论文,并在对比 条件下对数百个模型进行修剪后,明显发明 神经网络剪枝这一领域并没有标准  化的基准和指标。换句话说,当前最新论文揭橥 的技术很难进行量化,所以,很难确定该领域在曩昔 的三十年中取得了若干 进展。

主要表示 在:1、许多论文虽然声明提高了技术水平,但忽略了与其他办法 进行比较  (这些办法 也声称达到  了SOTA)。这种忽略体现两个方面,一个是忽略2010年之前的剪枝技术,另一个是忽略了现在的剪枝技术。

2、数据集和架构都涌现  “碎片化”。81篇论文一共使用了49个数据集、132个别 系结构和195个(数据集、体系结构)组合。

3、评价指标“碎片化”。论文使用了各类 各样的评价指标,因此很难比较  论文之间的结果。

4、混淆变量。有些混淆的变量使得定量剖析 变得十分困难。例如,初始模型的准确度和效率、训练和微调中的随机变更 等等。

在论文的最后,Davis Blalock提出了具体的解救 办法 ,并引入了开源的框架ShrinkBench,用于增进 剪枝办法 的标准  化评估。另外,此篇论文揭橥 在了3月份的MLSys会议上。

2 神经网络推荐算法:18种算法无一幸免

Science:有查询拜访 有真相!某些AI领域多年无实际进展-4.jpg


https://dl.acm.org/doi/pdf/10.1145/3298689.3347058

对神经网络推荐算法进行剖析 的论文是 “ Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches ”,作者是来自意年夜 利米兰理工年夜 学的研究员。

在论文中,作者对当前排名靠前的几种推荐算法进行了系统剖析 ,发明 近几年顶会中提出的18种算法,只有7种能够合理的复现。还有另外6种,用相对简单的启发式办法 就能够胜过。剩下的几种,虽然明显优于baselines,然则 却打不过  微调过的非神经网络线性排名办法 。

导致这种现象的原因,作者剖析 了三点:1、弱基准( weak baselines);2、建立弱办法 作为新基准;3、在比较  或复制不合  论文的结果方面存在差别 。

为了获得 上述结果,作者在论文中介绍,其共进行了两个步调 :第一步是用相关论文提供的源代码、和数据测验考试 复现论文结果;第二步,重新执行了原始论文中申报 的实验,但也在比较  中加入了额外的基线办法 ,具体而言,其使用了基于用户和基于项目的最近邻启发式办法 ,以及简单的基于图形的办法 (graph-based approach)进行比较  。

3 深度器量 学习:该领域13年来并无进展

Science:有查询拜访 有真相!某些AI领域多年无实际进展-5.jpg


https://arxiv.org/pdf/2003.08505.pdf

对深度器量 学习进行剖析 的文章来自Facebook AI 和 Cornell Tech 的研究人员,他们揭橥 研究论文预览文稿题目 为“A Metric Learning Reality Check”。

在论文中,研究员声称近十三年深度器量 学习(deep metric learning) 领域的目前研究进展和十三年前的基线办法 (Contrastive, Triplet) 比较  并无实质提高。

研究员一共指出了现有文献中的三个缺陷:不公平  的比较  、通过测试集反馈进行训练、不合理的评价指标。

不公平  的比较  :一般年夜 家声明一个算法性能优于另一个算法,通常需要确保尽可能多的参数不变,而在器量 学习的论文中不是如此。另外,一些论文中所提到的精度提高其实只是所选神经网络带来的,并不是他们提出的“立异 ”办法 。例如2017年的一篇论文声称使用ResNet50 获得了巨年夜 的性能提升,而实际上他的比较 对象是精度较低的GoogleNet。

通过测试集反馈进行训练:不仅是器量 学习领域,年夜 多半 论文都有这一通病:将数据集一半拆分为测试集,一半拆分为训练集,不设验证集。在具体训练的进程 中,按期 检查模型的测试集精度,并申报 最佳测试集精度,也就是说模型选择和超参数调优是通过来自测试集的直接反馈来完成的,这显然会有过拟合的风险。

不合理的评价指标:为了体现准确性,年夜 多半 器量 学习论文都邑 申报 Recall@K、归一化相互信息(NMI)和F1分数。但这些一定是最好的衡量标准  吗?如下图三个嵌入空间,每一个recall@1指标评价都接近满分,而事实上,他们之间的特征并不相同。此外,F1和NMI分数也接近,这在一定水平 上说明,其实,这几个指标并没带来啥信息。

Science:有查询拜访 有真相!某些AI领域多年无实际进展-6.jpg


三个 toy示例:不合  的精确指标如何评分。

在指出问题的同时,FB和康奈尔的研究员自然也指出了改进  建议,针对上述三个缺点建议进行公平  比较  和重复性实验、通过交叉验证进行超参数搜索、采取 加倍 准确的信息性、准确性器量 。

4 对抗  性训练:所有改进  都可通过“提前停止”实现

Science:有查询拜访 有真相!某些AI领域多年无实际进展-7.jpg


https://openreview.net/pdf?id=ByJHuTgA-

对“对抗  性训练”进行研究的论文题目 是“Overfitting in adversarially robust deep learning”,第一作者是来自卡内基梅陇年夜 学的研究员Leslie Rice。

在论文中,作者提到机器学习算法的进步可以来自架构、损失函数、优化策略等的转变 ,对这三个因素中的任何一个进行微调都能够转变 算法的性能。

他的研究领域是对抗  训练,他说:经过训练的图像识别模型可以免受黑客的 "对抗  性进击 ",早期的对抗  训练办法 被称为投影梯度下降算法(projected gradient descent)。

近期的很多研究都声称他们的对抗  训练算法比投影梯度下降算法要好的多,然则 经过研究发明 ,几乎所有最近的算法改进  在对抗  性训练上的性能改进  都可以通过简单地使用“提前停止”来达到  。另外,在对抗  训练模型中,诸如双下降曲线之类的效应仍然存在,不雅 察到的过拟合也不克不及 很多的解释。

最后,作者研究了几种经典的和现代的深度学习过拟合解救 办法 ,包含 正则化和数据增强,发明 没有一种办法 能超得过“提前停止”达到  的收益。所以,他们得出结论:PGD之类的立异 很难实现,当前的研究很少有实质性改进  。

5 语言模型:LSTM仍然一枝独秀

Science:有查询拜访 有真相!某些AI领域多年无实际进展-8.jpg


对语言翻译进行研究的论文名为“On the State of the Art of Evaluation in Neural Language Models,此论文是DeepMind和牛津年夜 学合力完成。

在论文中,作者提到神经网络架构的赓续 立异 ,为语言建模基准提供了稳定的最新结果 。这些结果 都是使用不合  的代码库和有限的计算资源进行评估的,而这种评估是弗成 控的。

依据 其论文内容,作者一共主要研究了三个递归模型架构(recurrent architectures),分别  是:LSTM、 RHN(Recurrent Highway Network)、NAS。研究RHN是因为它在多个数据集上达到  了SOTA,而研究NAS是因为它的架构是基于自动强化学习的优化进程 的结果。

最后,作者通过年夜 范围 的自动黑箱超参数调优,重新评估了几种流行的体系结构和正则化办法 ,得出的一个结论是:标准  的LSTM体系结构在适当的正则化后,其性能表示 优于“近期”的模型。

via https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real

招 聘

AI 科技评论希望能够招聘 科技编辑  /记者 一名

办公所在 :北京/深圳

职务:以介入 学术顶会报道、人物专访为主

工作内容:

1、加入 各类 人工智能学术会议,并做会议内容报道;

2、采访人工智能领域学者或研发人员;

3、存眷 学术领域热点事件,并及时跟踪报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科配景 ,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及年夜 量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的不雅 点。

感兴趣者,可将简历发送到邮箱:cenfeng@leiphone.com

黄冈论坛其他内容涵盖论坛社区、招聘求职、房屋租售、二手交易、新闻商业、征婚交友等众多方面,所有信息免费浏览,免费刊登,是黄冈本地的个人信息和商业信息发布平台。
[db:签名]
回复

使用道具 举报

708996558 | 2020-11-13 13:57:23 | 显示全部楼层
Few-shot learning和meta learning的评价似乎也有点模糊
回复

使用道具 举报

小锋无痕盎 | 2020-11-13 13:57:29 | 显示全部楼层
若干 人已入坑,他们的前辈也不告诉  他们
回复

使用道具 举报

方芳可可逗 | 2020-11-13 13:57:57 | 显示全部楼层
转发了
回复

使用道具 举报

123457148 | 2020-11-13 13:58:26 | 显示全部楼层
转发了
回复

使用道具 举报

米油盐酱醋差油x | 2020-11-13 13:59:13 | 显示全部楼层
转发了
回复

使用道具 举报

海棉宝宝仗剑 | 2020-11-13 14:00:01 | 显示全部楼层
转发了
回复

使用道具 举报

高尔夫 | 2020-11-13 14:00:32 | 显示全部楼层
转发了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

6

主题

12

帖子

34

积分

新手上路

Rank: 1

积分
34