秀站网,秀执着,秀梦想,一个爱秀的地方!

自媒体资讯网

热门关键词:  as  i hone  阿萨德  网站
常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗
来源:
作者:
时间:2018-07-18
浏览热度:
#评论#
[ 导读 ] 过去五年中,机器学习成为一块实验田。受深度学习研究热潮的驱动,大量论文围绕这样一种范式——新型学习技术出现的主要依据是它在多项关键基准上的性能提升。
在验证集上调优模型已经是机器学习社区通用的做法,虽然理论上验证集调优后不论测试集有什么样的效果都不能再调整模型,但实际上模型的超参配置或多或少都会受到测试集性能的影响。因此研究社区可能设计出只在特定测试集上性能良好,但无法泛化至新数据的模型。本论文通过创建一组真正「未见过」的同类图像来测量 CIFAR-10 分类器的准确率,因而充分了解当前的测试集是否会带来过拟合风险。

1 引言

过去五年中,机器学习成为一块实验田。受深度学习研究热潮的驱动,大量论文围绕这样一种范式——新型学习技术出现的主要依据是它在多项关键基准上的性能提升。同时,很少有人解释为什么这项技术是对先前技术的可靠改进。研究者对研究进展的认知主要依赖于少量标准基准,如 CIFAR-10、ImageNet 或 MuJoCo。这就引出了一个关键问题:

目前机器学习领域衡量研究进展的标准有多可靠?

对机器学习领域的进展进行恰当评估是一件非常精细的事情。毕竟,学习算法的目标是生成一个可有效泛化至未见数据的模型。由于通常无法获取真实数据的分布,因此研究人员转而在测试集上评估模型性能。只要不利用测试集来选择模型,这就是一种原则性强的评估方案。

不幸的是,我们通常只能获取具备同样分布的有限新数据。现在大家普遍接受在算法和模型设计过程中多次重用同样的测试集。该实践有很多例子,包括一篇论文中的调整超参数(层数等),以及基于其他研究者的研究构建模型。尽管对比新模型与之前模型的结果是非常自然的想法,但很明显当前的研究方法论削弱了一个关键假设:分类器与测试集是独立的。这种不匹配带来了一种显而易见的危险,研究社区可能会轻易设计出只在特定测试集上性能良好,但无法泛化至新数据的模型 [1]。

1.1 在 CIFAR-10 上的复现性研究

为了了解机器学习当前进展的可靠性,本文作者设计并实施了一种新型复现性研究。主要目标是衡量现在的分类器泛化至来自同一分布的未见数据的性能。研究者主要使用标准 CIFAR-10 数据集,因为它的创建过程是透明的,尤其适合这项任务。此外,近十年的大量研究使用 CIFAR-10。由于该过程的竞争性本质,这是一项调查适应性(adaptivity)是否导致过拟合的优秀测试用例。

该研究分为三步:

1. 首先,研究者创建一个新的测试集,将新测试集的子类别分布与原始 CIFAR-10 数据集进行仔细匹配。

2. 在收集了大约 2000 张新图像之后,研究者在新测试集上评估 30 个图像分类模型的性能。结果显示出两个重要现象。一方面,从原始测试集到新测试集的模型准确率显著下降。例如,VGG 和 ResNet 架构 [7, 18] 的准确率从 93% 下降至新测试集上的 85%。另一方面,研究者发现在已有测试集上的性能可以高度预测新测试集上的性能。即使在 CIFAR-10 上的微小改进通常也能迁移至留出数据。

3. 受原始准确率和新准确率之间差异的影响,第三步研究了多个解释这一差距的假设。一种自然的猜想是重新调整标准超参数能够弥补部分差距,但是研究者发现该举措的影响不大,仅能带来大约 0.6% 的改进。尽管该实验和未来实验可以解释准确率损失,但差距依然存在。

总之,研究者的结果使得当前机器学习领域的进展意味不明。适应 CIFAR-10 测试集的努力已经持续多年,模型表现的测试集适应性并没有太大提升。顶级模型仍然是近期出现的使用 Cutout 正则化的 Shake-Shake 网络 [3, 4]。此外,该模型比标准 ResNet 的优势从 4% 上升至新测试集上的 8%。这说明当前对测试集进行长时间「攻击」的研究方法具有惊人的抗过拟合能力。

但是该研究结果令人对当前分类器的鲁棒性产生质疑。尽管新数据集仅有微小的分布变化,但广泛使用的模型的分类准确率却显著下降。例如,前面提到的 VGG 和 ResNet 架构,其准确率损失相当于模型在 CIFAR-10 上的多年进展 [9]。注意该实验中引入的分布变化不是对抗性的,也不是不同数据源的结果。因此即使在良性设置中,分布变化也对当前模型的真正泛化能力带来了严峻挑战。

4 模型性能结果

完成新测试集构建之后,研究者评估了多种不同的图像分类模型。主要问题在于如何对原始 CIFAR-10 测试集上的准确率和新测试集上的准确率进行比较。为此,研究者对机器学习研究领域中出现多年的多种分类器进行了实验,这些模型包括广泛使用的卷积网络(VGG 和 ResNet [7,18])、近期出现的架构(ResneXt、PyramidNet、DenseNet [6,10,20])、已发布的当前最优模型 Shake-Drop[21],以及从基于强化学习的超参数搜索而得到的模型 NASNet [23]。此外,他们还评估了基于随机特征的「浅层」方法 [2,16]。总体来说,原始 CIFAR-10 测试集上的准确率的范围是 80% 到 97%。

对于所有深层架构,研究者都使用了之前在线发布的代码来实现(参见附录 A 的列表)。为了避免特定模型 repo 或框架带来的偏差,研究者还评估了两个广泛使用的架构 VGG 和 ResNet(来自于在不同深度学习库中实现的两个不同来源)。研究者基于随机特征为模型编写实现。

主要的实验结果见表 1 和图 2 上,接下来将介绍结果中的两个重要趋势,然后在第 6 部分中讨论结果。

 

常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗
表 1:在原始 CIFAR-10 测试集和新测试集上的模型准确率,其中 Gap 表示两个准确率之间的差距。 Rank 是从原始测试集到新测试集的排名的相对变化。例如, Rank = −2 表示模型在新测试集中的准确率排名下降了两位。
常用测试集带来过拟合?你真的能控制自己不根据测试集调参吗
图 2:新测试集上的模型准确率 vs 原始数据集上的模型准确率。4.1 准确率显著下降

 

所有模型在新测试集上的准确率都有显著的下降。对于在原始测试集上表现较差的模型,这个差距更大;对于在原始测试集上表现较好的模型,这个差距较小。例如,VGG 和 ResNet 架构的原始准确率(约 93%)和新准确率(约 85%)的差距大约为 8%。最佳准确率由 shake_shake_64d_cutout 得到,其准确率大致下降了 4%(从 97% 到 93%)。虽然准确率下降幅度存在变化,但没有一个模型是例外。

关于相对误差,拥有更高原始准确率的模型的误差可能有更大的增长。某些模型例如 DARC、shake_shake_32d 和 resnext_29_4x64d 在误差率上有 3 倍的增长。对于较简单的模型例如 VGG、AlexNet 或 ResNet,相对误差增长在 1.7 倍到 2.3 倍之间。参见附录 C 中的全部相对误差的表格。

4.2 相对顺序变化不大

相关文档:

Spark团队开源新作:全流程机器..

机器学习5年大跃进,可能是个错..

当前机器学习成果真的可靠吗?伯..