秀站网,秀执着,秀梦想,一个爱秀的地方!

自媒体资讯网

热门关键词:  as  i hone  阿萨德  网站
从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集
来源:
作者:
时间:2018-04-19
浏览热度:
#评论#
[ 导读 ] 在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并改善改进他们模型的性能。 拥有这些数据集将使你成为一名更好的数据科学家,并且你将从中获得无可估量的价值。我们还收录了具有最新技术(SOTA)结果的论文,供你浏览并改进你的模型

介绍

深度学习的关键是训练。无论是从图像处理到语音识别,每个问题都有其独特的细微差别和方法。

但是,你可以从哪里获得这些数据?现在你看到的很多研究论文都使用专有数据集,而这些数据集通常不会向公众发布。如果你想学习并应用你新掌握的技能,数据就成为一个问题。

在本文中,我们列出了一些高质量的数据集,每个深度学习爱好者都可以使用并改善改进他们模型的性能。 拥有这些数据集将使你成为一名更好的数据科学家,并且你将从中获得无可估量的价值。我们还收录了具有最新技术(SOTA)结果的论文,供你浏览并改进你的模型。

如何使用这些数据集?

首先要做的事——下载这些数据集,这些数据集的规模很大!所以请确保你有一个快速的互联网连接。

数据集分为三类——图像处理、自然语言处理和音频/语音处理。

让我们开始我们的数据集之旅吧!

图像数据集

1.MNIST

d232ec9c62087f6060aac961678344187aca3140

MNIST是最受欢迎的深度学习数据集之一,这是一个手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。这是一个很好的数据库,用于在实际数据中尝试学习技术和深度识别模式,同时可以在数据预处理中花费最少的时间和精力。

大小: 50 MB

记录数量: 70,000张图片被分成了10个组。

SOTA: Capsules之间的动态路由。

2.MS-COCO

COCO是一个大型的、丰富的物体检测,分割和字幕数据集。它有几个特点:

· 对象分割;

· 在上下文中可识别;

· 超像素分割;

· 330K图像(> 200K标记);

· 150万个对象实例;

· 80个对象类别;

· 91个类别;

· 每张图片5个字幕;

· 有关键点的250,000人;

大小:25 GB(压缩)

记录数量: 330K图像、80个对象类别、每幅图像有5个标签、25万个关键点。

SOTA:Mask R-CNN

3.ImageNet

aa1b7a49b2af4736d0cadc4bb997498f8820bcaa

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约100,000个单词,ImageNet平均提供了大约1000个图像来说明每个单词。

大小:150GB

记录数量:总图像是大约是1,500,000,每个都有多个边界框和相应的类标签。

SOTA:深度神经网络的聚合残差变换。

4.Open Images数据集

该数据集是一个包含近900万个图像URL的数据集,这些图像跨越了数千个类的图像级标签边框并且进行了注释。该数据集包含9,011,219张图像的训练集,41,260张图像的验证集以及125,436张图像的测试集。

大小:500 GB(压缩)

记录数量:9,011,219张超过5k标签的图像

SOTA:Resnet 101图像分类模型(在V2数据上训练):模型检查点,检查点自述文件,推理代码。

5.VisualQA

5d8a664b459fa0c7861de72e185b4e8c0709e215

VQA是一个包含相关图像的开放式问题的数据集,这些问题需要理解视野和语言。这个数据集的一些有趣的特点是:

· 265,016张图片(COCO和抽象场景);

· 每张图片至少有3个问题(平均5.4个问题);

· 每个问题有10个基本事实答案;

· 每个问题有3个似乎合理(但可能不正确)的答案;

· 自动评估指标。

大小:25 GB(压缩)

记录数量:265,016张图片,每张图片至少3个问题,每个问题10个基本事实答案。

相关文档:

一门面向所有人的人工智能公开课..

在Keras上实现GAN:构建消除图片..

用数据做酷的事!手把手教你搭建..