【不周山之数据科学】常用数据集

人工智能最离不开的恐怕就是数据集了,有的数据集被学术界用来当做各种算法测试的基准,有的数据集非常接地气常被用在各类产品中。本文就来介绍一下各个领域的经典常用数据集。


更新历史

  • 2017.03.17: 增加数据集链接
  • 2017.02.15: 完成初稿

写在前面

英文数据集部分出自 Fueling the Gold Rush: The Greatest Public Datasets for AI,我简单翻译了一下并更新了部分中文的内容。另外原文使用 emoji 来表示各个数据集的特点我觉得非常有效,这里也一并搬运过来。

  • 📜 经典 — 人工智能领域最出名的数据集,没听过这些都不好意思说自己是搞人工智能的
  • 🛠 实用 - 接近真实世界的已清洗的数据集,非常通用,常用于现实世界的产品中
  • 📚 学术基准 — 这些数据集通常被学术界用于验证算法与比较算法性能的基准

注:因为我现在主要搞自然语言处理了,所以其他领域的数据集只挑选最重要的。

自然语言处理 NLP

中文的开放资源还是比较少的,主要是各个高校和搜狗、数据堂的数据。希望能有人牵头来把中文的数据集搞起来,这样对学术界和工业界都是极大的利好。

  • 🛠📚 Text Classification Datasets: 为文本分类准备的八个数据集,常被用于基准。数据来自 DBPedia, Amazon, Yelp, Yahoo!, Sogou, 和 AG
  • 🛠📚 WikiText: 清洗过的维基文本数据
  • 🛠📚 SQuAD: 斯坦福问题回答数据集,被广泛使用与自动问答
  • 🛠📚 Billion Words: 巨大的通用语言建模数据集,通常用于 word2vec 或者 GloVe
  • 📚📜 bAbi: 来自 Facebook 的语义理解和问题回答数据集
  • 📜 搜狗实验室开放数据资源: 包含评测、语料、新闻、图片、词库、搭配等数据集,算是中文领域比较全的
  • 中文文本分类数据集THUCNews: THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,划分出 14 个候选分类

计算机视觉 CV

  • 🛠📚📜 ImageNet: 最常用的新算法验证的数据集
  • 🛠📚📜 Labeled Faces in the Wild: 日常照片中剪切出来的带标记的人脸图片(不只是正脸 + 纯净背景)
  • 📚📜 MNIST: 非常经典的数据集,比方说 TensorFlow 的官方教程就用这个来做演示。里面包含大小为 25x25 的黑白居中手写数字
  • 📜 CIFAR 10 & CIFAR 100: 现在已不再常用,部分学校的课程还在使用(比如 CMU 的机器学习入门课程 10601)。里面包含大小为 32x32 的彩色图像,10 和 100 表示分类数量,一般用于图像分类

推荐系统 Recommendation

  • 🛠📚📜 MovieLens: 跟电影相关的评价数据,通常用于协同过滤的基准
  • 🛠 Last.fm: 音乐推荐数据集
  • 📜 Netflix Challenge: 最早的类似 Kaggle 的数据挖掘挑战

语音识别 Speech

  • 🛠📚 VoxForge: 带口音的英文语音数据集,通常可以用于训练系统的鲁棒性
  • 📚 LibriSpeech: 带文本与音频的有声书数据集

写在最后

数据集毕竟是现实世界的一个理想化情况,如果要做出好的产品,可以从这些数据集开始,但是更重要的能力是如何获取和处理新数据。要知道,现实世界可是要比实验室中混乱无序复杂得多呀!

参考链接

捧个钱场?