如何获取机器学习的数据集在机器学习领域取得成功或成为伟大的数据科学家的关键是使用不同类型的数据集进行实践。但是,为每种机器学习项目找到合适的数据集是一项艰巨的任务。因此,在本主题中,我们将提供来源的详细信息,您可以根据您的项目轻松获得数据集。 在了解机器学习数据集的来源之前,让我们讨论一下数据集。 什么是数据集?一个数据集是数据的集合,其中数据按某种顺序排列。数据集可以包含从一系列数组到数据库表的任何数据。下表显示了数据集的示例:
表格数据集可以理解为一个数据库表或矩阵,其中每一列对应于一个特定的变量,每一行都对应于数据集的字段。表格数据集最支持的文件类型是“逗号分隔文件,”或CSV。但是为了存储“树状数据”,我们可以更有效地使用JSON文件。 数据集中的数据类型
注意:现实世界的数据集规模巨大,在初始级别很难管理和处理。因此,为了实践机器学习算法,我们可以使用任何虚拟数据集。数据集的需求为了与机器学习项目合作,我们需要大量的数据,因为没有数据,就无法训练ML/AI模型。收集和准备数据集是创建ML/AI项目时最关键的部分之一。 如果数据集没有做好准备和预处理,任何ML项目背后应用的技术都无法正常工作。 在ML项目的开发过程中,开发人员完全依赖于数据集。在构建ML应用程序时,数据集分为两部分:
![]() 注意:这些数据集的大小很大,所以要下载这些数据集,你必须在你的电脑上有快速的互联网。机器学习数据集的流行来源以下是可供公众免费使用的数据集列表: 1.Kaggle数据集![]() Kaggle是为数据科学家和机器学习者提供数据集的最佳来源之一。它允许用户以简单的方式查找、下载和发布数据集。它还提供了与其他机器学习工程师合作并解决困难的数据科学相关任务的机会。 Kaggle提供了不同格式的高质量数据集,我们可以很容易地找到和下载。 Kaggle数据集的链接是https://www.kaggle.com/datasets. 2.UCI机器学习库![]() UCI机器学习知识库是机器学习数据集的重要来源之一。这个存储库包含数据库、领域理论和数据生成器,它们被机器学习社区广泛用于ML算法的分析。 自1987年以来,它已被学生、教授、研究人员广泛使用,作为机器学习数据集的主要来源。 它根据机器学习的问题和任务对数据集进行分类,例如回归,分类,聚类等。它还包含一些流行的数据集,如虹膜数据集,汽车评估数据集,扑克手数据集等。 UCI机器学习存储库的链接是https://archive.ics.uci.edu/ml/index.php. 3.通过AWS的数据集![]() 我们可以搜索、下载、访问和共享通过AWS资源公开提供的数据集。这些数据集可以通过AWS资源访问,但由不同的政府机构、研究机构、企业或个人提供和维护。 任何人都可以通过AWS资源使用共享数据分析和构建各种服务。云上的共享数据集帮助用户将更多的时间花在数据分析上,而不是数据的获取上。 这个来源提供了各种类型的数据集的示例和使用数据集的方法。它还提供了搜索框,我们可以使用它搜索所需的数据集。任何人都可以添加任何数据集或示例到AWS上的开放数据注册表。 资源的链接为https://registry.opendata.aws/. 4.谷歌的数据集搜索引擎![]() 谷歌数据集搜索引擎搜索引擎是由什么公司推出的谷歌在2018年9月5日。该资源帮助研究人员获得免费使用的在线数据集。 谷歌数据集搜索引擎的链接是https://toolbox.google.com/datasetsearch. 5.微软的数据集![]() 微软已经推出了“微软研究院开放数据”存储库与收集的免费数据集在各个领域,如自然语言处理、计算机视觉和特定领域的科学。 使用这个资源,我们可以下载数据集在当前设备上使用,也可以直接在云基础设施上使用。 从此资源下载或使用数据集的链接是https://msropendata.com/. 6.令人惊叹的公共数据集![]() 令人敬畏的公共数据集提供了高质量的数据集,这些数据集按照农业、生物学、气候、复杂网络等主题以良好组织的方式排列在列表中。大多数数据集都是免费的,但有些可能不是,所以最好在下载数据集之前检查许可。 从Awesome公共数据集集合下载数据集的链接是https://github.com/awesomedata/awesome-public-datasets. 7.政府数据集政府相关数据有不同的来源。各国都公开从不同部门收集的政府数据供公众使用。 提供这些数据集的目的是提高政府工作在人民中的透明度,并以创新的方式使用这些数据。以下是一些政府数据集的链接: 8.计算机视觉数据集![]() 视觉数据提供了多个特定于计算机视觉的大型数据集,如图像分类,视频分类,图像分割等。因此,如果你想构建一个关于深度学习或图像处理的项目,那么你可以参考这个源代码。 从此源下载数据集的链接是https://www.visualdata.io/. 9.Scikit-learn数据集![]() 对于机器学习爱好者来说,Scikit-learn是一个很好的来源。这个源提供了玩具数据集和真实数据集。这些数据集可以从sklearn中获得。数据集包和使用通用数据集API。 scikit-learn上可用的玩具数据集可以使用一些预定义的函数来加载,例如,load_boston ([return_X_y]), load_iris ([return_X_y]),等等,而不是从外部源导入任何文件。但是这些数据集并不适合实际项目。 从这个来源下载数据集的链接是https://scikit-learn.org/stable/datasets/index.html.
下一个话题
数据预处理
|