- AI BEST SEARCH
- AI 相关术语与关键词一览【AI BEST SEARCH】
- 数据集(Dataset)
数据集(Dataset)
数据集(Dataset)是指机器学习和深度学习中用于模型训练与验证的、经过结构化整理的数据集合。 它作为"供AI学习的素材",以图像、文本、音频、数值数据等多种形式被使用。 数据集通常由以下三个部分构成: • 训练数据(Training Data):用于训练模型的数据 • 验证数据(Validation Data):训练过程中用于调整参数和检查过拟合的数据 • 测试数据(Test Data):用于最终评估模型性能的数据 数据集按用途可分为以下几类: • 监督学习数据集:由输入与正确标签对构成(如图像分类、文本分类) • 无监督学习数据集:无标签数据(如聚类、降维) • 强化学习数据集:包含状态、动作、奖励等记录 具有代表性的公开数据集包括: • 图像:ImageNet、CIFAR-10、COCO、MNIST • 自然语言:Wikipedia语料库、IMDB影评、Common Crawl、SQuAD • 音频:LibriSpeech、VoxCeleb • 综合:UCI机器学习库、Kaggle数据集 数据集的质量和构成均衡性(如类别分布、噪声情况)直接影响AI模型的精度和泛化性能。 因此,数据集的收集、预处理、标注和验证是AI开发中值得投入时间和成本的基础工作。