AI大模型需要什么样的数据

数据将是未来AI大模型竞争的关键要素

人工智能发展的突破得益于高质量数据的发展。例如，大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集：与GPT-2相比，GPT-3对模型架构只进行了微小的修改，但花费精力收集更大的高质量数据集进行训练。ChatGPT与GPT-3的模型架构类似，并使用RLHF（来自人工反馈过程的强化学习）来生成用于微调的高质量标记数据。

人工智能领域以数据为中心的AI，即在模型相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有：添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升，主要包括数据采集，清洗，标注等成本。

以数据为中心的 AI：模型不变，通过改进数据集质量提升模型效果

AI大模型需要高质量、大规模、多样性的数据集

高质量：高质量数据集能够提高模型精度与可解释性，并且减少收敛到最优解的时间，即减少训练时长。2）大规模：OpenAI 在《Scaling Laws for Neural Language Models》中提出 LLM 模型所遵循的“伸缩法则”（scaling law），即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。3）丰富性：数据丰富性能够提高模型泛化能力，过于单一的数据会非常容易让模型过于拟合训练数据。

数据集如何产生建立数据集的流程主要分为 1）数据采集；2）数据清洗：由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题；3）数据标注：最重要的一个环节；4）模型训练：模型训练人员会利用标注好的数据训练出需要的算法模型；5）模型测试：审核员进行模型测试并将测试结果反馈给模型训练人员，而模型训练人员通过不断地调整参数，以便获得性能更好的算法模型；6）产品评估：产品评估人员使用并进行上线前的最后评估。数据采集采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。数据采集目前常用的有三种方式，分别为：1）系统日志采集方法；2）网络数据采集方法；3）ETL。

数据清洗数据清洗是提高数据质量的有效方法。由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题，故需要执行数据清洗任务，数据清洗作为数据预处理中至关重要的环节，清洗后数据的质量很大程度上决定了 AI 算法的有效性。
数据标注数据标注是流程中最重要的一个环节。管理员会根据不同的标注需求，将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求，一个标注任务将会分配给多个标注员完成。

模型训练与测试最终通过产品评估环节的数据才算是真正过关。产品评估人员需要反复验证模型的标注效果，并对模型是否满足上线目标进行评估。
主要大语言模型数据集参数量和数据量是判断大模型的重要参数。2018 年以来，大语言模型训练使用的数据集规模持续增长。2018 年的 GPT-1 数据集约 4.6GB，2020 年的 GPT-3 数据集达到了 753GB，而到了 2021 年的 Gopher，数据集规模已经达到了 10,550GB。总结来说，从 GPT-1 到LLaMA 的大语言模型数据集主要包含六类：维基百科、书籍、期刊、Reddit 链接、CommonCrawl 和其他数据集。维基百科维基百科是一个免费的多语言协作在线百科全书。维基百科致力于打造包含全世界所有语言的自由的百科全书，由超三十万名志愿者组成的社区编写和维护。截至2023年3月，维基百科拥有332种语言版本，总计60,814,920条目。其中，英文版维基百科中有超过664万篇文章，拥有超4,533万个用户。维基百科中的文本很有价值，因为它被严格引用，以说明性文字形式写成，并且跨越多种语言和领域。一般来说，重点研究实验室会首先选取它的纯英文过滤版作为数据集。

书籍书籍主要用于训练模型的故事讲述能力和反应能力，包括小说和非小说两大类。数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorpus)等。ProjectGutenberg是一个拥有7万多本免费电子书的图书馆，包括世界上最伟大的文学作品，尤其是美国版权已经过期的老作品。BookCorpus以作家未出版的免费书籍为基础，这些书籍来自于世界上最大的独立电子书分销商之一的Smashwords。

期刊期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础，因为学术写作通常来说更有条理、理性和细致。ArXiv是一个免费的分发服务和开放获取的档案，包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。美国国家卫生研究院是美国政府负责生物医学和公共卫生研究的主要机构，支持各种生物医学和行为研究领域的研究，从其官网的“研究&培训”板块能够获取最新的医学研究论文。WebText（来自Reddit链接）Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站，注册用户可以将文字或链接在网站上发布，使它成为了一个电子布告栏系统。WebText是一个大型数据集，它的数据是从社交媒体平台Reddit所有出站链接网络中爬取的，每个链接至少有三个赞，代表了流行内容的风向标，对输出优质链接和后续文本数据具有指导作用。

Commoncrawl/C4Commoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织，致力于为互联网研究人员、公司和个人免费提供互联网副本，用于研究和分析，它的数据包含原始网页、元数据和文本提取，文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版（C4）作为数据集。其他数据集ThePile数据集：一个825.18GB的英语文本数据集，用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成，包括已经建立的自然语言处理数据集和几个新引入的数据集。除了训练大型语言模型外，ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。其他数据集包含了GitHub等代码数据集、StackExchange等对话论坛和视频字幕数据集等。多模态数据集模态是事物的一种表现形式，多模态通常包含两个或者两个以上的模态形式，包括文本、图像、视频、音频等。多模态大模型需要更深层次的网络和更大的数据集进行预训练。过去数年中，多模态大模性参数量及数据量持续提升。
语音+文本SEMAINE数据集：创建了一个大型视听数据库，作为构建敏感人工侦听器(SAL)代理的迭代方法的一部分，该代理可以使人参与持续的、情绪化的对话。高质量的录音由五台高分辨率、高帧率摄像机和四个同步录制的麦克风提供。录音共有150个参与者，总共有959个与单个SAL角色的对话，每个对话大约持续5分钟。固体SAL录音被转录和广泛注释:每个剪辑6-8个评分者追踪5个情感维度和27个相关类别。图像+文本COCO数据集：MSCOCO的全称是MicrosoftCommonObjectsinContext，起源于微软于2014年出资标注的MicrosoftCOCO数据集，与ImageNet竞赛一样，被视为是计算机视觉领域最受关注和最权威的比赛之一。COCO数据集是一个大型的、丰富的物体检测，分割和字幕数据集。图像包括91类目标，328,000张图像和2,500,000个label。ConceptualCaptions数据集：图像标题注释数据集，其中包含的图像比MS-COCO数据集多一个数量级，并代表了更广泛的图像和图像标题风格。通过从数十亿个网页中提取和过滤图像标题注释来实现这一点。ImageNet数据集：建立在WordNet结构主干之上的大规模图像本体。ImageNet的目标是用平均5,001,000张干净的全分辨率图像填充WordNet的80,000个同义词集中的大多数。这将产生数千万个由WordNet语义层次结构组织的注释图像。ImageNet的当前状态有12个子树，5247个同义词集，总共320万张图像。LAION-400M数据集：LAION-400M通过CommonCrawl提取出随机抓取2014-2021年的网页中的图片、文本内容。通过OpenAI的Clip计算，去除了原始数据集中文本和图片嵌入之间预先相似度低于0.3的内容和文本，提供了4亿个初筛后的图像文本对样本。

LAION-5B数据集：包含58.5亿个CLIP过滤的图像-文本对的数据集，比LAION-400M大14倍，是世界第一大规模、多模态的文本图像数据集，共80T数据，

LanguageTable数据集：Language-Table是一套人类收集的数据集，是开放词汇视觉运动学习的多任务连续控制基准。IAPRTC-12数据集：IAPRTC-12基准的图像集合包括从世界各地拍摄的2万张静态自然图像，包括各种静态自然图像的横截面。这包括不同运动和动作的照片，人物、动物、城市、风景和当代生活的许多其他方面的照片。示例图像可以在第2节中找到。每张图片都配有最多三种不同语言（英语、德语和西班牙语）的文本标题。视频+图像+文本YFCC100数据集：YFCC100M是一个包含1亿媒体对象的数据集，其中大约9920万是照片，80万是视频，所有这些都带有创作共用许可。数据集中的每个媒体对象都由几块元数据表示，例如Flickr标识符、所有者名称、相机、标题、标签、地理位置、媒体源。从2004年Flickr成立到2014年初，这些照片和视频是如何被拍摄、描述和分享的，这个集合提供了一个全面的快照。图像+语音+文本CH-SIMS数据集：CH-SIMS是中文单模态和多模态情感分析数据集，包含2,281个精细化的野外视频片段，既有多模态注释，也有独立单模态注释。它允许研究人员研究模态之间的相互作用，或使用独立的单模态注释进行单模态情感分析。视频+语音+文本IEMOCAP数据集：南加州大学语音分析与解释实验室(SAIL)收集的一种新语料库，名为“上的二元会话，这些标记提供了他们在脚本和自发口语交流场景中面部表情和手部动作的详细信息。语料库包含大约12小时的数据。详细的动作捕捉信息、激发真实情绪的交互设置以及数据库的大小使这个语料库成为社区中现有数据库的有价值的补充，用于研究和建模多模态和富有表现力的人类交流。

中国 AI 大模型数据集从哪里来国内各行业数据资源丰富，2021—2026 年数据量规模 CAGR 高于全球，数据主要来源于政府/传媒/服务/零售等行业。据 IDC，2021—2026 年中国数据量规模将由 18.51ZB 增长至56.16ZB，CAGR 达到 24.9%，高于全球平均 CAGR。从数据来源看，国内各行业数据差异化发展，2021 年政府、传媒、专业服务、零售等行业数据量占比较高，分别为 30.4%、13.4%、13.0%、9.6%，其中接近 90%的数据为非结构化数据，这也要求了海量数据采集设备和软件的互联互通以及互动互控。另外随着智能化转型的深入，制造、交通运输、批发、教育等行业数据规模在未来也拥有较大的增长潜力，2021—2026 年数据量增长 CAGR将分别达到 37.6%、36.1%、37.1%、34.0%。

尽管国内数据资源丰富，但由于数据挖掘不足，数据无法自由在市场上流通等现状，优质中文优质数据集仍然稀缺。目前中文优质数据仍然稀缺，如ChatGPT训练数据中中文资料比重不足千分之一，为0.0991%，而英文资料占比超过92.6%。据加利福尼亚大学和Google研究机构发现，机器学习和自然语言处理模型使用的数据集50%由12家Top机构提供，其中10家为美国机构，1家为德国机构，仅1家机构来自中国，为香港中文大学。值得一提的是，数据集与数据机构的基尼系数有升高的趋势，即数据集被少数Top机构或特定数据库掌控的集中有所增加。

国内缺乏高质量数据集的主要原因目前国内科技互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体而言，百度“文心”大模型训练特有数据主要包括万亿级的网页数据，数十亿的搜索数据和图片数据等。阿里“通义”大模型的训练数据主要来自阿里达摩院。腾讯“混元”大模型特有的训练数据主要来自微信公众号，微信搜索等优质数据。华为“盘古”大模型的训练数据出公开数据外，还有B端行业数据加持，包括气象，矿山，铁路等行业数据。商汤“日日新”模型的训练数据中包括了自行生成的OmniObjects3D多模态数据集。

国内科技互联网厂商训练大模型基于的数据基础未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源：1）专业内容平台：知乎作为问答知识平台，拥有超过4300万创作者产生的超过3.5亿条优质中文问答内容，涉及政治，经济，文化，历史，科技等几乎全部门类。其问答的数据形式天然适合作为大语言类模型训练使用。微信公众号作为内容分享平台，背靠国民级应用微信生态链，2022年公众号产出超3.9亿篇文章，其中既有专业领域内容分析，也有时事热点分析，这些内容对语言模型的训练迭代有重要作用。2）垂类内容平台：参考彭博基于金融垂类数据发布BloombergGPT案例，国内在金融，医疗，生物等行业公司的数据可以作为细分领域大模型精确训练的基础。