艾瑞观点 | 高质量数据推动AI系统的发展进步

领取MOLI红包

栏目分类艾瑞观点 | 高质量数据推动AI系统的发展进步

你的位置:ASR中文网 > MILO中文网 >

艾瑞观点 | 高质量数据推动AI系统的发展进步

发布日期:2025-01-03 18:29    点击次数:133
在人工智能领域,数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是AI的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新。以ImageNet数据集为例,该数据集及相关挑战赛推动了计算机视觉算法的快速发展,2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%。近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。来源:艾瑞咨询研究院自主研究及绘制。ImageNet数据集的成功,以及大模型的Scaling Law的发现,都证明着高质量数据对于AI发展的巨大推动:ImageNet见证CV算法在大规模数据集上的性能提升2009年6月,李飞飞团队完成ImageNet初始版本,共有1500万张图片,涵盖了 2.2 万个不同类别,这些图片筛选自近10亿张候选图片,并由来自167个国家的4.8万多名全球贡献者进行了标注。2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同开发的AlexNet在挑战赛上以超过第二名10个百分点的成绩在夺冠,深度学习迎来学术探索与工业应用的热潮。2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%,超越了人类的物体分类水平。Scaling Law进一步揭示数据对于提升模型性能的关键作用OpenAI研究团队于2020年发表的论文《Scaling laws for neural language models》中,系统地探讨了语言模型性能与模型大小、数据集大小和计算资源之间的关系。研究发现,模型的性能(如损失函数值)与这些因素之间存在稳定的幂律关系,即模型的性能会随着数据量、模型规模和计算量的增加而提升。现阶段,诸多大模型的研发仍在遵循Scaling Law的发展方向:①今年2月,由ServiceNow、Hugging Face 和 NVIDIA联合发布的用于代码生成的StarCoder2,其数据集规模相比v1大7倍,实现了更准确的上下文感知预测。②今年4月,Meta推出Llama3,其训练数据集超过15T token(是Llama2的7倍),可支持8K的上下文长度(是Llama2的2倍),在MMLU、GPQA、HumanEval等多项基准上成绩优异。