[视频作者] dupaper
[视频时长] 11:47
[视频类型] 校园学习
Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus 记录大型网络文本语料库:以结肠清洁爬行语料库为例 大型语言模型已经在许多NLP任务上取得了显著进展,研究人员正转向更大的文本语料库来训练它们。一些可用的最大语料库是通过互联网的重要部分来制作的,并且通常只使用最少的文档。在这项工作中,我们为Colossal Clean Crawled Corpus(C4;Raffel等人,2020)提供了
![[图]记录大型网络文本语料库:以结肠清洁爬行语料库为例](https://i1.hdslb.com/bfs/archive/85cae31b223a072b53e0af1dcec5e6afce8e1c70.jpg)