记录大型网络文本语料库：以结肠清洁爬行语料库为例

www.bilibili.com

2023-11-17 7:21

[视频作者] dupaper

[视频时长] 11:47

[视频类型] 校园学习

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus 记录大型网络文本语料库：以结肠清洁爬行语料库为例大型语言模型已经在许多NLP任务上取得了显著进展，研究人员正转向更大的文本语料库来训练它们。一些可用的最大语料库是通过互联网的重要部分来制作的，并且通常只使用最少的文档。在这项工作中，我们为Colossal Clean Crawled Corpus（C4；Raffel等人，2020）提供了

回复编辑 ⇧顶 ⇩沉

影音视频访问链接

以下链接为影音视频“记录大型网络文本语料库：以结肠清洁爬行语料库为例”在线访问地址，点击链接就可以访问查看啦

www.bilibili.com***713165

www.bilibili.com

阿里云盘/夸克网盘搜索下载

阿里云盘/夸克网盘

说两句