小不点搜索 登录

记录大型网络文本语料库:以结肠清洁爬行语料库为例

[图]
2023-11-17 7:21
[视频作者] dupaper
[视频时长] 11:47
[视频类型] 校园学习
Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus 记录大型网络文本语料库:以结肠清洁爬行语料库为例 大型语言模型已经在许多NLP任务上取得了显著进展,研究人员正转向更大的文本语料库来训练它们。一些可用的最大语料库是通过互联网的重要部分来制作的,并且通常只使用最少的文档。在这项工作中,我们为Colossal Clean Crawled Corpus(C4;Raffel等人,2020)提供了
[图]记录大型网络文本语料库:以结肠清洁爬行语料库为例
回复   编辑   ⇧顶   ⇩沉
影音视频访问链接
以下链接为影音视频“记录大型网络文本语料库:以结肠清洁爬行语料库为例”在线访问地址,点击链接就可以访问查看啦
[图]
[图]
阿里云盘/夸克网盘
说两句