小不点搜索 登录

Qwen2 72B Instruct 全量模型本地运行实测

[图]
6-16 13:22
[视频作者] 门的耳朵
[视频时长] 3:0
[视频类型] 数码
本地部署专栏文章:https://space.bilibili.com/508414342/article vllm0.4.3 实测速度20t/s; 在配备8张显卡的条件下,全量模型能够处理的上下文长度大约在24,000词左右。 相比之下,全量Qwen1.5版本的72B模型仅支持8,000词的上下文处理。 在推理速度方面,新模型与旧版本相比没有显著变化,但吞吐量却有了显著提升。 就推理质量而言,初步的跑分结果显示,目前的模型表现略逊于1.5版本。
[图]Qwen2 72B Instruct 全量模型本地运行实测
回复   编辑   ⇧顶   ⇩沉
影音视频访问链接
以下链接为影音视频“Qwen2 72B Instruct 全量模型本地运行实测”在线访问地址,点击链接就可以访问查看啦
[图]
说两句