Qwen2 72B Instruct 全量模型本地运行实测

www.bilibili.com

2024-6-16 13:22

[视频作者] 门的耳朵

[视频时长] 3:0

[视频类型] 数码

本地部署专栏文章：https://space.bilibili.com/508414342/article vllm0.4.3 实测速度20t/s；在配备8张显卡的条件下，全量模型能够处理的上下文长度大约在24,000词左右。相比之下，全量Qwen1.5版本的72B模型仅支持8,000词的上下文处理。在推理速度方面，新模型与旧版本相比没有显著变化，但吞吐量却有了显著提升。就推理质量而言，初步的跑分结果显示，目前的模型表现略逊于1.5版本。

回复编辑 ⇧顶 ⇩沉

影音视频访问链接

以下链接为影音视频“Qwen2 72B Instruct 全量模型本地运行实测”在线访问地址，点击链接就可以访问查看啦

www.bilibili.com***657271

www.bilibili.com

说两句