[视频作者] 门的耳朵
[视频时长] 2:1
[视频类型] 数码
模型地址:https://huggingface.co/MaziyarPanahi/Meta-Llama-3-70B-Instruct-GPTQ 对本地搭建有兴趣的可以参考:https://www.bilibili.com/read/readlist/rl823654 系统环境: 硬件:22G魔改2080ti*8 超微4029 CPU: 6133 内存256G 推理框架:vlllm0.4 post1 结论: 支持运行8k级别的上下文,运行速度达到40T/S。在16个并发请求下,其吞吐量可提升至23