九游(中国)jiuyou·官方网站-登录入口

九游体育娱乐网并可进行修改以确保职业安全-九游(中国)jiuyou·官方网站-登录入口

发布日期:2025-03-13 21:24    点击次数:115

九游体育娱乐网并可进行修改以确保职业安全-九游(中国)jiuyou·官方网站-登录入口

本文先容了英特尔 ® 至强 ® 处理器在 AI 推理领域的上风,怎么使用一键部署的镜像进行纯 CPU 环境下基于 AMX 加速后的 DeepSeek-R1 7B 蒸馏模子推理,以及纯 CPU 环境下部署 DeepSeek-R1 671B 满血版模子实践。

大模子因其参数领域巨大、结构复杂,经常需要强劲的狡计资源来扶植其推理经过,这使得算力成为大模子应用的中枢要素。跟着 DeepSeek-R1 模子的问世,九行八业纷繁张开了对于怎么接入大模子智商的平凡调研与探索,市集对大模子推理算力的需求呈现出爆发式增长的趋势。

举例在医疗、金融、零卖等领域,企业蹙迫但愿通过接入 DeepSeek 大模子来普及决策服从和业务智商,从而激动行业的翻新发展。在这一配景下,算力的供给和优化成为激动大模子落地应用的转折成分。

频年来,CPU 制程和架构的普及以及英特尔 ® 高档矩阵扩张 AMX(Advanced Matrix Extensions)加速器的面世带来了算力的快速普及。英特尔对大模子推理等多个 AI 领域握续深切连络,提供全目的的 AI 软件扶植,兼容主流 AI 软件且提供多种软件神志普及 CPU 的 AI 性能。现在,已有充分的数据露出 CPU 皆备不错用于大模子推理场景。

CPU 适用于以下大模子推理场景:

场景 1: 大模子推理需要的内存跨越了单块 GPU 的显存容量,需要多块或更高配 GPU 卡,采选 CPU 决议,不错训斥本钱;

场景 2: 应用肯求量小,GPU 哄骗率低,采选 CPU 推理,资源永诀的粒度更小,可有用训斥起建本钱;

场景 3: GPU 资源紧缺,CPU 更容易获取,且不错胜任大模子推理。

天翼云 EMR 实例 DeepSeek-R1-Distill-Qwen-7B 蒸馏模子部署实践

本节践诺主要先容如安在天翼云 EMR 实例上,基于 Intel ®  xFasterTransformer 加速库和 vllm 推理引擎完成模子部署,并展示有关性能狡计。

职业部署

为了陋劣用户使用,天翼云融合英特尔制作了一键部署的云主机镜像,内置 DeepSeek-R1-Distill-Qwen-7B 模子、vLLM 推理框架、xFT 加速库以及 open-webui 前端可视环境。您可在天翼云限制台接纳下列资源池和镜像,洞开云主机进行体验。

完成云主机洞开明,推理职业会在 5 分钟内自动启动,您无需进行任何其他操作。

注:如需在云主机外造访职业,您需要绑定弹性 IP,并在安全组内放行 22/3000/8000 端口。

模子使用

open-webui 前端使用

镜像已内置 open-webui,并已完成和 vllm 的勾通设置,可平直通过以下地址进行造访 :

http:// [ 弹性 IP ] :3000/

注:1. 初次掀开页面时,您需要先完成料理员注册,以进行后续的用户料理。注册数据均保存在云实例的 /root/volume/open-webui 目次下。

2. 若是初次掀开对话页面时莫得模子可供接纳 , 请您稍等几分钟让模子完成加载即可。

vllm api 调用

镜像内置 vllm 职业可平直通过如下地址造访:

# 根旅途 http:// [ 弹性 IP ] :8000/# 查询现存模子 http:// [ 弹性 IP ] :8000/v1/models# 其他 api 接口参阅 vllm 文档

注:vllm 职业设置有 API_KEY,您可在云实例的 /root/recreate_container.sh 文献滥觞稽察到现时值,并可进行修改以确保职业安全。

性能狡计

借助于英特尔 AMX 的加速智商,本推理职业大概取得显赫的性能普及,天翼云完成测试并给出参考狡计如下:

基本参数

vcpu 数:24(物理核 12)

内存:64GB

硬盘:60G 通用型 SSD

模子:DeepSeek-R1-Distill-Qwen-7B(bf16)

batch size:1

输入 token 个数:30-60

输出 token 个数:256

性能数据

平均 token 生成速率:

首 token 时延:

在天翼云 c8e 系列 24vcpu 云主机上,启用 AMX 加速智商后,DeepSeek 7B 蒸馏模子(BF16)推理速率大概独特 9token/s,知足日常使用需求。

基于英特尔 ® 至强 ® 6 处理器部署满血版 DeepSeek-R1 671B 实践性能狡计

DeepSeek R1 671B 满血版模子以其不凡的性能,为用户带来了极致的结尾体验,不外其部署本钱也羁系小觑。若采选传统的 GPU 部署神志,需要 8-16 张 GPU 才智提供弥漫的扶植,这无疑大幅增多了硬件购置、能耗以及保养等方面的本钱。

在这么的配景下,天翼云基于英特尔 ® 提供的至强 ® 6 处理器职业器进行了 DeepSeek R1 671B 满血版 Q4_K_M 模子的部署尝试,测试结尾如下 :

1-instance 1-socket:

平均微辞性能 9.7~10 token/s

2-instance 1-socket:

平均 7.32 token/s 和 7.38token/s, 共 14.7token/s

从上头测试数据不错看到,采选单实例单 socket 部署下,DeepSeek R1 671B 满血版模子可达到平均 9.7~10 token/s 的微辞量,而在双实例部署时势中,总体微辞量普及至 14.7 token/s。单颗 CPU 系统的微辞性能不错达到普通用户浅近使用的需要。

英特尔®至强®6 处理器简介

英特尔 ® 至强 ® CPU 为 DeepSeek R1 671B 模子的部署提供了一个极具竞争力的决议。英特尔 ® 至强 ® CPU 具备扶植 T 级超大内存的智商,这使得它在权重存储与加载方面推崇高效。对于像 DeepSeek R1 671B 这么的超大模子,其所需的显存容量在多卡 GPU 设置下才智知足,而英特尔 ® 至强 ® CPU 大概凭借其强劲的内存扶植智商,为该模子提供考究的入手环境。

此外,DeepSeek R1 模子采选的 MOE(Mixture of Experts)结构,通过参数稀薄化的神志,使得在单 token 推理时仅需激活极少各人参数。这种性格显赫训斥了推理经过中的算力条目,与 CPU 的狡计特色相契合,使得模子在 CPU 系统上的入手愈加高效。这意味着在英特尔 ® 至强 ® CPU 上部署 DeepSeek R1 671B 模子,不仅大概充分阐扬模子的性能上风,还能有用训斥部署本钱,幸免了对多数 GPU 的依赖。

如需复现以上性能测试结尾,请参看附录 2

回首

通过本次实践,不管是在天翼云 EMR 云实例上结合 xFasterTransformer 部署 DS R1 distill Qwen-7B 蒸馏模子,依然基于英特尔 ® 至强 ® 6 处理器部署满血版 DeepSeek-R1 671B 模子,均考据了 CPU 系统在 DeepSeek 大模子推理上的可行性和合乎业界浩荡条目的性能推崇。CPU 系统不仅大概机动顶住不同领域的模子需求,不管是轻量化蒸馏模子依然全功能满血模子,都能高效知足用户场景需求,提供了一种低本钱、经济高效的搞定决议。

附录 1   英特尔 ® 至强 ® 可扩张处理器与 AI 加速本事最新英特尔®至强®可扩张处理器居品英特尔第五代®至强®可扩张处理器(代号 Emerald Rapids)——为 AI 加速而生

第五代英特尔 ® 至强 ® 处理器以专为 AI 使命负载量身定制的设想理念,终明晰中枢架构和内存系统的双重飞跃。其 64 中枢设想搭配高达 320MB 的三级缓存(每中枢由 1.875MB 普及至 5MB),相较上代缓存容量终了近三倍增长,为大领域并行 AI 推理提供充裕的土产货数据存储空间。与此同期,处理器扶植 DDR5-5600 高速内存,单路最大 4TB 的容量保证了大数据处理时的带宽和蔓延上风。基于这些硬件普及,Emerald Rapids 举座性能较上一代普及 21%,AI 推感性能平均普及 42%,在大说话模子推理场景中可终了最高 1.5 倍的性能加速,同期大幅训斥总领有本钱达 77%。

英特尔®至强®6 处理器(代号 GNR Granite Rapids)——引颈 CPU AI 算力变嫌

全新 GNR 处理器专为顶住东谈主工智能、数据分析及科学狡计等狡计密集型任务而设想。该居品在内核数目、内存带宽及专用 AI 加速器方面均终了转折打破:

中枢与性能:每 CPU 配备多达 128 个性能中枢,单路中枢数较上一代翻倍,同期平均单核性能普及达 1.2 倍、每瓦性能普及 1.6 倍,进一步强化了 CPU 在大模子推理中的并立处贤达商;

AI 加速功能:内置英特尔 ® 高档矩阵扩张(AMX)新增对 FP16 数据类型的扶植,使得生成式 AI 和传统深度学习推理任务均能取得显赫加速;

内存与 I/O 打破:扶植 DDR5-6400 内存及英特尔首款引入的 Multiplexed Rank DIMM ( MRDIMM ) 本事,有用将内存带宽普及至上一代的 2.3 倍;同期,高达 504MB 的三级缓存和低蔓延设想确保数据大概更快加载,为复杂模子素质和推理裁减反映时辰。

英特尔 ® 至强 ® 6 处理器不仅通过更多的中枢和更高的单线程性能普及了 AI 大模子推贤达商,同期也大概行为机头 CPU 为 GPU 和其他加速器提供高速数据供给,进一步裁减举座模子素质时辰。在知足搀和使命负载需求的同期,其 TCO 平均训斥 30%,大模子推理加速最高可达 2.4 倍。

不管是第五代至强依然全新的至强 6 处理器,英特尔均通过在中枢架构、缓存系统、内存本事和专用 AI 加速器方面的全面变嫌,提供了业界率先的 AI 狡计扶植。这两款居品为数据中心和高性能狡计平台在 AI 推理、素质以及种种化使命负载下提供了强劲而高效的算力保险。

△图 1 英特尔高档矩阵扩张(AMX)英特尔全目的的 AI 软件生态扶植

英特尔过甚配合股伴凭借多年 AI 积蓄,围绕至强 ® 可扩张处理器打造了完善的软件生态:平凡扶植主流开源框架,通过插件优化及种种化开源用具链,使用户在 x86 平台上大概毛糙开发、部署通用 AI 应用,无需手动调遣,同期确保从末端到云的全程安全保护。

其中,xFasterTransformer(xFT)是英特尔官方开源的 AI 推理框架,专为大说话模子在至强 ® 平台上深度优化。xFT 不仅扶植多种数据精度(FP16、BF16、INT8、INT4),还能哄骗多 CPU 节点终了分散式部署,显赫普及推感性能并训斥本钱。其直爽的装置和与主流 Serving 框架(如 vLLM、FastChat、MLServer、MindSpore Transformer、PaddlePaddle)的兼容性,匡助用户快速加速大模子应用。在 3.1 节中基于天翼云 EMR 云主机和 xFasterTransformer 加速引擎终明晰对与 DeepSeek R1 蒸馏模子的高效推理部署。

△图 2 英特尔提供 AI 软件用具 全面兼容主流 AI 开发框架附录 2 CPU 环境下部署 DeepSeek-R1 671B 模子实践环境设置

硬件设置

CPU:Intel ® Xeon ® 6980P Processor, 128core 2.00 GHz

内存 24*64GB DDR5-6400

存储 1TB NVMe SSD

软件环境

OS: Ubuntu 22.04.5 LTS

Kernel: 5.15.0-131-generic

llama.cpp: github bd6e55b

cmake: 3.22.0

gcc/g++: 11.4.0

Python: 3.12.8

git: 2.34.1

BIOS ⾥关闭 sub NUMA 有关设置。

注:版块是指本测试中职业器上装置的版块,并⾮条目的最低版块。

部署模范 1. 装置 llama.cpp

参考 llama.cpp 官⽹的装置证实,咱们的模范如下。

# 下载 llama.cpp 推理框架源码 git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp# 事先准备 intel oneapi 库 source /opt/intel/oneapi/setvars.sh# 基于 oneapi 库对 llama.cpp 进行编译 cmake -B build -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=Intel10_64lp -DCMAKE_C_COMPILER=icx -DCMAKE_CXX_COMPILER=icpx -DGGML_NATIVE=ON cmake --build build --config Release -j$nproc

2. 下载模子⽂件

社区提供了从 1bit 到 8bit 不同版块的量化选项,具体区别不错参考社区网页。咱们接纳了使用最受迎接的 Q4_K_M 版块。若是追求最好结尾,提出使用 Q8_0 版块。

# 下载 unsloth 制作的社区版量化模子 ( hf-mirror 和 modelscpoe 源都可 ) git clone — no-checkout https://hf-mirror.com/unsloth/DeepSeek-R1-GGUFcd DeepSeek-R1-GGUF/# 提出 nohup 实施 , 瞻望至少需要半天时辰 , 同期确保磁盘容量弥漫 400G.git lfs pull — include= " DeepSeek-R1-Q4_K_M/* "

3. 模子加载和运⾏

使用 llama-cli,指定模子文献旅途并启用交互时势,DeepSeek R1 满血版就不错在 CPU 上成功入手了。

build/bin/llama-cli -m /tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of- 00009.gguf -i

底下用几个示例展现 DeepSeek-R1 671B 满血版强劲的的 reasoning 推贤达商 :

测试模子自我剖释 :

考据推理能⼒的经典"草莓"问题 :

"等灯等灯"的意旨真谛 :

4. 性能及优化

那么 CPU 运⾏满⾎版 R1 的性能奈何样呢?咱们作念了有关性能测试。对于 Q4_K_M 模子,使⽤如下号召进行 :

export MODEL_PATH=/tmp/DeepSeek-R1-Q4_K_M/DeepSeek-R1-Q4_K_M-00001-of-00009.ggufnumactl -C 0-127 -m 0 ./build/bin/llama-cli -m $MODEL_PATH -t 128 — temp 0.6 -s 42 -no-cnv — no-kv-offload -ctk q4_0 -c 8192 -n 128 -p "以寥寂的夜行者为题写一篇 750 字的散文,描绘一个东谈主在城市中夜晚漫无目的行走的热诚与所见所感,以及夜的稀薄予以的特有感悟。"

这⾥使⽤ numactl 来指定使⽤单路 CPU ( 0-127, 6980P 有 128 核 ) ,以及这⼀路 CPU 的内存节点(numa0),幸免跨 numa 传输以获取最好性能。

llama.cpp 是土产货编译的,编译的时候使⽤ Intel oneAPI 不错有用普及它的性能。英特尔尝试⽤了 oneAPI ⾥的 Intel C++ 编译器和数学加速库 MKL,结合 jemalloc 内存料理优化,推理速率不错达到每秒 9.7~10 词元 ( TPS, tokens per second ) 。

上⾯的实验是在单路 CPU 上进⾏的,咱们⼜在两路 CPU 上各⾃独⽴启动 1 个模子实例,总速率不错达到 14.7TPS ( 7.32TPS+7.38TPS ) 。

再进⼀步,英特尔不雅察到基于现存的 llama.cpp 软件⽅案,在 CPU 平台莫得终了⾼效的各人并⾏和张量并⾏等优化,CPU 核⼼利⽤率和带宽资源莫得充分阐扬出来,6980P 的 128 核⼼运⾏ 1 个模子还有不少性能储备。瞻望不错不息增多实例数来取得更好的总 TPS。

另外,经常情况下,CPU 的 SNC ( Sub-NUMA Clustering ) 劝诱不错取得更⾼的带宽,然而受限于软件并未优化终了考究匹配,这次实验关闭了 SNC 测试。

以下⽅式的系统设置也有助于普及性能:

BIOS ⾥关闭 AMP prefetcher

⽤ cpupower 掀开 CPU 的 pstate 性能时势

提⾼ CPU 的 uncore 频率

关闭超线程 ( Hyper-Threading )

注 : 为了加速检会进程,咱们结尾了词元输出⻓度 ( -n 128 ) 。经过考据,增多输出⻓度 ( 举例 -n 512 ) 对于生成性能狡计的影响不大。

* 本文系量子位获授权刊载九游体育娱乐网,不雅点仅为原作家总共。



 




Powered by 九游(中国)jiuyou·官方网站-登录入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024