禁令解除72小時(shí)：141GB H20 跑滿(mǎn)血實(shí)測(cè)，DeepSeek 性能超預(yù)期

來(lái)源：投影時(shí)代　更新日期：2025-07-18 作者：佚名

商顯市場(chǎng)最大的看點(diǎn)何在年度評(píng)選盛典獲獎(jiǎng)揭曉 Infocomm China 深入報(bào)道

2025 年 7 月 15 日，英偉達(dá) CEO 黃仁勛宣布了一個(gè)震動(dòng) AI 圈的消息：美國(guó)政府即日起解除 H20 芯片對(duì)華銷(xiāo)售禁令，而就在禁令解除后，云工場(chǎng)科技發(fā)布詳細(xì)測(cè)試數(shù)據(jù)--- 8 卡 141GB 顯存的 H20 服務(wù)器，能流暢運(yùn)行 671B 參數(shù)的滿(mǎn)血版非量化 DeepSeek-R1 模型，推理吞吐量突破預(yù)期。

硬核實(shí)測(cè)：141GB H20 跑滿(mǎn)血版非量化 DeepSeek 性能全面解析

測(cè)試環(huán)境配置

一. 測(cè)試數(shù)據(jù)

1752803486229913.jpg"../../img_UpArticle/2025-07/28265349142127.jpg"

二. 關(guān)鍵性能測(cè)試結(jié)果

測(cè)試顯示：

1.首 token 響應(yīng)快：在測(cè)試的多個(gè)并發(fā)量下，首個(gè) Token 的響應(yīng)時(shí)間 (TTFT) 都保持在3秒以?xún)?nèi)（實(shí)測(cè) 0.1s - 2.8s），用戶(hù)體驗(yàn)非常流暢，感覺(jué)不到任何延遲。

2.高并發(fā)吞吐大： H20 顯卡展現(xiàn)出優(yōu)秀的并發(fā)處理能力。在模擬 100 個(gè)用戶(hù)同時(shí)提問(wèn)（并發(fā)請(qǐng)求=100）的中高負(fù)載場(chǎng)景下：

·處理短問(wèn)題（輸入/輸出各 256 tokens），系統(tǒng)總吞吐量高達(dá) 約 1124 tokens/s。

·處理典型問(wèn)題（輸入/輸出各 1K tokens），總吞吐量穩(wěn)定在約 1100 tokens/s。

·處理復(fù)雜問(wèn)題/長(zhǎng)對(duì)話(huà)（輸入/輸出各 2K tokens），總吞吐量仍能保持約 1020 tokens/s。

分場(chǎng)景性能趨勢(shì)：

1.低并發(fā)場(chǎng)景 (<10 用戶(hù))：

·響應(yīng)極快： TTFT 始終低于 0.9 秒，用戶(hù)幾乎感覺(jué)不到等待。

·吞吐未飽和：系統(tǒng)能力遠(yuǎn)未被充分利用，吞吐量相對(duì)較低（32-208 tokens/s），性能表現(xiàn)輕松自如。

2.中高并發(fā)場(chǎng)景 (50-100用戶(hù))：

·響應(yīng)依然迅速： TTFT 保持在 1.9 秒 (1K上下文) 到 2.8 秒 (2K上下文)，交互體驗(yàn)依然流暢。

·吞吐大幅躍升：系統(tǒng)資源得到高效利用，總吞吐量急劇上升至 634 - 1124 tokens/s。

·長(zhǎng)上下文優(yōu)勢(shì)顯現(xiàn)：在相同并發(fā)下，處理更長(zhǎng)（1K/2K）的上下文通常能獲得比短上下文（256）更高的吞吐量（尤其在并發(fā)50時(shí)最明顯），充分體現(xiàn)了 vLLM 對(duì)長(zhǎng)文本的優(yōu)化效果。

3.極限場(chǎng)景 (100用戶(hù) + 長(zhǎng)上下文 2K)：

·響應(yīng)可控： TTFT 為 2.8 秒，交互體驗(yàn)依然流暢。

·吞吐維持高位：即使在此壓力下，系統(tǒng)總吞吐量仍達(dá) 1020 tokens/s。

三.測(cè)試總結(jié)

云工場(chǎng)科技構(gòu)建了全面的異構(gòu)計(jì)算資源池，涵蓋 NVIDIA 全系高性能 GPU（包括 141GB 顯存 H20、L20、RTX 4090 等最新型號(hào)）、AMD w7900 以及國(guó)產(chǎn)算力三巨頭（華為昇騰 910B 系列、百度昆侖芯 P800、燧原 S60）等等，可本地部署到就近機(jī)房，提供 DeepSeek、文心一言、華為盤(pán)古、LLaMA 等開(kāi)源大模型本地部署。

通過(guò)嚴(yán)格的橫向性能基準(zhǔn)測(cè)試，云工場(chǎng)科技驗(yàn)證了不同架構(gòu) GPU 在 LLM 推理、計(jì)算機(jī)視覺(jué)等場(chǎng)景的能效比差異，并為客戶(hù)提供"算力租賃 + 算力智能調(diào)度 + 平臺(tái)化交付"的完整 AI 服務(wù)體系，目前已在教育/工業(yè)/通信/交通等多領(lǐng)域成功落地，支撐其大模型部署、推理及場(chǎng)景化落地的全流程需求。

返回投影機(jī)頻道首頁(yè)

推薦

年度大屏視聽(tīng)行業(yè)評(píng)選，花落誰(shuí)家？