NVIDIATesla/Quadro和GeForceGPU的比較

該資源由Microway根據(jù)NVIDIA和可信媒體來源提供的數(shù)據(jù)編寫。 所有NVIDIA GPU都支持通用計算(GPGPU),但并非所有GPU都提供相同的性能或支持相同的功能。GeForce GPU的消費者產品線(特別是GTX Titan)可能對那些運行GPU加速應用程序的人很有吸引力。但是,記住產品之間的差異是明智的。專業(yè)的Tesla和Quadro GPU有許多功能。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)從事網站設計、網站制作、網頁設計的品牌網絡公司。如今是成都地區(qū)具影響力的網站設計公司,作為專業(yè)的成都網站建設公司,成都創(chuàng)新互聯(lián)公司依托強大的技術實力、以及多年的網站運營經驗,為您提供專業(yè)的成都網站建設、營銷型網站建設及網站設計開發(fā)服務!

FP64 64位(雙精度)浮點計算

許多應用需要更高精度的數(shù)學計算。在這些應用程序中,數(shù)據(jù)由兩倍大的值表示(使用64位二進制位而不是32位)。這些較大的值稱為雙精度(64位)。不太準確的值稱為單精度(32位)。雖然幾乎所有NVIDIA GPU產品都支持單精度和雙精度計算,但在大多數(shù)消費級GeForce GPU上,雙精度值的性能要低得多。以下是GeForce和Tesla / Quadro GPU之間雙精度浮點計算性能的比較:

NVIDIA GPU模型雙精度(64位)浮點性能
GeForce GTX Titan X Maxwell 高達0.206 TFLOPS
GeForce GTX 1080 Ti 高達0.355 TFLOPS
GeForce Titan Xp 高達0.380 TFLOPS
GeForce Titan V. 高達6.875 TFLOPS
GeForce RTX 2080 Ti 估計~0.44 TFLOPS
特斯拉K80 1.87+ TFLOPS
特斯拉P100 * 4.7~5.3 TFLOPS
Quadro GP100 5.2 TFLOPS
特斯拉V100 * 7~7.8 TFLOPS
Quadro GV100 7.4 TFLOPS
Quadro RTX 6000和8000 ~0.5 TFLOPS
特斯拉T4 估計~0.25 TFLOPS

*確切的值取決于PCI-Express或SXM2 SKU

FP16 16位(半精度)浮點計算

一些應用程序不需要高精度(例如,神經網絡訓練/推理和某些HPC使用)。在“Pascal”GPU中 引入了對半精度FP16操作的支持。這是以前深度學習/人工智能計算的標準; 但是,深度學習工作負載已轉移到更復雜的操作(請參閱下面的TensorCores)。盡管所有NVIDIA“Pascal”和后來的GPU都支持FP16,但在許多以游戲為中心的GPU上,性能顯著降低。以下是GeForce和Tesla / Quadro GPU之間半精度浮點計算性能的比較:

NVIDIA GPU模型半精度(16位)浮點性能
GeForce GTX Titan X Maxwell N / A
GeForce GTX 1080 Ti 小于0.177 TFLOPS
GeForce Titan Xp 小于0.190 TFLOPS
GeForce Titan V. ~27.5 TFLOPS
GeForce RTX 2080 Ti 28.5 TFLOPS
特斯拉K80 N / A
特斯拉P100 * 18.7~21.2 TFLOPS *
Quadro GP100 20.7 TFLOPS
特斯拉V100 * 28~31.4 TFLOPS *
Quadro GV100 29.6 TFLOPS
Quadro RTX 6000和8000 32.6 TFLOPS
特斯拉T4 16.2 TFLOPS

*確切的值取決于PCI-Express或SXM2 SKU

TensorFLOPS和深度學習表現(xiàn)

一個新的專業(yè)的Tensor Core單元與“Volta”GPU一起推出。它將兩個FP16單元(轉換為全精度產品)與FP32累加運算相結合 - 這是深度學習訓練計算中使用的精確操作。NVIDIA現(xiàn)在通過一種新的深度學習性能指標測量Tensor Core的GPU:一個名為TensorTFLOPS的新單元。

Tensor Core僅適用于“Volta”GPU或更新版本。作為參考,如果沒有TensorFLOPS值,我們將以任何精度提供最大的已知深度學習性能。我們認為,比較不同精度之間的表現(xiàn)是非常差的科學方法; 然而,我們也認識到希望在不同代GPU的深度學習性能之間至少看到一個數(shù)量級的性能比較。

NVIDIA GPU模型TensorFLOPS (或最大DL性能)
GeForce GTX Titan X Maxwell N / A TensorTFLOPS, ~6.1 TFLOPS FP32
GeForce GTX 1080 Ti N / A TensorTFLOPS, ~11.3 TFLOPS FP32
GeForce Titan Xp N / A TensorTFLOPS, ~12.1 TFLOPS FP32
GeForce Titan V. 110 TensorTFLOPS
GeForce RTX 2080 Ti 56.9 TensorTFLOPS 455.4 TOPS, INT4用于推理
特斯拉K80 N / A TensorTFLOPS ,5.6 TFLOPS FP32
特斯拉P100 * N / A TensorTFLOPS ,18.7~21.2 TFLOPS FP16
Quadro GP100 N / A TensorTFLOPS ,20.7 TFLOPS FP16
特斯拉V100 * 112~125 TensorTFLOPS
Quadro GV100 118.5 TensorTFLOPS
Quadro RTX 6000和8000 130.5 TensorTFLOPS 522 TOPS, INT4用于推理
特斯拉T4 65 TensorTFLOPS 260 TOPS, INT4用于推理

*確切的值取決于PCI-Express或SXM2 SKU

錯誤檢測和糾正

在運行計算機游戲的GPU上,一個存儲器錯誤通常不會引起任何問題(例如,一幀的一個像素顏色可能不正確)。用戶甚至不太可能意識到這個問題。但是,技術計算應用程序依賴于GPU返回的數(shù)據(jù)的準確性。對于某些應用程序,單個錯誤可能導致嚴重且明顯的錯誤。對于其他人來說,單比特位錯誤可能不容易檢測(返回看似合理的錯誤結果)。Titan GPU不包括糾錯或錯誤檢測功能。如果發(fā)生錯誤,GPU和系統(tǒng)都不會警告用戶錯誤。用戶可以檢測錯誤(它們是否會導致應用程序崩潰,明顯錯誤的數(shù)據(jù),或者是不明顯的錯誤數(shù)據(jù))。這些問題并不少見 - 我們的技術人員經常在消費者游戲GPU上遇到內存錯誤。NVIDIA Tesla GPU能夠糾正單比特錯誤并檢測和警告雙比特錯誤。在最新的Tesla V100,Tesla T4,Tesla P100和Quadro GV100 / GP100 GPU上,ECC支持包含在主HBM2內存中,以及寄存器文件,共享內存,L1緩存和L2緩存中。

保修和最終用戶許可協(xié)議

NVIDIA對GeForce GPU產品的保修明確規(guī)定GeForce產品不適合安裝在服務器上。在服務器系統(tǒng)中運行GeForce GPU將使GPU的保修失效,用戶自擔風險。來自NVIDIA的制造商保修網站:

保證產品僅供消費者最終用戶使用,不適用于數(shù)據(jù)中心使用和/或GPU集群商業(yè)部署(“企業(yè)使用”)。使用保證產品用于企業(yè)使用將使本保修失效。

NVIDIA GeForce產品驅動程序軟件附帶的許可協(xié)議聲明:

禁止數(shù)據(jù)中心部署。除了允許數(shù)據(jù)中心中的區(qū)塊鏈處理之外,該軟件未獲得數(shù)據(jù)中心部署許可。

GPU內存性能

計算密集型應用程序需要高性能計算單元,但快速訪問數(shù)據(jù)也很關鍵。對于許多HPC應用程序,除非內存性能也得到改善,否則計算性能的提高無濟于事。因此,Tesla GPU提供比GeForce GPU更好的實際性能:

NVIDIA GPU模型GPU內存帶寬
GeForce GTX Titan X Maxwell 336 GB / s
GeForce GTX 1080 Ti 484 GB / s
GeForce Titan Xp 548 GB / s
GeForce Titan V. 653 GB / s
GeForce RTX 2080 Ti 616 GB / s
特斯拉K80 480 GB / s
特斯拉P40 346 GB / s
特斯拉P100 12GB 549 GB / s
特斯拉P100 16GB 732 GB / s
Quadro GP100 717 GB / s
特斯拉V100 16GB / 32GB 900 GB / s
Quadro GV100 870 GB / s
Quadro RTX 6000和8000 624 GB / s
特斯拉T4 320 GB / s

GPU內存大小

通常,系統(tǒng)運行的內存越多,運行的速度就越快。對于某些HPC應用程序,除非有足夠的內存,否則甚至無法執(zhí)行單次運行。對于其他人來說,除非有足夠的內存,否則結果的質量和保真度會降低。Tesla GPU提供的內存是GeForce GPU的兩倍:

GPU 模型內存容量
GeForce GTX 1080 Ti 11GB
GeForce Titan Xp 12GB
GeForce GTX Titan V. 12GB
GeForce RTX 2080 Ti 11GB
特斯拉K80 24GB
特斯拉P40 24GB
特斯拉P100 12GB或16GB *
Quadro GP100 16GB *
特斯拉V100 16GB或32GB *
Quadro GV100 32GB *
Quadro RTX 6000 24GB *
Quadro RTX 8000 48GB *
特斯拉T4 16GB *

*請注意,特斯拉/ Quadro統(tǒng)一內存允許GPU共享彼此的內存以加載更大的數(shù)據(jù)集

PCI-E與NVLink - 設備到主機和設備到設備的吞吐量

最大的潛在瓶頸之一是等待數(shù)據(jù)傳輸?shù)紾PU。當多個GPU并行運行時,存在額外的瓶頸。更快的數(shù)據(jù)傳輸直接導致更快的應用程序性能。GeForce GPU通過PCI-Express連接,其理論峰值吞吐量為16GB / s。配備NVLink的NVIDIA Tesla / Quadro GPU能夠更快地實現(xiàn)連接。NVIDIA的“Pascal”中的NVLink 允許每個GPU以高達80GB / s(160GB / s雙向)的速度進行通信。NVIDIA的“Volta”系列中的NVLink 2.0 允許每個GPU以高達150GB / s(300GB / s雙向)的速度進行通信。GPU之間以及支持的OpenPOWER平臺上的CPU和GPU之間支持NVLink連接。

應用軟件支持

雖然某些軟件程序能夠在支持CUDA的任何GPU上運行,但其他軟件程序則針對專業(yè)GPU系列進行了設計和優(yōu)化。大多數(shù)專業(yè)軟件包僅正式支持NVIDIA Tesla和Quadro GPU。使用GeForce GPU是可能的,但軟件供應商不會支持。在其他情況下,在GeForce GPU(例如,Schr?dinger,LLC的軟件產品)上啟動時,應用程序根本不起作用。

操作系統(tǒng)支持

雖然NVIDIA的GPU驅動程序非常靈活,但是沒有適用于Windows Server操作系統(tǒng)的GeForce驅動程序。GeForce GPU僅在Windows 7,Windows 8和Windows 10上受支持。使用Windows Server的組應該使用NVIDIA專業(yè)的Tesla和Quadro GPU產品。另一方面,Linux驅動程序支持所有NVIDIA GPU。

產品生命周期

由于消費者GPU市場的性質,GeForce產品的生命周期相對較短(產品發(fā)布和生產結束之間通常不超過一年)。需要更長產品壽命的項目(例如購買后3年以上可能需要更換部件的項目)應使用專業(yè)GPU。NVIDIA專業(yè)的Tesla和Quadro GPU產品具有延長的生命周期和制造商的長期支持(包括產品生命終結的通知以及停止生產前的最后購買機會)。此外,專業(yè)GPU在生產過程中經歷了更徹底的測試和驗證過程。

電源效率

GeForce GPU適用于消費者游戲,通常不是為提高電源效率而設計的。相比之下,Tesla GPU專為大規(guī)模部署而設計,其中功率效率非常重要。這使得Tesla GPU成為大型安裝的更好選擇。例如,GeForce GTX Titan X非常適合桌面深度學習工作負載。在服務器部署中,Tesla P40 GPU提供匹配的性能和雙倍的內存容量。然而,當并排放置時,特斯拉消耗更少的電力并產生更少的熱量。

DMA引擎

GPU的直接內存訪問(DMA)引擎允許在系統(tǒng)內存和GPU內存之間進行快速數(shù)據(jù)傳輸。由于此類傳輸是任何實際應用程序的一部分,因此性能對GPU加速至關重要。緩慢的傳輸導致GPU核心處于空閑狀態(tài),直到數(shù)據(jù)到達GPU內存。同樣,慢速返回會導致CPU等待,直到GPU完成返回結果。

GeForce產品具有單個DMA引擎*,可以一次傳輸一個方向的數(shù)據(jù)。如果正在將數(shù)據(jù)上載到GPU,則在上載完成之前,無法返回由GPU計算的任何結果。同樣,從GPU返回的結果將阻止需要上傳到GPU的任何新數(shù)據(jù)。Tesla GPU產品采用雙DMA引擎來緩解這一瓶頸。數(shù)據(jù)可以同時傳輸?shù)紾PU和GPU中。

*一個GeForce GPU型號,GeForce GTX Titan X,具有雙DMA引擎

GPU直接RDMA

NVIDIA的GPU-Direct技術可以極大地提高GPU之間的數(shù)據(jù)傳輸速度。各種功能由GPU-Direct保護,但RDMA功能可帶來最大的性能提升。傳統(tǒng)上,在群集的GPU之間發(fā)送數(shù)據(jù)需要3個內存副本(一次到GPU的系統(tǒng)內存,一次到CPU的系統(tǒng)內存,一次到InfiniBand驅動程序的內存)。GPU Direct RDMA刪除系統(tǒng)內存副本,允許GPU直接通過InfiniBand將數(shù)據(jù)發(fā)送到遠程系統(tǒng)。實際上,對于小型MPI消息大小,這減少延遲高達67%,帶寬增加430%[ 1 ]。在CUDA 8.0版中,NVIDIA推出了GPU Direct RDMA ASYNC,允許GPU在不與CPU進行任何交互的情況下啟動RDMA傳輸。

GeForce GPU不支持GPU-Direct RDMA。雖然MPI調用仍將成功返回,但傳輸將通過標準內存復制路徑執(zhí)行。GeForce卡支持的唯一GPU-Direct形式是GPU Direct Peer-to-Peer(P2P)。這允許在單個計算機內進行快速傳輸,但對于跨多個服務器/計算節(jié)點運行的應用程序不執(zhí)行任何操作。Tesla GPU完全支持GPU Direct RDMA和各種其他GPU Direct功能。它們是這些功能的主要目標,因此在該領域經過最多的測試和使用。

Hyper-Q

用于MPI和CUDA Streams的Hyper-Q代理允許多個CPU線程或進程在單個GPU上啟動工作。這對于使用MPI編寫的現(xiàn)有并行應用程序尤為重要,因為這些代碼旨在利用多個CPU內核。允許GPU接受系統(tǒng)上運行的每個MPI線程的工作可以提供潛在的顯著性能提升。它還可以減少將GPU加速添加到現(xiàn)有應用程序所需的源代碼重新架構量。但是,GeForce GPU支持的唯一Hyper-Q形式是CUDA Streams的Hyper-Q。這允許GeForce有效地接受并運行來自不同CPU核心的并行計算,但是跨多臺計算機運行的應用程序將無法有效地在GPU上啟動工作。

GPU健康監(jiān)控和管理功能

許多運行狀況監(jiān)控和GPU管理功能(對于維護多個GPU系統(tǒng)至關重要)僅在專業(yè)的Tesla GPU上得到支持。GeForce GPU不支持的健康功能包括:

  • NVML/nvidia-smi用于監(jiān)視和管理每個GPU的狀態(tài)和功能。這使得許多第三方應用程序和工具(如Ganglia)支持GPU。Perl和Python綁定也可用。
  • OOB(通過IPMI進行帶外監(jiān)控)允許系統(tǒng)監(jiān)控GPU運行狀況,調整風扇速度以適當冷卻設備并在發(fā)現(xiàn)問題時發(fā)送警報
  • InfoROM(持久配置和狀態(tài)數(shù)據(jù))為系統(tǒng)提供有關每個GPU的附加數(shù)據(jù)
  • NVHealthmon實用程序為集群管理員提供了即用型GPU健康狀態(tài)工具
  • TCC允許將GPU專門設置為僅顯示或僅計算模式
  • ECC(內存錯誤檢測和糾正)
    群集工具依賴于NVIDIA NVML提供的功能。大約60%的功能在GeForce上不可用 - 該表提供了對Tesla和GeForce GPU支持的NVML功能的更詳細比較:
特征TeslaGeforce
產品名稱
顯示GPU計數(shù)
PCI-Express生成(例如,2.0 vs 3.0) -
PCI-Express鏈接寬度(例如,x4,x8,x16) -
當前風扇速度
當前溫度 是*
目前的表現(xiàn)狀況 -
時鐘節(jié)流狀態(tài) -
當前GPU使用率(百分比) -
當前內存使用率(百分比)
GPU提升能力 是^
ECC錯誤檢測/更正支持 -
列出已退休的頁面 -
目前的權力抽獎 -
設置功率限制 -
當前GPU時鐘速度 -
當前內存時鐘速度 -
顯示可用的時鐘速度 -
顯示可用的內存速度 -
設置GPU提升速度(核心時鐘和內存時鐘) -
顯示當前計算過程 -
卡序列號 -
InfoROM圖像和對象 -
會計能力(每個流程的資源使用) -
PCI-Express ID
NVIDIA驅動程序版本
NVIDIA VBIOS版本

*系統(tǒng)平臺無法讀取溫度,這意味著無法調整風扇速度。

^雙精度計算期間禁用GPU Boost。此外,在某些情況下,GeForce時鐘速度將自動降低。

GPU加速

所有最新的NVIDIA GPU產品都支持GPU Boost,但它們的實現(xiàn)方式因預期的使用場景而異。GeForce卡專為交互式桌面使用和游戲而設計。Tesla GPU專為密集,恒定數(shù)量的運算而設計,穩(wěn)定性和可靠性非常高。鑒于這兩個用例之間的差異,GPU Boost在特斯拉上的功能與在GeForce上的不同。

GPU如何在GeForce上運行

在Geforce的情況下,顯卡會根據(jù)GPU的溫度自動確定時鐘速度和電壓。溫度是適當?shù)淖宰兞?,因為發(fā)熱會影響風扇速度。對于圖形較少的游戲或一般桌面使用,最終用戶可以享受更安靜的計算體驗。然而,在玩需要嚴格GPU計算的游戲時,GPU Boost會自動提高電壓和時鐘速度(也會產生更多噪音)。

GPU如何在特斯拉上工作

另一方面,特斯拉的GPU加速水平也可以通過電壓和溫度來確定,但不總是以這種方式運行。

如果愿意,可以由系統(tǒng)管理員或計算用戶指定增強 - 可以將所需的時鐘速度設置為特定頻率。除了將時鐘速度浮動到各種電平之外,可以靜態(tài)地保持期望的時鐘速度,除非達到功耗閾值(TDP)。這是一個重要的考慮因素,因為HPC環(huán)境中的加速器通常需要彼此同步。特斯拉GPU增強的可選確定性方面允許系統(tǒng)管理員確定最佳時鐘速度并將其鎖定在所有GPU中。

對于需要額外性能和確定性的應用,可以將最新的Tesla GPU設置為同步升壓組內的自動升壓。啟用組啟用自動增強功能后,每組GPU將在凈空允許時提高時鐘速度。該小組將保持時鐘彼此同步,以確保整個組的匹配性能??梢栽贜VIDIA DCGM工具中設置組。

https://www.microway.com/knowledge-center-articles/comparison-of-nvidia-geforce-gpus-and-nvidia-tesla-gpus/

本文題目:NVIDIATesla/Quadro和GeForceGPU的比較
文章源于:http://bm7419.com/article18/pphhdp.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供標簽優(yōu)化、App設計、網站維護面包屑導航、服務器托管、虛擬主機

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網站優(yōu)化排名