NVIDIATesla/Quadro和GeForceGPU的比較

該資源由Microway根據(jù)NVIDIA和可信媒體來源提供的數(shù)據(jù)編寫。所有NVIDIA GPU都支持通用計算（GPGPU），但并非所有GPU都提供相同的性能或支持相同的功能。GeForce GPU的消費者產品線（特別是GTX Titan）可能對那些運行GPU加速應用程序的人很有吸引力。但是，記住產品之間的差異是明智的。專業(yè)的Tesla和Quadro GPU有許多功能。

成都創(chuàng)新互聯(lián)公司是一家專業(yè)從事網站設計、網站制作、網頁設計的品牌網絡公司。如今是成都地區(qū)具影響力的網站設計公司,作為專業(yè)的成都網站建設公司,成都創(chuàng)新互聯(lián)公司依托強大的技術實力、以及多年的網站運營經驗,為您提供專業(yè)的成都網站建設、營銷型網站建設及網站設計開發(fā)服務！

FP64 64位（雙精度）浮點計算

許多應用需要更高精度的數(shù)學計算。在這些應用程序中，數(shù)據(jù)由兩倍大的值表示（使用64位二進制位而不是32位）。這些較大的值稱為雙精度（64位）。不太準確的值稱為單精度（32位）。雖然幾乎所有NVIDIA GPU產品都支持單精度和雙精度計算，但在大多數(shù)消費級GeForce GPU上，雙精度值的性能要低得多。以下是GeForce和Tesla / Quadro GPU之間雙精度浮點計算性能的比較：

NVIDIA GPU模型	雙精度（64位）浮點性能
GeForce GTX Titan X Maxwell	高達0.206 TFLOPS
GeForce GTX 1080 Ti	高達0.355 TFLOPS
GeForce Titan Xp	高達0.380 TFLOPS
GeForce Titan V.	高達6.875 TFLOPS
GeForce RTX 2080 Ti	估計~0.44 TFLOPS
特斯拉K80	1.87+ TFLOPS
特斯拉P100 *	4.7~5.3 TFLOPS
Quadro GP100	5.2 TFLOPS
特斯拉V100 *	7~7.8 TFLOPS
Quadro GV100	7.4 TFLOPS
Quadro RTX 6000和8000	~0.5 TFLOPS
特斯拉T4	估計~0.25 TFLOPS

*確切的值取決于PCI-Express或SXM2 SKU

FP16 16位（半精度）浮點計算

一些應用程序不需要高精度（例如，神經網絡訓練/推理和某些HPC使用）。在“Pascal”GPU中引入了對半精度FP16操作的支持。這是以前深度學習/人工智能計算的標準; 但是，深度學習工作負載已轉移到更復雜的操作（請參閱下面的TensorCores）。盡管所有NVIDIA“Pascal”和后來的GPU都支持FP16，但在許多以游戲為中心的GPU上，性能顯著降低。以下是GeForce和Tesla / Quadro GPU之間半精度浮點計算性能的比較：

NVIDIA GPU模型	半精度（16位）浮點性能
GeForce GTX Titan X Maxwell	N / A
GeForce GTX 1080 Ti	小于0.177 TFLOPS
GeForce Titan Xp	小于0.190 TFLOPS
GeForce Titan V.	~27.5 TFLOPS
GeForce RTX 2080 Ti	28.5 TFLOPS
特斯拉K80	N / A
特斯拉P100 *	18.7~21.2 TFLOPS *
Quadro GP100	20.7 TFLOPS
特斯拉V100 *	28~31.4 TFLOPS *
Quadro GV100	29.6 TFLOPS
Quadro RTX 6000和8000	32.6 TFLOPS
特斯拉T4	16.2 TFLOPS

*確切的值取決于PCI-Express或SXM2 SKU

TensorFLOPS和深度學習表現(xiàn)

一個新的專業(yè)的Tensor Core單元與“Volta”GPU一起推出。它將兩個FP16單元（轉換為全精度產品）與FP32累加運算相結合 - 這是深度學習訓練計算中使用的精確操作。NVIDIA現(xiàn)在通過一種新的深度學習性能指標測量Tensor Core的GPU：一個名為TensorTFLOPS的新單元。

Tensor Core僅適用于“Volta”GPU或更新版本。作為參考，如果沒有TensorFLOPS值，我們將以任何精度提供最大的已知深度學習性能。我們認為，比較不同精度之間的表現(xiàn)是非常差的科學方法; 然而，我們也認識到希望在不同代GPU的深度學習性能之間至少看到一個數(shù)量級的性能比較。

NVIDIA GPU模型	TensorFLOPS （或最大DL性能）
GeForce GTX Titan X Maxwell	N / A TensorTFLOPS, ~6.1 TFLOPS FP32
GeForce GTX 1080 Ti	N / A TensorTFLOPS, ~11.3 TFLOPS FP32
GeForce Titan Xp	N / A TensorTFLOPS, ~12.1 TFLOPS FP32
GeForce Titan V. 110	TensorTFLOPS
GeForce RTX 2080 Ti	56.9 TensorTFLOPS 455.4 TOPS, INT4用于推理
特斯拉K80	N / A TensorTFLOPS ,5.6 TFLOPS FP32
特斯拉P100 *	N / A TensorTFLOPS ,18.7~21.2 TFLOPS FP16
Quadro GP100	N / A TensorTFLOPS ,20.7 TFLOPS FP16
特斯拉V100 *	112~125 TensorTFLOPS
Quadro GV100	118.5 TensorTFLOPS
Quadro RTX 6000和8000	130.5 TensorTFLOPS 522 TOPS, INT4用于推理
特斯拉T4	65 TensorTFLOPS 260 TOPS, INT4用于推理

*確切的值取決于PCI-Express或SXM2 SKU

錯誤檢測和糾正

在運行計算機游戲的GPU上，一個存儲器錯誤通常不會引起任何問題（例如，一幀的一個像素顏色可能不正確）。用戶甚至不太可能意識到這個問題。但是，技術計算應用程序依賴于GPU返回的數(shù)據(jù)的準確性。對于某些應用程序，單個錯誤可能導致嚴重且明顯的錯誤。對于其他人來說，單比特位錯誤可能不容易檢測（返回看似合理的錯誤結果）。Titan GPU不包括糾錯或錯誤檢測功能。如果發(fā)生錯誤，GPU和系統(tǒng)都不會警告用戶錯誤。用戶可以檢測錯誤（它們是否會導致應用程序崩潰，明顯錯誤的數(shù)據(jù)，或者是不明顯的錯誤數(shù)據(jù)）。這些問題并不少見 - 我們的技術人員經常在消費者游戲GPU上遇到內存錯誤。NVIDIA Tesla GPU能夠糾正單比特錯誤并檢測和警告雙比特錯誤。在最新的Tesla V100，Tesla T4，Tesla P100和Quadro GV100 / GP100 GPU上，ECC支持包含在主HBM2內存中，以及寄存器文件，共享內存，L1緩存和L2緩存中。

保修和最終用戶許可協(xié)議

NVIDIA對GeForce GPU產品的保修明確規(guī)定GeForce產品不適合安裝在服務器上。在服務器系統(tǒng)中運行GeForce GPU將使GPU的保修失效，用戶自擔風險。來自NVIDIA的制造商保修網站：

保證產品僅供消費者最終用戶使用，不適用于數(shù)據(jù)中心使用和/或GPU集群商業(yè)部署（“企業(yè)使用”）。使用保證產品用于企業(yè)使用將使本保修失效。

NVIDIA GeForce產品驅動程序軟件附帶的許可協(xié)議聲明：

禁止數(shù)據(jù)中心部署。除了允許數(shù)據(jù)中心中的區(qū)塊鏈處理之外，該軟件未獲得數(shù)據(jù)中心部署許可。

GPU內存性能

計算密集型應用程序需要高性能計算單元，但快速訪問數(shù)據(jù)也很關鍵。對于許多HPC應用程序，除非內存性能也得到改善，否則計算性能的提高無濟于事。因此，Tesla GPU提供比GeForce GPU更好的實際性能：

NVIDIA GPU模型	GPU內存帶寬
GeForce GTX Titan X Maxwell	336 GB / s
GeForce GTX 1080 Ti	484 GB / s
GeForce Titan Xp	548 GB / s
GeForce Titan V.	653 GB / s
GeForce RTX 2080 Ti	616 GB / s
特斯拉K80	480 GB / s
特斯拉P40	346 GB / s
特斯拉P100 12GB	549 GB / s
特斯拉P100 16GB	732 GB / s
Quadro GP100	717 GB / s
特斯拉V100 16GB / 32GB	900 GB / s
Quadro GV100	870 GB / s
Quadro RTX 6000和8000	624 GB / s
特斯拉T4	320 GB / s

GPU內存大小

通常，系統(tǒng)運行的內存越多，運行的速度就越快。對于某些HPC應用程序，除非有足夠的內存，否則甚至無法執(zhí)行單次運行。對于其他人來說，除非有足夠的內存，否則結果的質量和保真度會降低。Tesla GPU提供的內存是GeForce GPU的兩倍：

GPU 模型	內存容量
GeForce GTX 1080 Ti	11GB
GeForce Titan Xp	12GB
GeForce GTX Titan V.	12GB
GeForce RTX 2080 Ti	11GB
特斯拉K80	24GB
特斯拉P40	24GB
特斯拉P100	12GB或16GB *
Quadro GP100	16GB *
特斯拉V100	16GB或32GB *
Quadro GV100	32GB *
Quadro RTX 6000	24GB *
Quadro RTX 8000	48GB *
特斯拉T4	16GB *

*請注意，特斯拉/ Quadro統(tǒng)一內存允許GPU共享彼此的內存以加載更大的數(shù)據(jù)集

PCI-E與NVLink - 設備到主機和設備到設備的吞吐量

最大的潛在瓶頸之一是等待數(shù)據(jù)傳輸?shù)紾PU。當多個GPU并行運行時，存在額外的瓶頸。更快的數(shù)據(jù)傳輸直接導致更快的應用程序性能。GeForce GPU通過PCI-Express連接，其理論峰值吞吐量為16GB / s。配備NVLink的NVIDIA Tesla / Quadro GPU能夠更快地實現(xiàn)連接。NVIDIA的“Pascal”中的NVLink 允許每個GPU以高達80GB / s（160GB / s雙向）的速度進行通信。NVIDIA的“Volta”系列中的NVLink 2.0 允許每個GPU以高達150GB / s（300GB / s雙向）的速度進行通信。GPU之間以及支持的OpenPOWER平臺上的CPU和GPU之間支持NVLink連接。

應用軟件支持

雖然某些軟件程序能夠在支持CUDA的任何GPU上運行，但其他軟件程序則針對專業(yè)GPU系列進行了設計和優(yōu)化。大多數(shù)專業(yè)軟件包僅正式支持NVIDIA Tesla和Quadro GPU。使用GeForce GPU是可能的，但軟件供應商不會支持。在其他情況下，在GeForce GPU（例如，Schr?dinger，LLC的軟件產品）上啟動時，應用程序根本不起作用。

操作系統(tǒng)支持

雖然NVIDIA的GPU驅動程序非常靈活，但是沒有適用于Windows Server操作系統(tǒng)的GeForce驅動程序。GeForce GPU僅在Windows 7，Windows 8和Windows 10上受支持。使用Windows Server的組應該使用NVIDIA專業(yè)的Tesla和Quadro GPU產品。另一方面，Linux驅動程序支持所有NVIDIA GPU。

產品生命周期

由于消費者GPU市場的性質，GeForce產品的生命周期相對較短（產品發(fā)布和生產結束之間通常不超過一年）。需要更長產品壽命的項目（例如購買后3年以上可能需要更換部件的項目）應使用專業(yè)GPU。NVIDIA專業(yè)的Tesla和Quadro GPU產品具有延長的生命周期和制造商的長期支持（包括產品生命終結的通知以及停止生產前的最后購買機會）。此外，專業(yè)GPU在生產過程中經歷了更徹底的測試和驗證過程。

電源效率

GeForce GPU適用于消費者游戲，通常不是為提高電源效率而設計的。相比之下，Tesla GPU專為大規(guī)模部署而設計，其中功率效率非常重要。這使得Tesla GPU成為大型安裝的更好選擇。例如，GeForce GTX Titan X非常適合桌面深度學習工作負載。在服務器部署中，Tesla P40 GPU提供匹配的性能和雙倍的內存容量。然而，當并排放置時，特斯拉消耗更少的電力并產生更少的熱量。

DMA引擎

GPU的直接內存訪問（DMA）引擎允許在系統(tǒng)內存和GPU內存之間進行快速數(shù)據(jù)傳輸。由于此類傳輸是任何實際應用程序的一部分，因此性能對GPU加速至關重要。緩慢的傳輸導致GPU核心處于空閑狀態(tài)，直到數(shù)據(jù)到達GPU內存。同樣，慢速返回會導致CPU等待，直到GPU完成返回結果。

GeForce產品具有單個DMA引擎*，可以一次傳輸一個方向的數(shù)據(jù)。如果正在將數(shù)據(jù)上載到GPU，則在上載完成之前，無法返回由GPU計算的任何結果。同樣，從GPU返回的結果將阻止需要上傳到GPU的任何新數(shù)據(jù)。Tesla GPU產品采用雙DMA引擎來緩解這一瓶頸。數(shù)據(jù)可以同時傳輸?shù)紾PU和GPU中。

*一個GeForce GPU型號，GeForce GTX Titan X，具有雙DMA引擎

GPU直接RDMA

NVIDIA的GPU-Direct技術可以極大地提高GPU之間的數(shù)據(jù)傳輸速度。各種功能由GPU-Direct保護，但RDMA功能可帶來最大的性能提升。傳統(tǒng)上，在群集的GPU之間發(fā)送數(shù)據(jù)需要3個內存副本（一次到GPU的系統(tǒng)內存，一次到CPU的系統(tǒng)內存，一次到InfiniBand驅動程序的內存）。GPU Direct RDMA刪除系統(tǒng)內存副本，允許GPU直接通過InfiniBand將數(shù)據(jù)發(fā)送到遠程系統(tǒng)。實際上，對于小型MPI消息大小，這減少延遲高達67％，帶寬增加430％[ 1 ]。在CUDA 8.0版中，NVIDIA推出了GPU Direct RDMA ASYNC，允許GPU在不與CPU進行任何交互的情況下啟動RDMA傳輸。

GeForce GPU不支持GPU-Direct RDMA。雖然MPI調用仍將成功返回，但傳輸將通過標準內存復制路徑執(zhí)行。GeForce卡支持的唯一GPU-Direct形式是GPU Direct Peer-to-Peer（P2P）。這允許在單個計算機內進行快速傳輸，但對于跨多個服務器/計算節(jié)點運行的應用程序不執(zhí)行任何操作。Tesla GPU完全支持GPU Direct RDMA和各種其他GPU Direct功能。它們是這些功能的主要目標，因此在該領域經過最多的測試和使用。

Hyper-Q

用于MPI和CUDA Streams的Hyper-Q代理允許多個CPU線程或進程在單個GPU上啟動工作。這對于使用MPI編寫的現(xiàn)有并行應用程序尤為重要，因為這些代碼旨在利用多個CPU內核。允許GPU接受系統(tǒng)上運行的每個MPI線程的工作可以提供潛在的顯著性能提升。它還可以減少將GPU加速添加到現(xiàn)有應用程序所需的源代碼重新架構量。但是，GeForce GPU支持的唯一Hyper-Q形式是CUDA Streams的Hyper-Q。這允許GeForce有效地接受并運行來自不同CPU核心的并行計算，但是跨多臺計算機運行的應用程序將無法有效地在GPU上啟動工作。

GPU健康監(jiān)控和管理功能

許多運行狀況監(jiān)控和GPU管理功能（對于維護多個GPU系統(tǒng)至關重要）僅在專業(yè)的Tesla GPU上得到支持。GeForce GPU不支持的健康功能包括：

NVML/nvidia-smi用于監(jiān)視和管理每個GPU的狀態(tài)和功能。這使得許多第三方應用程序和工具（如Ganglia）支持GPU。Perl和Python綁定也可用。
OOB（通過IPMI進行帶外監(jiān)控）允許系統(tǒng)監(jiān)控GPU運行狀況，調整風扇速度以適當冷卻設備并在發(fā)現(xiàn)問題時發(fā)送警報
InfoROM（持久配置和狀態(tài)數(shù)據(jù)）為系統(tǒng)提供有關每個GPU的附加數(shù)據(jù)
NVHealthmon實用程序為集群管理員提供了即用型GPU健康狀態(tài)工具
TCC允許將GPU專門設置為僅顯示或僅計算模式
ECC（內存錯誤檢測和糾正）
群集工具依賴于NVIDIA NVML提供的功能。大約60％的功能在GeForce上不可用 - 該表提供了對Tesla和GeForce GPU支持的NVML功能的更詳細比較：

特征	Tesla	Geforce
產品名稱	是	是
顯示GPU計數(shù)	是	是
PCI-Express生成（例如，2.0 vs 3.0）	是	-
PCI-Express鏈接寬度（例如，x4，x8，x16）	是	-
當前風扇速度	是	是
當前溫度	是	是*
目前的表現(xiàn)狀況	是	-
時鐘節(jié)流狀態(tài)	是	-
當前GPU使用率（百分比）	是	-
當前內存使用率（百分比）	是	是
GPU提升能力	是	是^
ECC錯誤檢測/更正支持	是	-
列出已退休的頁面	是	-
目前的權力抽獎	是	-
設置功率限制	是	-
當前GPU時鐘速度	是	-
當前內存時鐘速度	是	-
顯示可用的時鐘速度	是	-
顯示可用的內存速度	是	-
設置GPU提升速度（核心時鐘和內存時鐘）	是	-
顯示當前計算過程	是	-
卡序列號	是	-
InfoROM圖像和對象	是	-
會計能力（每個流程的資源使用）	是	-
PCI-Express ID	是	是
NVIDIA驅動程序版本	是	是
NVIDIA VBIOS版本	是	是

*系統(tǒng)平臺無法讀取溫度，這意味著無法調整風扇速度。

^雙精度計算期間禁用GPU Boost。此外，在某些情況下，GeForce時鐘速度將自動降低。

GPU加速

所有最新的NVIDIA GPU產品都支持GPU Boost，但它們的實現(xiàn)方式因預期的使用場景而異。GeForce卡專為交互式桌面使用和游戲而設計。Tesla GPU專為密集，恒定數(shù)量的運算而設計，穩(wěn)定性和可靠性非常高。鑒于這兩個用例之間的差異，GPU Boost在特斯拉上的功能與在GeForce上的不同。

GPU如何在GeForce上運行

在Geforce的情況下，顯卡會根據(jù)GPU的溫度自動確定時鐘速度和電壓。溫度是適當?shù)淖宰兞?，因為發(fā)熱會影響風扇速度。對于圖形較少的游戲或一般桌面使用，最終用戶可以享受更安靜的計算體驗。然而，在玩需要嚴格GPU計算的游戲時，GPU Boost會自動提高電壓和時鐘速度（也會產生更多噪音）。

GPU如何在特斯拉上工作

另一方面，特斯拉的GPU加速水平也可以通過電壓和溫度來確定，但不總是以這種方式運行。

如果愿意，可以由系統(tǒng)管理員或計算用戶指定增強 - 可以將所需的時鐘速度設置為特定頻率。除了將時鐘速度浮動到各種電平之外，可以靜態(tài)地保持期望的時鐘速度，除非達到功耗閾值（TDP）。這是一個重要的考慮因素，因為HPC環(huán)境中的加速器通常需要彼此同步。特斯拉GPU增強的可選確定性方面允許系統(tǒng)管理員確定最佳時鐘速度并將其鎖定在所有GPU中。

對于需要額外性能和確定性的應用，可以將最新的Tesla GPU設置為同步升壓組內的自動升壓。啟用組啟用自動增強功能后，每組GPU將在凈空允許時提高時鐘速度。該小組將保持時鐘彼此同步，以確保整個組的匹配性能?？梢栽贜VIDIA DCGM工具中設置組。

https://www.microway.com/knowledge-center-articles/comparison-of-nvidia-geforce-gpus-and-nvidia-tesla-gpus/

本文題目：NVIDIATesla/Quadro和GeForceGPU的比較
文章源于：http://bm7419.com/article18/pphhdp.html

成都網站建設公司_創(chuàng)新互聯(lián)，為您提供標簽優(yōu)化、App設計、網站維護、面包屑導航、服務器托管、虛擬主機

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容