NVIDIA新一代Ada Lovelace架構(gòu)解析為渲染次世代游戲畫(huà)面而生

前沿科技 3年前 (2022) 虛像

不久前的GTC 2022"GeForce Beyond"特別活動(dòng)上，NVIDIA正式發(fā)布了三款GeForce RTX 40系列顯卡，而新一代Ada Lovelace架構(gòu)也隨之正式亮相，這是第三代的RTX架構(gòu)，其最大的完整核心具有恐怖的760億個(gè)晶體管和超過(guò)18000個(gè)CUDA核心，相比上一代Ampere架構(gòu)的283億晶體管和10752個(gè)CUDA核心有巨大的提升，那么新一代Ada Lovelace架構(gòu)與前代相比究竟有哪些創(chuàng)新呢？本文就帶各位一起仔細(xì)看看這個(gè)NVIDIA最新一代圖形架構(gòu)。

NVIDIA新一代Ada Lovelace架構(gòu)解析為渲染次世代游戲畫(huà)面而生

Ada Lovelace架構(gòu)的創(chuàng)新大體上可以分為三個(gè)板塊，分別是帶來(lái)了新的全景光線追蹤、著色器執(zhí)行重排序（SER）和DLSS 3，這是一個(gè)大致的認(rèn)識(shí)，而這些還可以往下細(xì)分，比如新的全景光線追蹤的實(shí)現(xiàn)就包含有新的RT核心、更多的著色器以及新的Tensor核心，而DLSS 3更是一系列技術(shù)的結(jié)合。

全景光線追蹤，從名字就能看出來(lái)它對(duì)于光線追蹤的計(jì)算要求有了巨大的提高，拿《賽博朋克2077》來(lái)說(shuō)，NVIDIA發(fā)布會(huì)演示的《賽博朋克2077》是將要發(fā)布的最新版，添加了"全極致光線追蹤"這一究極畫(huà)質(zhì)模式，大家可以欣賞一下這個(gè)畫(huà)質(zhì)下的畫(huà)面魅力。

對(duì)比的話會(huì)更加明顯，以《逆水寒》為例可以看到現(xiàn)在的全景光線追蹤相對(duì)比沒(méi)有光線追蹤的畫(huà)面觀感，明顯讓游戲體驗(yàn)上升好幾個(gè)檔次。

全景光線追蹤通過(guò) NVIDIA RTX 直接照明 (RTXDI)、像素完美的陰影、令人驚嘆的反射和之前看不到的水面折射，在《逆水寒》中提供令人難以置信、如照片般逼真的細(xì)節(jié)，晝夜都有自然的全局光照，由 NVIDIA 基于儲(chǔ)層的時(shí)空重要性重采樣全局光照 (ReSTIR GI) 提供，光線準(zhǔn)確無(wú)誤。

表面和紋理?yè)碛辛钊梭@嘆的基于物理效果的細(xì)節(jié)，可確保這些效果能夠以自然、逼真的方式交互，從而增強(qiáng)畫(huà)質(zhì)和沉浸感。為了對(duì)光線追蹤結(jié)果進(jìn)行降噪，《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。

而要實(shí)現(xiàn)這樣的畫(huà)面表現(xiàn)，這個(gè)畫(huà)質(zhì)模式下游戲畫(huà)面的每個(gè)像素會(huì)執(zhí)行約635次光線追蹤計(jì)算來(lái)確定光照，4年前的《戰(zhàn)地5》首次引入實(shí)時(shí)光線追蹤技術(shù)只會(huì)對(duì)畫(huà)面的每個(gè)像素執(zhí)行約39次光線追蹤計(jì)算，等于說(shuō)現(xiàn)在可以實(shí)現(xiàn)的游戲畫(huà)面相比4年前提高了16倍的計(jì)算要求。

理論上要實(shí)現(xiàn)這樣的計(jì)算要求，在技術(shù)沒(méi)有革新的情況下，GPU的晶體管數(shù)目也需要增長(zhǎng)16倍才能滿足需求，這顯然不現(xiàn)實(shí)，事實(shí)上，芯片的晶體管數(shù)目每?jī)赡昴茉黾右槐毒鸵呀?jīng)很不錯(cuò)了。

而Ada Lovelace架構(gòu)的技術(shù)革新就解決了這個(gè)問(wèn)題，在晶體管數(shù)目?jī)H增加約4倍的情況下，卻可以輸出計(jì)算需求量遠(yuǎn)超4倍的游戲畫(huà)面。那么它是怎么做到的呢？這我們就要深入到其架構(gòu)核心圖里面去深究了。

我們還是先從完整的核心圖來(lái)看，它仍然沿用了從NVIDIA Pascal架構(gòu)開(kāi)始定下的GPC-TPC-SM層級(jí)架構(gòu)，這也讓我們可以很明顯的看到其規(guī)模相比上一代顯著增大了，GPC從Ampere的最大7個(gè)猛增到12個(gè)，增幅為71.4%，就算其他部分沒(méi)有技術(shù)革新，僅僅這個(gè)暴漲的GPC規(guī)模就已經(jīng)能帶來(lái)很強(qiáng)的性能提升了。

除此之外，與上代的架構(gòu)核心圖對(duì)比的話，會(huì)很明顯的發(fā)現(xiàn)二級(jí)緩存部分的變化可以說(shuō)是最大、最明顯的，Ada Lovelace的二級(jí)緩存規(guī)模暴漲——是上一代的16倍。另外一個(gè)從完整核心圖上也很容易看到的區(qū)別就是Ada Lovelace沒(méi)有了NVLink總線模塊，這個(gè)設(shè)計(jì)方向其實(shí)之前早有痕跡。

深入到GPC里面，會(huì)發(fā)現(xiàn)這一代仍然是每組GPC包含6組TPC、一個(gè)獨(dú)立光柵引擎、兩個(gè)ROP分區(qū)(每個(gè)包含8個(gè)ROP單元)，而每組TPC又包含2組SM。這樣的組成是與上一代Ampere一模一樣的，所以相應(yīng)的Ada Lovelace的TPC和SM單元也分別增長(zhǎng)到最多72個(gè)和144個(gè)。

再繼續(xù)深入到SM單元里面，會(huì)發(fā)現(xiàn)其整體的結(jié)構(gòu)也是與上一代Ampere架構(gòu)一模一樣，分為四個(gè)一樣的主要計(jì)算模塊，一個(gè)RT光追核心，以及128KB一級(jí)數(shù)據(jù)緩存/共享內(nèi)存等。

而且每個(gè)主要的計(jì)算模塊內(nèi)的結(jié)構(gòu)也和Ampere架構(gòu)一樣，有64KB寄存器文件、零級(jí)指令緩存、一個(gè)Warp調(diào)度器、一個(gè)分配單元、16個(gè)FP32單精度浮點(diǎn)CUDA核心、16個(gè)FP32/INT32單精度浮點(diǎn)和整數(shù)混合CUDA核心、一個(gè)Tensor Core張量核心、四個(gè)載入存儲(chǔ)單元、一個(gè)特殊功能單元(SFU)用于執(zhí)行圖形差值指令。

而差別也很明顯，那就是RT Core光追核心從之前的第二代升級(jí)到第三代，Tensor Core張量核心也從第三代升級(jí)到第四代。

第三代RT Core有效光追算力是上代3倍

全新的第三代RT Core可以提供2倍的光線與三角形求交性能，并且加入了兩個(gè)全新的重要硬件單元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。

Opacity Micro-Map引擎將光線追蹤的Alpha-Test幾何性能提升2倍；而全新的Displaced Micro-Mesh引擎可動(dòng)態(tài)生成微網(wǎng)格，以產(chǎn)生額外的幾何圖形。Displaced Micro-Mesh引擎可在提升幾何圖形豐富度的同時(shí)，不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲(chǔ)成本為代價(jià)。

Displaced Micro-Mesh引擎

我們知道光線追蹤的計(jì)算是以光線射向一個(gè)平面這樣的模型來(lái)計(jì)算的，而實(shí)際的渲染中物體幾乎不會(huì)是簡(jiǎn)單的平面型，而是各種曲面，所以就需要將曲面分解成許多個(gè)小的三角形平面，然后計(jì)算光線與三角形求交。在Ampere架構(gòu)上，面對(duì)一個(gè)復(fù)雜的曲面，如果想得到逼真的光線追蹤效果，那么分解的三角形平面是非常多的，多個(gè)三角形平面帶來(lái)非常復(fù)雜的BVH，這就非常難以計(jì)算。

而Ada Lovelace架構(gòu)的處理方式就不一樣，通過(guò)Displaced Micro-Mesh引擎，它將這些三角形平面僅通過(guò)一個(gè)三角形然后加上不同的位移圖來(lái)表達(dá)，顯著縮短了BVH的的構(gòu)建時(shí)間，同時(shí)BVH的存儲(chǔ)空間需求也減小了很多，而最終仍然能實(shí)現(xiàn)一樣的光線追蹤最終渲染效果。

實(shí)際應(yīng)用中由于Displaced Micro-Mesh引擎的存在，面對(duì)復(fù)雜物體的渲染，BVH的構(gòu)建速度可以超過(guò)15倍，而存儲(chǔ)空間的需求卻可以小20倍之多，越是復(fù)雜的物體該引擎的優(yōu)勢(shì)就越能體現(xiàn)。

而且Displaced Micro-Mesh引擎不止可以應(yīng)用在游戲領(lǐng)域，對(duì)于創(chuàng)作領(lǐng)域的用戶來(lái)說(shuō)，也有軟件會(huì)支持，目前Adobe、Simplygon這兩家企業(yè)已經(jīng)確認(rèn)得到了支持。

Displaced Micro-Mesh引擎

接下來(lái)我們說(shuō)Opacity Micro-Map引擎。

Opacity Micro-Map引擎則是可以對(duì)游戲中常見(jiàn)的樹(shù)葉這類(lèi)物體加速光線追蹤計(jì)算，Ampere架構(gòu)面對(duì)這種場(chǎng)景的Alpha-Test需要多個(gè)著色器來(lái)進(jìn)行計(jì)算，而Opacity Micro-Map引擎對(duì)于這種不透明的對(duì)象進(jìn)行了不透明度的編碼，可以更準(zhǔn)確的對(duì)物體邊緣進(jìn)行光線追蹤計(jì)算，簡(jiǎn)化了葉子輪廓之外完全透明和葉子輪廓之內(nèi)完全不透明的區(qū)域的計(jì)算，耗費(fèi)更少的著色器就可以實(shí)現(xiàn)真實(shí)的光線追蹤渲染。

以《Portal with RTX》這個(gè)游戲?yàn)槔琌pacity Micro-Map引擎可以讓Gbuffer填充速度加快30%，游戲幀率提高10%。

而最終，這些改進(jìn)下的第三代RT Core可以使完整的Ada Lovelace架構(gòu)核心具有200 TFLOPS的有效光線追蹤計(jì)算能力（最先上市的RTX 4090達(dá)到191 TFLOPS），幾乎是上代產(chǎn)品的三倍。

對(duì)于第四代Tensor Core，最主要的變化是新增了Hopper FP8 Transformer Engine，可提供1400 TFLOPS的張量處理性能，超過(guò)上一代使用FP8加速性能的5倍，可以說(shuō)深度學(xué)習(xí)性能得到了巨大的飛躍，這也意味著通過(guò)它可以實(shí)現(xiàn)新的技術(shù)想法，后面的DLSS 3我們會(huì)再次提到它。（最先上市的RTX 4090具有1.32 Petaflops的FP8張量處理性能）

說(shuō)到DLSS 3，作為這次NVIDIA大力宣傳的重點(diǎn)，相信大家都急不可耐想深入的了解這個(gè)技術(shù)，但是為了更清楚的了解DLSS 3，我們還得說(shuō)兩個(gè)新東西，那就是著色器執(zhí)行重排序（SER）和Optical Flow Accelerator光流加速器。

著色器執(zhí)行重排序技術(shù)的重大作用是可以極大的提升光線追蹤性能，這是與CPU的亂序執(zhí)行一樣的重大創(chuàng)新。

由于光線追蹤的特性，它很難并行處理，因?yàn)楣饩€會(huì)向各個(gè)方向反射，并與各種類(lèi)型的表面相交，所以光線追蹤的工作負(fù)載需要不同的線程處理，需要不同的著色器，并且需要不同的顯存來(lái)存取中間的計(jì)算過(guò)程。

而我們知道GPU的特點(diǎn)就是適合并行處理，只有面對(duì)并行處理的任務(wù)才可以發(fā)揮GPU的特點(diǎn)獲得更好的計(jì)算效率，而著色器執(zhí)行重排序就是可以通過(guò)實(shí)時(shí)重新調(diào)度任務(wù)，即時(shí)重新安排著色器負(fù)載來(lái)提高執(zhí)行效率，從而更好地利用GPU資源，以實(shí)現(xiàn)更佳的光線追蹤性能，據(jù)稱，SER可以為光線追蹤帶來(lái)最高可達(dá)3倍的性能提升，整體游戲性能提升可高達(dá)25%。

應(yīng)用了著色器執(zhí)行重排序（SER）之后，《賽博朋克2077》在全景光線追蹤模式下可以提高44%的性能，《Portal》RTX可以提高29%的性能，《Racer RTX》可以提高20%的性能。

回看前面的完整核心圖，可以看到左上角清晰的標(biāo)出了Optical Flow Accelerator，也就是光流加速器，而盡管之前的Ampere架構(gòu)中沒(méi)有提到這個(gè)東西，但其實(shí)Ampere架構(gòu)也是有的，不同的是，Ada Lovelace架構(gòu)中大大增加了光流加速器的運(yùn)算性能，從之前Ampere架構(gòu)的126 TFLOPS增加到現(xiàn)在的300 TFLOPS（詳細(xì)值是305 TFLOPS）。

Ada的光流加速器帶來(lái)的巨大的性能提升，具有實(shí)用性了，使DLSS 3能夠預(yù)測(cè)場(chǎng)景中的運(yùn)動(dòng)，使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時(shí)提高幀率。前面提到的第四代Tensor Core的1400 TFLOPS的張量處理性能，加上這里Ada Lovelace光流加速器300 TFLOPS的光流運(yùn)算性能，再加上后方的NVIDIA超級(jí)計(jì)算機(jī)提供的超過(guò)1 ExaFLOPS的AI計(jì)算性能，這三者就組成了這一代DLSS 3的硬件層面的保障，而前面講了那么多基礎(chǔ)性的東西，現(xiàn)在我們終于可以講到通過(guò)這些東西能實(shí)現(xiàn)的直接與玩家接觸的技術(shù)——DLSS 3。

新一代的DLSS 3包括全新的幀生成技術(shù)、DLSS 2超分辨率技術(shù)和NVIDIA Reflex技術(shù)，與之對(duì)應(yīng)的就是目前在游戲中，DLSS 3對(duì)應(yīng)了這三個(gè)選項(xiàng)——幀生成技術(shù)、DLSS 2超分辨率技術(shù)和NVIDIA Reflex技術(shù)——這三個(gè)都啟用才算是完整的開(kāi)啟了DLSS 3。

而這其中，幀生成必須RTX 40系列才能支持，超分辨率則是RTX 40/30/20系列都支持，Reflex的要求最低——GTX 900系列及以后的都支持。

總得來(lái)說(shuō)，DLSS 3是提升游戲體驗(yàn)的一整套解決方案，也就是說(shuō)對(duì)于游戲體驗(yàn)的三要素——流暢度、延遲和畫(huà)質(zhì)——進(jìn)行全方位的提升，而不是拆東墻補(bǔ)西墻的那種，接下來(lái)我們一個(gè)一個(gè)說(shuō)。

DLSS 3的幀率

先說(shuō)它如何提升幀率。

之前的DLSS 2，提升幀率的方式簡(jiǎn)單說(shuō)就是以低分辨率渲染，然后通過(guò)AI添加細(xì)節(jié)輸出成高分辨率的幀，比如我們將游戲設(shè)置成4K，打開(kāi)DLSS，那么實(shí)際的計(jì)算過(guò)程是先以1080p分辨率渲染幀畫(huà)面，然后將這個(gè)幀畫(huà)面拉伸成4K最終輸出，中間相差的這3/4部分的像素信息是通過(guò)AI計(jì)算來(lái)添加的（本地主要是Tensor Core來(lái)計(jì)算）。由于以低分辨率渲染，所以在AI補(bǔ)充像素的性能足夠的情況下，幀率自然可以提高了。

但是這樣無(wú)法突破CPU性能的瓶頸，畢竟降低原始渲染分辨率可以使得GPU每一幀的計(jì)算量更少，但是CPU每一幀的計(jì)算量是不變化的（因?yàn)镃PU負(fù)責(zé)計(jì)算的部分與分辨率并無(wú)關(guān)系），實(shí)際上，由于幀率提高，CPU的計(jì)算量其實(shí)還增大了。

那么DLSS 3是怎么做的呢？

首先，還是與DLSS 2一樣，比如輸出4K游戲畫(huà)面的話，它也是先降低原始渲染分辨率到1080p，然后通過(guò)AI計(jì)算來(lái)添加像素拉伸成4K畫(huà)面。在連續(xù)的游戲畫(huà)面中，我們就可以通過(guò)這樣得到連續(xù)的4K幀畫(huà)面，第1幀、第2幀、第3幀等等。

然后這樣的每?jī)蓭g，DLSS 3可以了解場(chǎng)景的變化情況，通過(guò)光流加速器為神經(jīng)網(wǎng)絡(luò)提供像素級(jí)的幀到幀的運(yùn)動(dòng)方向和速度信息，然后通過(guò)渲染并拉伸的4K幀以及幾何圖形和像素的運(yùn)動(dòng)矢量并將其輸入至神經(jīng)網(wǎng)絡(luò)，就能計(jì)算出兩個(gè)渲染并拉伸的4K幀中間的幀畫(huà)面了。

實(shí)現(xiàn)超越CPU限制的幀數(shù)

這樣連續(xù)下去的話，原本的第1幀、第2幀、第3幀中間都會(huì)有一個(gè)新的幀，等于實(shí)際最終輸出的幀畫(huà)面中，有1/2是沒(méi)有CPU參與的，完全是GPU計(jì)算出來(lái)的，所以理論上可以將原本受限于CPU性能的游戲幀率提高一倍。

另外，我們?nèi)リP(guān)注像素的話，會(huì)發(fā)現(xiàn)靠傳統(tǒng)渲染方式計(jì)算的像素其實(shí)只有1/8，最終輸出的游戲畫(huà)面7/8的像素其實(shí)都是通過(guò)DLSS 3的一系列AI計(jì)算填補(bǔ)上的，這極大的提升了效率。

DLSS 3的畫(huà)質(zhì)

然后我們說(shuō)下畫(huà)質(zhì)。

其實(shí)看我們的網(wǎng)站的網(wǎng)友評(píng)論可以看到還是有很多網(wǎng)友對(duì)DLSS技術(shù)很抗拒，認(rèn)為不是原始渲染出的畫(huà)面就不好，筆者認(rèn)為這一觀念是需要改變了。且不說(shuō)網(wǎng)友有這一觀念可能是由于初代DLSS技術(shù)確實(shí)效果不佳，形成了刻板映象，即便之后的DLSS 2超分辨率技術(shù)已經(jīng)有很好的畫(huà)面也很難摒棄已經(jīng)形成的觀念，我們可以比較一下這幾幀畫(huà)面，完全看不出區(qū)別。

DLSS 2

DLSS 3

DLSS 2

DLSS 3

還有《逆水寒》的實(shí)機(jī)截圖，DLSS 2和DLSS 3的畫(huà)面質(zhì)量對(duì)比，大家可以拖動(dòng)仔細(xì)對(duì)比對(duì)比。

對(duì)于DLSS 3的生成幀這方面大家不免想到已經(jīng)問(wèn)世好久的各種插幀技術(shù)，DLSS 3的生成幀確實(shí)也可以算作插幀的一種，但是又與其他的插幀技術(shù)完全不一樣。

簡(jiǎn)單的插幀技術(shù)利用兩幀之間像素的位移來(lái)確定中間幀的圖像，這樣其實(shí)非常容易出現(xiàn)明顯令人覺(jué)得視覺(jué)異常的畫(huà)面，特別是對(duì)于陰影這種需要計(jì)算的畫(huà)面效果，當(dāng)主體移動(dòng)之后，正確的陰影是需要經(jīng)過(guò)復(fù)雜計(jì)算的，單單根據(jù)像素的位移來(lái)確定的畫(huà)面幾乎肯定違反客觀世界的物理規(guī)律。

而DLSS 3它使用光流加速器分析兩幀連續(xù)的游戲圖像，計(jì)算幀到幀之間物體、元素的運(yùn)動(dòng)矢量數(shù)據(jù)，綜合游戲中的一對(duì)超級(jí)分辨率幀，以及引擎和光流運(yùn)動(dòng)矢量，并將其輸入至卷積神經(jīng)網(wǎng)絡(luò)，計(jì)算生成出新的一幀，大大提高了畫(huà)面的準(zhǔn)確性。

DLSS 3的延遲

最后我們?cè)僬f(shuō)延遲。

通過(guò)前面的梳理大家會(huì)發(fā)現(xiàn)DLSS 3盡管提高了幀速率，也保證了畫(huà)質(zhì)，但是對(duì)于延遲是沒(méi)有縮短的，因?yàn)槊恳粋€(gè)新生成的幀都是需要后一幀渲染出來(lái)之后才可以準(zhǔn)確生成的。更高的幀率提升了游戲的順滑程度，但延遲會(huì)影響游戲的響應(yīng)度，如果延遲太高，游戲的體驗(yàn)也不會(huì)好，而為此，DLSS 3也集成了NVIDIA Reflex技術(shù)來(lái)降低延遲提高響應(yīng)速度。

所以總得來(lái)說(shuō)，DLSS 3是包括了基于AI的超分辨率提升技術(shù)、基于AI的幀生成技術(shù)以及NVIDIA Reflex低延遲技術(shù)這些軟件層面以及第四代Tensor Core的1400 TFLOPS的張量處理性能、Ada Lovelace光流加速器300 TFLOPS的光流運(yùn)算性能以及NVIDIA超級(jí)計(jì)算機(jī)提供的超過(guò)1 ExaFLOPS的AI計(jì)算性能組成的硬件層面綜合實(shí)現(xiàn)的一項(xiàng)新技術(shù)，對(duì)于游戲體驗(yàn)的提升也不是單方面的，而是全方位的提升。

游戲以及應(yīng)用支持

對(duì)于游戲開(kāi)發(fā)者這一邊來(lái)說(shuō)，從支持DLSS 2到支持DLSS 3很容易，大部分引擎開(kāi)發(fā)接口是相通的，DLSS 3還可以通過(guò)Streamline這一NVIDIA發(fā)布的開(kāi)源平臺(tái)進(jìn)行集成，極大的簡(jiǎn)化了游戲開(kāi)發(fā)者對(duì)新技術(shù)的集成工作，可以預(yù)期未來(lái)的DLSS 3集成速度一定不會(huì)慢。

首批支持DLSS 3的游戲及應(yīng)用等也不少，包括了《巫師3：狂獵》、《黑神話: 悟空》、《賽博朋克2077》、《逆水寒》、《殺手3》、《微軟模擬飛行》等熱門(mén)游戲以及寒霜引擎、Unity 、虛幻引擎4 & 5 這些游戲引擎，有了這些知名游戲引擎的支持，未來(lái)的DLSS 3游戲數(shù)量可以說(shuō)不用擔(dān)心。

實(shí)現(xiàn)4倍性能提升

至于DLSS 3對(duì)于游戲幀數(shù)的提升，NVIDIA給出的數(shù)據(jù)如上，可以將游戲分為兩類(lèi)，一類(lèi)是今天之前的游戲畫(huà)面，這部分的提升平均在2倍左右，而另一類(lèi)則是之后的游戲畫(huà)面，可以理解為全景光線追蹤的游戲畫(huà)面，對(duì)于這樣的游戲畫(huà)面，提升平均可達(dá)4倍，當(dāng)然，關(guān)于性能提升部分我們后面還會(huì)實(shí)際測(cè)試的。

游戲玩家中除了單機(jī)類(lèi)游戲玩家還有電競(jìng)類(lèi)游戲玩家，新一代GPU也將這方面的體驗(yàn)推到了新高度，現(xiàn)在已經(jīng)可以在1440p分辨率下普遍達(dá)到360幀，而且系統(tǒng)延遲控制在10ms之內(nèi)。

電競(jìng)類(lèi)游戲玩家首要看重幀率及延遲，所以之前大都會(huì)在1080p分辨率下進(jìn)行對(duì)戰(zhàn)，以獲取高幀率及低延遲，而新一代GPU將360FPS@1440p成為現(xiàn)實(shí)后，玩家照樣可以在1440p下獲取高幀率及低延遲，而通過(guò)統(tǒng)計(jì)，在27英寸1440p的顯示器上進(jìn)行游戲相比25英寸1080p的顯示器平均成績(jī)會(huì)提高3%，對(duì)于毫厘之爭(zhēng)的電競(jìng)對(duì)戰(zhàn)來(lái)說(shuō)，這也是很重要的。

Ada Lovelace架構(gòu)相比Ampere架構(gòu)的另一項(xiàng)重要升級(jí)就是NVIDIA 編碼器 (NVENC)升級(jí)到了第八代，開(kāi)始支持AV1編碼了。AV1的效率比H.264高40%，這意味著在傳輸同樣質(zhì)量的畫(huà)面時(shí)候只需要大約70%的數(shù)據(jù)量，或者說(shuō)在同樣的帶寬下可以實(shí)現(xiàn)更清晰的畫(huà)面質(zhì)量，并且由于AV1是免費(fèi)、開(kāi)放的，可以讓廠商節(jié)省相當(dāng)一筆費(fèi)用，AV1已經(jīng)明顯將要取代H.264成為主流格式。

而在中國(guó)的備受歡迎的視頻編輯應(yīng)用"剪映專業(yè)版"、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持 AV1，且均可通過(guò)編碼預(yù)設(shè)使用NVENC AV1編碼器。此外，OBS、Discord以及更多的公司都已在采用NVENC AV1編碼器。

首發(fā)的RTX 4090給開(kāi)放了兩個(gè)NVENC編碼器，這兩個(gè)NVENC可實(shí)現(xiàn)協(xié)同工作，并自動(dòng)分配以實(shí)現(xiàn)雙路輸出。全新的雙編碼器可將視頻導(dǎo)出時(shí)間縮短至原來(lái)的一半，主播用戶可借助第八代編碼器中 AV1 雙編碼器的優(yōu)勢(shì)提升直播體驗(yàn)，還可以通過(guò)OBS Studio 錄制高達(dá) 8K60 的內(nèi)容。

這部分我是特意留著作為壓軸好戲來(lái)講的。

先回顧一下幾個(gè)數(shù)據(jù)，2018年的TU102是754mm2，擁有186億個(gè)晶體管；2020年的GA102是628.4mm2，擁有283億個(gè)晶體管；而如今2022年的AD102是608.5mm2，擁有763億個(gè)晶體管。

可以清楚的看到核心面積一直在減小，而晶體管數(shù)目則保持非常高的增長(zhǎng)速度，當(dāng)然，面對(duì)制程在進(jìn)步，這其實(shí)也很正常，但是今年的Ada Lovelace架構(gòu)GPU實(shí)在這方面漲的太恐怖了，AD102晶體管差不多是GA102的2.7倍！

而在先進(jìn)的TSMC 4N NVIDIA定制工藝的加持下，RTX 4090的功耗則與RTX 3090 Ti一樣保持在450W，這足以令人意識(shí)到Ada Lovelace架構(gòu)GPU的能耗比的巨大飛躍，事實(shí)上，新的Ada Lovelace架構(gòu)相比Ampere架構(gòu)實(shí)現(xiàn)了巨大的飛躍，同功耗下的性能可達(dá)2倍。

在能耗比方面，之前Ampere架構(gòu)相比Turing架構(gòu)的提升并不大，這個(gè)我們還專門(mén)做過(guò)測(cè)試——《Ampere、Turing、RNDA比一比：三大架構(gòu)顯卡能耗比對(duì)比測(cè)試》，測(cè)試的結(jié)果是相對(duì)于上一代的Turing架構(gòu)桌面顯卡，Ampere架構(gòu)在能耗比方面具有了12%的提升，并不算出眾，而這一代直接來(lái)了個(gè)2倍的能耗比，讓人感覺(jué)說(shuō)直接進(jìn)步了兩代都不為過(guò)。

添加了Opacity Micro-Map引擎和Displaced Micro-Mesh引擎的第三代RT Core可以使完整的Ada Lovelace核心具有200 TFLOPS的有效光線追蹤計(jì)算能力，幾乎是上代產(chǎn)品的三倍。第四代Tensor Core新增了Hopper FP8 Transformer Engine，超過(guò)上一代使用FP8加速性能的5倍。

這兩項(xiàng)新的第三代RT Core和第四代Tensor Core加上之前從Ampere架構(gòu)延續(xù)下來(lái)的內(nèi)部結(jié)構(gòu)形成了新的更強(qiáng)的SM單元，并且還加入了堪比CPU的亂序執(zhí)行一樣具有突破性的著色器執(zhí)行重排序技術(shù)，這就足以令人對(duì)新一代Ada Lovelace架構(gòu)GPU倍感期待。

而Ada Lovelace架構(gòu)還不止于此，它還增加了算力超過(guò)300 TFLOPS的Ada光流加速器、以及支持AV1編碼和雙編碼器的第八代NVIDIA 編碼器 (NVENC)、換用了先進(jìn)的TSMC 4N NVIDIA定制工藝，使得AD102晶體管差不多是GA102的2.7倍！并且直接來(lái)了個(gè)2倍的能耗比，等于一下子進(jìn)步了兩代！

更為重要的是，突破性的DLSS 3技術(shù)將游戲體驗(yàn)推到了新的高度，玩家不再需要在幀率、延遲和畫(huà)質(zhì)之間取舍，DLSS 3將在這3大方面進(jìn)行全方位的提升，并且可以克服CPU的瓶頸。

總的來(lái)說(shuō)，這一代Ada Lovelace架構(gòu)的進(jìn)步之大縱觀整個(gè)GPU發(fā)展歷史都難以找到與之匹敵的，它打開(kāi)了"全景光線追蹤"世界的大門(mén)，未來(lái)的游戲世界將如我們現(xiàn)在看到的好萊塢CG動(dòng)畫(huà)一般與現(xiàn)實(shí)真假難辨，而這一切都是實(shí)時(shí)渲染的，而不是如今的CG動(dòng)畫(huà)這樣仍然需要耗費(fèi)巨大財(cái)力和漫長(zhǎng)的制作時(shí)間，這是令人難以想象的，而實(shí)現(xiàn)這一目標(biāo)的，正是DLSS 3與全景光線追蹤。

回首4年前，NVIDIA發(fā)布了第一代RTX GPU，不破不立，作為圖形渲染領(lǐng)域的重大變革，僅僅用4年時(shí)間和三代產(chǎn)品，我們就可以明顯感知到圖形質(zhì)量已經(jīng)坐上了發(fā)展的快車(chē)道，全景光線追蹤原本是距當(dāng)下技術(shù)程度而言遙不可及的天上明月，而NVIDIA智慧性的利用了AI技術(shù)，通過(guò)最新的DLSS 3使得這輪明月觸手可及，在歷經(jīng)了漫長(zhǎng)的數(shù)字貨幣風(fēng)波的侵襲之后，玩家們太需要這樣一代飛躍性的產(chǎn)品來(lái)慰藉了。

原文地址：http://www.myzaker.com/article/63441bf08e9f092f507803ba

ai gpu nvidia 分辨率第四代

版權(quán)聲明：虛像發(fā)表于 2022年10月10日 pm11:20。
轉(zhuǎn)載請(qǐng)注明：NVIDIA新一代Ada Lovelace架構(gòu)解析為渲染次世代游戲畫(huà)面而生 | 快導(dǎo)航網(wǎng)

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

NVIDIA新一代Ada Lovelace架構(gòu)解析為渲染次世代游戲畫(huà)面而生

成本上漲 140% 的 A16，游戲性能提升無(wú)感？

Atlus：會(huì)在合適的時(shí)機(jī)公布新作的消息

相關(guān)文章

熱門(mén)文章

最新資訊

熱門(mén)網(wǎng)址

熱門(mén)標(biāo)簽

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

NVIDIA新一代Ada Lovelace架構(gòu)解析為渲染次世代游戲畫(huà)面而生

成本上漲 140% 的 A16，游戲性能提升無(wú)感？

Atlus：會(huì)在合適的時(shí)機(jī)公布新作的消息

相關(guān)文章

熱門(mén)文章

最新資訊

熱門(mén)網(wǎng)址

熱門(mén)標(biāo)簽

運(yùn)營(yíng)相關(guān)

軟件下載

跨境電商

購(gòu)物網(wǎng)站

設(shè)計(jì)相關(guān)

行業(yè)企業(yè)

自媒體相關(guān)

網(wǎng)絡(luò)科技

編程幫手

綜合其他

站長(zhǎng)助手

知識(shí)充能

電商運(yùn)營(yíng)

生活服務(wù)

榜單排名

服務(wù)生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現(xiàn)

影視工具

影視基地

工具大全

學(xué)術(shù)資源

學(xué)習(xí)教育

娛樂(lè)生活

發(fā)現(xiàn)資源

醫(yī)療健康

興趣愛(ài)好

元宇宙

體育健身

休閑娛樂(lè)

交通旅游

NFT概念

ACG