終于到了GeForce RTX 4090性能測試解禁的日子,這款NVIDIA新一代GPU采用了全新的Ada Lovelace架構并且用上了先進的TSMC 4N NVIDIA定制工藝,在架構設計和制程工藝上都迎來了巨大的飛躍。而驚喜還不止于此,此次與GeForce RTX 4090一起推出的還有新一代的DLSS 3技術,在游戲流暢度、系統延遲和畫面質量上全方位提升游戲體驗。

那么GeForce RTX 4090的性能提升是否真如發布會所描述的那樣巨大?實際的游戲畫面又能達到什么樣的水平呢?巨大的散熱器可以給GPU核心的溫度控制在什么程度呢?這些問題,本篇內容將一一為你解答。
我們也準備了RTX 4090顯卡的視頻版評測,希望大家也能喜歡:

Ada Lovelace架構的創新大體上可以分為三個板塊,分別是帶來了新的全景光線追蹤、著色器執行重排序(SER)和DLSS 3,這是一個大致的認識,而這些還可以往下細分,比如新的全景光線追蹤的實現就包含有新的RT核心、更多的著色器以及新的Tensor核心,而DLSS 3更是一系列技術的結合。
全景光線追蹤游戲畫面

全景光線追蹤,從名字就能看出來它對于光線追蹤的計算要求有了巨大的提高,拿《賽博朋克2077》來說,NVIDIA發布會演示的《賽博朋克2077》是將要發布的最新版,添加了"Overdrive"這一究極畫質模式,大家可以欣賞一下這個畫質下的畫面魅力。


對比的話會更加明顯,以《逆水寒》為例可以看到現在的全景光線追蹤相對比沒有光線追蹤的畫面觀感,明顯讓游戲體驗上升好幾個檔次。


全景光線追蹤通過Path Tracing追蹤場景中的每一個像素上的光照信息,提供像素級完美的陰影、令人驚嘆的反射和之前看不到的水面折射,在《逆水寒》拂云庭場景中提供令人難以置信、如照片般逼真的細節,晝夜都有自然的全局光照,由 NVIDIA 基于儲層的時空重要性重采樣全局光照 (ReSTIR GI) 構建,光線準確無誤。


表面和紋理擁有令人驚嘆的基于物理效果的細節,可確保這些效果能夠以自然、逼真的方式交互,從而增強畫質和沉浸感。為了對光線追蹤結果進行降噪,《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。

而要實現這樣的畫面表現,這個畫質模式下游戲畫面的每個像素會執行約635次光線追蹤計算來確定光照,4年前的《戰地5》首次引入實時光線追蹤技術只會對畫面的每個像素執行約39次光線追蹤計算,等于說現在可以實現的游戲畫面相比4年前提高了16倍的計算要求。

理論上要實現這樣的計算要求,在技術沒有革新的情況下,GPU的晶體管數目也需要增長16倍才能滿足需求,這顯然不現實,事實上,芯片的晶體管數目每兩年能增加一倍就已經很不錯了。

而Ada Lovelace架構的技術革新就解決了這個問題,在晶體管數目僅增加約4倍的情況下,卻可以輸出計算需求量遠超4倍的游戲畫面。那么它是怎么做到的呢?這我們就要深入到其架構核心圖里面去深究了。
GPC規模暴漲

我們還是先從完整的核心圖來看,它仍然沿用了從NVIDIA Pascal架構開始定下的GPC-TPC-SM層級架構,這也讓我們可以很明顯的看到其規模相比上一代顯著增大了,GPC從Ampere的最大7個猛增到12個,增幅為71.4%,就算其他部分沒有技術革新,僅僅這個暴漲的GPC規模就已經能帶來很強的性能提升了。
除此之外,與上代的架構核心圖對比的話,會很明顯的發現二級緩存部分的變化可以說是最大、最明顯的,Ada Lovelace的二級緩存規模暴漲——是上一代的16倍。另外一個從完整核心圖上也很容易看到的區別就是Ada Lovelace沒有了NVLink總線模塊,這個設計方向其實之前早有痕跡。
GPC架構圖

深入到GPC里面,會發現這一代仍然是每組GPC包含6組TPC、一個獨立光柵引擎、兩個ROP分區(每個包含8個ROP單元),而每組TPC又包含2組SM。這樣的組成是與上一代Ampere一模一樣的,所以相應的Ada Lovelace的TPC和SM單元也分別增長到最多72個和144個。
SM架構圖

再繼續深入到SM單元里面,會發現其整體的結構也是與上一代Ampere架構一模一樣,分為四個一樣的主要計算模塊,一個RT光追核心,以及128KB一級數據緩存/共享內存等。
而且每個主要的計算模塊內的結構也和Ampere架構一樣,有64KB寄存器文件、零級指令緩存、一個Warp調度器、一個分配單元、16個FP32單精度浮點CUDA核心、16個FP32/INT32單精度浮點和整數混合CUDA核心、一個Tensor Core張量核心、四個載入存儲單元、一個特殊功能單元(SFU)用于執行圖形差值指令。
而差別也很明顯,那就是RT Core光追核心從之前的第二代升級到第三代,Tensor Core張量核心也從第三代升級到第四代。
第三代RT Core有效光追算力是上代3倍


全新的第三代RT Core可以提供2倍的光線與三角形求交性能,并且加入了兩個全新的重要硬件單元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。
Opacity Micro-Map引擎將光線追蹤的Alpha-Test幾何性能提升2倍;而全新的Displaced Micro-Mesh引擎可動態生成微網格,以產生額外的幾何圖形。Displaced Micro-Mesh引擎可在提升幾何圖形豐富度的同時,不以傳統復雜幾何圖形處理的性能和存儲成本為代價。
Displaced Micro-Mesh引擎

我們知道光線追蹤的計算是以光線射向一個平面這樣的模型來計算的,而實際的渲染中物體幾乎不會是簡單的平面型,而是各種曲面,所以就需要將曲面分解成許多個小的三角形平面,然后計算光線與三角形求交。在Ampere架構上,面對一個復雜的曲面,如果想得到逼真的光線追蹤效果,那么分解的三角形平面是非常多的,多個三角形平面帶來非常復雜的BVH,這就非常難以計算。

而Ada Lovelace架構的處理方式就不一樣,通過Displaced Micro-Mesh引擎,它將這些三角形平面僅通過一個三角形然后加上不同的位移圖來表達,顯著縮短了BVH的構建時間,同時BVH的存儲空間需求也減小了很多,而最終仍然能實現一樣的光線追蹤最終渲染效果。

實際應用中由于Displaced Micro-Mesh引擎的存在,面對復雜物體的渲染,BVH的構建速度可以超過15倍,而存儲空間的需求卻可以小20倍之多,越是復雜的物體該引擎的優勢就越能體現。

而且Displaced Micro-Mesh引擎不止可以應用在游戲領域,對于創作領域的用戶來說,也有軟件會支持,目前Adobe、Simplygon這兩家企業已經確認得到了支持。
Opacity Micro-Map引擎
接下來我們說Opacity Micro-Map引擎。

Opacity Micro-Map引擎則是可以對游戲中常見的樹葉這類物體加速光線追蹤計算,Ampere架構面對這種場景的Alpha-Test需要多個著色器來進行計算,而Opacity Micro-Map引擎對于這種不透明的對象進行了不透明度的編碼,可以更準確的對物體邊緣進行光線追蹤計算,簡化了葉子輪廓之外完全透明和葉子輪廓之內完全不透明的區域的計算,耗費更少的著色器就可以實現真實的光線追蹤渲染。

以《傳送門》RTX版這個游戲為例,Opacity Micro-Map引擎可以讓Gbuffer填充速度加快30%,游戲幀率提高10%。
而最終,這些改進下的第三代RT Core可以使完整的Ada Lovelace架構核心具有200 TFLOPS的有效光線追蹤計算能力(最先上市的RTX 4090達到191 TFLOPS),幾乎是上代產品的三倍。
第四代Tensor核心性能超上代5倍

對于第四代Tensor Core,最主要的變化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的張量處理性能,可以說深度學習性能得到了巨大的飛躍,這也意味著通過它可以實現新的技術想法,后面的DLSS 3我們會再次提到Tensor Core的功勞。(最先上市的RTX 4090具有1.32 Petaflops的張量處理性能)
說到DLSS 3,作為這次NVIDIA大力宣傳的重點,相信大家都急不可耐想深入的了解這個技術,但是為了更清楚的了解DLSS 3,我們還得說兩個新東西,那就是著色器執行重排序(SER)和Optical Flow Accelerator光流加速器。
著色器執行重排序(SER)提高光追并行效率

著色器執行重排序技術的重大作用是可以極大的提升光線追蹤性能,這是與CPU的亂序執行一樣的重大創新。
由于光線追蹤的特性,它很難并行處理,因為光線會向各個方向反射,并與各種類型的表面相交,所以光線追蹤的工作負載需要不同的線程處理,需要不同的著色器,并且需要不同的顯存來存取中間的計算過程。

而我們知道GPU的特點就是適合并行處理,只有面對并行處理的任務才可以發揮GPU的特點獲得更好的計算效率,而著色器執行重排序就是可以通過實時重新調度任務,即時重新安排著色器負載來提高執行效率,從而更好地利用GPU資源,以實現更佳的光線追蹤性能,據稱,SER可以為光線追蹤帶來最高可達3倍的性能提升,整體游戲性能提升可高達25%。

應用了著色器執行重排序(SER)之后,《賽博朋克2077》在全景光線追蹤模式下可以提高44%的性能,《傳送門》RTX版可以提高29%的性能,《Racer RTX》可以提高20%的性能。
Ada光流加速器算力可超300 TFLOPS

回看前面的完整核心圖,可以看到左上角清晰的標出了Optical Flow Accelerator,也就是光流加速器,而盡管之前的Ampere架構中沒有提到這個東西,但其實Ampere架構也是有的,不同的是,Ada Lovelace架構中大大增加了光流加速器的運算性能,從之前Ampere架構的126 TFLOPS增加到現在的300 TFLOPS(詳細值是305 TFLOPS)。
Ada的光流加速器帶來的巨大的性能提升,具有實用性了,使DLSS 3能夠預測場景中的運動,使神經網絡能夠在保持圖像質量的同時提高幀率。前面提到的第四代Tensor Core的1400 TFLOPS的張量處理性能,加上這里Ada Lovelace光流加速器300 TFLOPS的光流運算性能,再加上后方的NVIDIA超級計算機提供的超過1 ExaFLOPS的AI計算性能,這三者就組成了這一代DLSS 3的硬件層面的保障,而前面講了那么多基礎性的東西,現在我們終于可以講到通過這些東西能實現的直接與玩家接觸的技術——DLSS 3。
DLSS 3全方位提升流暢度、延遲和畫質
新一代的DLSS 3包括全新的幀生成技術、DLSS 2超分辨率技術和NVIDIA Reflex技術,與之對應的就是目前在游戲中,DLSS 3對應了這三個選項——幀生成技術、DLSS 2超分辨率技術和NVIDIA Reflex技術——這三個都啟用才算是完整的開啟了DLSS 3。

而這其中,幀生成必須RTX 40系列才能支持,超分辨率則是RTX 40/30/20系列都支持,Reflex的要求最低——GTX 900系列及以后的都支持。
總得來說,DLSS 3是提升游戲體驗的一整套解決方案,也就是說對于游戲體驗的三要素——流暢度、延遲和畫質——進行全方位的提升,而不是拆東墻補西墻的那種,接下來我們一個一個說。

DLSS 3的幀率
先說它如何提升幀率。

之前的DLSS 2,提升幀率的方式簡單說就是以低分辨率渲染,然后通過AI訓練重建高分辨率畫面返回輸出,比如我們將游戲設置成4K,打開DLSS,那么實際的計算過程是先以1080p分辨率渲染幀畫面,然后AI學習經過訓練的更高分辨率的幀再將這個幀畫面壓縮到4K最終輸出,中間相差的這3/4部分的像素信息是通過AI計算來添加的(本地主要是Tensor Core來計算)。由于以低分辨率渲染,所以在AI補充像素的性能足夠的情況下,幀率自然可以提高了。
但是這樣無法突破CPU性能的瓶頸,畢竟降低原始渲染分辨率可以使得GPU每一幀的計算量更少,但是CPU每一幀的計算量是不變化的(因為CPU負責計算的部分與分辨率并無關系),實際上,由于幀率提高,CPU的計算量其實還增大了。
那么DLSS 3是怎么做的呢?

首先,還是與DLSS 2一樣,比如輸出4K游戲畫面的話,它也是先降低原始渲染分辨率到1080p,然后通過AI計算來添加像素再壓縮成4K畫面。在連續的游戲畫面中,我們就可以通過這樣得到連續的4K幀畫面,第1幀、第2幀、第3幀等等。

然后這樣的每兩幀之間,DLSS 3通過光流加速器為神經網絡提供像素級的幀到幀的運動方向和速度信息,然后通過分析前一幀和當前幀幾何圖形和像素的運動矢量并將其輸入至神經網絡,就能計算出兩幀中間的幀畫面了。
實現超越CPU限制的幀數

這樣連續下去的話,原本的第1幀、第2幀、第3幀中間都會有一個新的幀,等于實際最終輸出的幀畫面中,有1/2是沒有CPU參與的,完全是GPU計算出來的,所以理論上可以將原本受限于CPU性能的游戲幀率提高一倍。

另外,我們去關注像素的話,會發現靠傳統渲染方式計算的像素其實只有1/8,最終輸出的游戲畫面7/8的像素其實都是通過DLSS 3的一系列AI計算填補上的,這極大的提升了效率。
DLSS 3的畫質
然后我們說下畫質。

其實看我們的網站的網友評論可以看到還是有很多網友對DLSS技術很抗拒,認為不是原始渲染出的畫面就不好,筆者認為這一觀念是需要改變了。且不說網友有這一觀念可能是由于初代DLSS技術確實效果不佳,形成了刻板印象,即便之后的DLSS 2超分辨率技術已經有很好的畫面也很難摒棄已經形成的觀念,我們可以比較一下這幾幀畫面,完全看不出區別。

對于DLSS 3的生成幀這方面大家不免想到已經問世好久的各種插幀技術,DLSS 3的生成幀確實也可以算作插幀的一種,但是又與其他的插幀技術完全不一樣。

簡單的插幀技術利用兩幀之間像素的位移來確定中間幀的圖像,這樣其實非常容易出現明顯令人覺得視覺異常的畫面,特別是對于陰影這種需要計算的畫面效果,當主體移動之后,正確的陰影是需要經過復雜計算的,單單根據像素的位移來確定的畫面幾乎肯定違反客觀世界的物理規律。

而DLSS 3它使用光流加速器分析兩幀連續的游戲圖像,計算幀到幀之間物體、元素的運動矢量數據,綜合游戲中的一對超級分辨率幀,以及引擎和光流運動矢量,并將其輸入至卷積神經網絡,計算生成出新的一幀,大大提高了畫面的準確性。
DLSS 3的延遲
最后我們再說延遲。

通過前面的梳理大家會發現DLSS 3盡管提高了幀速率,也保證了畫質,但是對于延遲是沒有縮短的,因為每一個新生成的幀都是需要后一幀渲染出來之后才可以準確生成的。更高的幀率提升了游戲的順滑程度,但延遲會影響游戲的響應度,如果延遲太高,游戲的體驗也不會好,而為此,DLSS 3也集成了NVIDIA Reflex技術來降低延遲提高響應速度。

所以總得來說,DLSS 3是包括了基于AI的超分辨率提升技術、基于AI的幀生成技術以及NVIDIA Reflex低延遲技術這些軟件層面以及第四代Tensor Core的1400 TFLOPS的張量處理性能、Ada Lovelace光流加速器300 TFLOPS的光流運算性能以及NVIDIA超級計算機提供的超過1 ExaFLOPS的AI計算性能組成的硬件層面綜合實現的一項新技術,對于游戲體驗的提升也不是單方面的,而是全方位的提升。
游戲以及應用支持

對于游戲開發者這一邊來說,從支持DLSS 2到支持DLSS 3很容易,大部分引擎開發接口是相通的,DLSS 3還可以通過Streamline這一NVIDIA發布的開源平臺進行集成,極大的簡化了游戲開發者對新技術的集成工作,可以預期未來的DLSS 3集成速度一定不會慢。
首批宣布即將支持DLSS 3的游戲及應用等有35款,包括了《巫師3:狂獵》、《黑神話: 悟空》、《賽博朋克2077》、《逆水寒》、《殺手3》、《微軟模擬飛行》等熱門游戲以及寒霜引擎、Unity 、虛幻引擎4 & 5 這些游戲引擎,有了這些知名游戲引擎的支持,未來的DLSS 3游戲數量可以說不用擔心。
實現4倍性能提升

至于DLSS 3對于游戲幀數的提升,NVIDIA給出的數據如上,可以將游戲分為兩類,一類是今天之前的游戲畫面,這部分的提升平均在2倍左右,而另一類則是之后的游戲畫面,可以理解為全景光線追蹤的游戲畫面,對于這樣的游戲畫面,提升平均可達4倍,當然,關于性能提升部分我們后面還會實際測試的。

游戲玩家中除了單機類游戲玩家還有電競類游戲玩家,新一代GPU也將這方面的體驗推到了新高度,現在已經可以在1440p分辨率下普遍達到360幀,而且系統延遲低至10ms之內。

電競類游戲玩家首要看重幀率及延遲,所以之前大都會在1080p分辨率下進行對戰,以獲取高幀率及低延遲,而新一代GPU將360FPS@1440p成為現實后,玩家照樣可以在1440p下獲取高幀率及低延遲,而通過統計,在27英寸1440p的顯示器上進行游戲相比25英寸1080p的顯示器平均成績會提高3%,對于毫厘之爭的電競對戰來說,這也是很重要的。
全新第八代NVENC支持AV1編碼和雙編碼器

Ada Lovelace架構相比Ampere架構的另一項重要升級就是NVIDIA 編碼器 (NVENC)升級到了第八代,開始支持AV1編碼了。AV1的效率比H.264高40%,這意味著在傳輸同樣質量的畫面時候只需要大約70%的數據量,或者說在同樣的帶寬下可以實現更清晰的畫面質量,并且由于AV1是免費、開放的,可以讓廠商節省相當一筆費用,AV1已經明顯將要取代H.264成為主流格式。

而在中國的備受歡迎的視頻編輯應用"剪映專業版"、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持 AV1,且均可通過編碼預設使用NVENC AV1編碼器。此外,OBS、Discord以及更多的公司都已在采用NVENC AV1編碼器。

首發的RTX 4090給開放了兩個NVENC編碼器,這兩個NVENC可實現協同工作,并自動分配以實現雙路輸出。全新的雙編碼器可將視頻導出時間縮短至原來的一半,未來,主播用戶可借助第八代編碼器中 AV1 雙編碼器的優勢提升直播體驗,還可以通過OBS Studio 錄制高達 8K60 的內容。
TSMC 4N NVIDIA定制工藝帶來能耗比的飛躍

這部分我是特意留著作為壓軸好戲來講的。
先回顧一下幾個數據,2018年的TU102是754mm2,擁有186億個晶體管;2020年的GA102是628.4mm2,擁有283億個晶體管;而如今2022年的AD102是608.5mm2,擁有763億個晶體管。
可以清楚的看到核心面積一直在減小,而晶體管數目則保持非常高的增長速度,當然,面對制程在進步,這其實也很正常,但是今年的Ada Lovelace架構GPU實在這方面漲的太恐怖了,AD102晶體管差不多是GA102的2.7倍!

而在先進的TSMC 4N NVIDIA定制工藝的加持下,RTX 4090的功耗則與RTX 3090 Ti一樣保持在450W,這足以令人意識到Ada Lovelace架構GPU的能耗比的巨大飛躍,事實上,新的Ada Lovelace架構相比Ampere架構實現了巨大的飛躍,同功耗下的性能可達2倍。
在能耗比方面,之前Ampere架構相比Turing架構的提升并不大,這個我們還專門做過測試——《Ampere、Turing、RNDA比一比:三大架構顯卡能耗比對比測試》,測試的結果是相對于上一代的Turing架構桌面顯卡,Ampere架構在能耗比方面具有了12%的提升,并不算出眾,而這一代直接來了個2倍的能耗比,讓人感覺說直接進步了兩代都不為過。
首發的Ada Lovelace顯卡有三張,分別是RTX 4090、RTX 4080 (16GB)和RTX 4080 (12GB),而其中最早與我們見面的是RTX 4090。
RTX 4090公版顯卡規格
接下來我們具體看下RTX 4090的規格。首先,大家需要知道的是,RTX 4090并不是完整的AD102核心,這幾乎可以肯定的意味著后面還會有更強大的RTX 4090 Ti這樣的超級怪獸,當然具體出不出?什么時候出?就有可能會看競爭對手AMD這邊給不給力了,目前可以肯定英偉達是留了一手的。
所以對比方面,盡管英偉達官方宣傳都是拿RTX 3090 Ti來對比(因為即使對比RTX 3090 Ti,RTX 4090也是足夠稱得上飛躍性的),但是筆者還是加入了RTX 3090的對比,嚴格來說,它們之間才是同樣定位的產品。

前面架構部分講到過,這一代的英偉達Ada Lovelace架構仍然采用將特定組數的CUDA單元、RT核心、Tensor核心封裝為一個SM單元,然后將一定組數的SM單元封裝為一個GPC這樣的層級結構,最后將幾組GPC單元和內部緩存等其他硬件部分組成我們看到的GPU核心。
而RTX 4090相比RTX 3090 Ti和RTX 3090的一個很直接的增強就是增大了GPC的數量,從7個猛增到11個,不過RTX 4090的7個GPC也不是完整的7個GPC,它與RTX 3090一樣,略微閹割了一點點,其中一組GPC屏蔽了兩組TPC,所以只有64組TPC,對應的具有128個SM單元、16384個CUDA核心。

具體到SM單元中,每個單元所配備的Tensor Core和RT Core與上代是一樣的——即每個SM單元中配備4個Tensor Core和1個RT Core,故而RTX 4090的Tensor Core和RT Core數量很好算出來,分別是512個和128個。RTX 4090的Tensor Core和RT Core與上一代可不一樣,已經分別是第四代和第三代了,單獨的性能都有增長,這個前面已經講過了。
紋理單元和光柵單元方面RTX 4090也有較大的進步,分別來到了512個和176個。
L2緩存的增加這次是非常的明顯,RTX 4090的L2緩存已經達到了73728kb,是RTX 3090 Ti的12倍。說到緩存就順帶這里說一下顯存容量的事兒,這次的RTX 4090也是24GB GDDR6X,與RTX 3090 Ti和RTX 3090一樣,大家可能覺得沒什么進步,但是因為L2緩存的巨大進步,實際的數據通信性能是要好很多的。
RTX 4090的顯存帶寬與上代最頂級的規格是持平的,其顯存頻率為10501MHz,有效顯存速度21Gbps,顯存位寬384bit,所以最終總的最大顯存帶寬達到了1008 GB/s,超過了1TB/s。
頻率也是RTX 4090的亮點,上代的RTX 3090Boost頻率只有1695MHz,即使后面三星的工藝技術更成熟了,到了最后的RTX 3090 Ti也只是做到了1860MHz,而RTX 4090直接暴漲到了2520MHz,相比RTX 3090提高了825MHz!
至于NVIDIA NVLink,從之前其在游戲卡上逐漸縮減支持就可以看到設計趨勢,上一代僅僅是RTX 3090 Ti和RTX 3090才有,而這一代則是完全取消了。其實從我們之前的測試來看,現在NVLink對于游戲性能的提升并不劃算,很多游戲設計商也不做支持了,所以這個取消筆者并沒有感到可惜。
至于其他的顯示器接口規格、FE版顯卡占用的PCIE插槽位置的數量、TDP、推薦電源、供電接口和PCIe接口方面,RTX 4090和RTX 3090 Ti是一樣的,不過雖然都需要占用3個PCIE插槽位置,但是顯卡本身的厚度還是不一樣的,其實RTX 4090要更厚一點,這個我們看下面的RTX 4090公版卡設計解析就可以清楚看到了。
另外,筆者要提醒一下的是最低850W的系統電源其實是英偉達基于配置Ryzen 9 5900X處理器的PC所作出的建議,所以如果是其他更高功耗的處理器的話,電源要求是要相應增加的。
RTX 4090公版卡設計







與上一代相比,這一代的NVIDIA RTX 4090 Founder Edition顯卡在包裝上面明顯升級,不僅包裝體積增大,而且禮盒包裝的精致感也相比上代大大提升。NVIDIA RTX 4090 Founder Edition顯卡的包裝設計非常獨特,將一個長方體做對稱的切割,打開方式是向上翻開,翻開后NVIDIA RTX 4090 Founder Edition顯卡就以45度角垂直于平面的樣子展示在眼前,而向上翻開的包裝盒部分可以直接翻到后方,整個包裝盒由于對稱性可以形成一個規則的三棱柱。


包裝盒背面可以看到NVIDIA RTX 4090 Founder Edition顯卡的一些規格信息,這里注明該卡尺寸為304×137×61mm,最低需要850W的系統電源,輔助電源接口是一個450W的第五代PCIE供電接口或者4個傳統的PCIE 8pin接口(包裝盒中有轉接線)。

NVIDIA RTX 4090 Founder Edition顯卡的整體外觀風格延續了上代的設計,不過還是可以明顯的看到不同——顯卡鈦灰色的邊緣出現了曲線。這是由于這一代的風扇尺寸增大了,所以與邊緣相交了,于是這一代鈦灰色的邊緣需要留出空間容納這更大尺寸的風扇。至于為什么風扇增大,顯然是為了更好的散熱效果,據稱這一代的風扇可以多提供20%的風量(同噪音下可以多提供15%的風量)。





另外,或許是為了呼應這里的流線型設計,NVIDIA RTX 4090 Founder Edition顯卡的周邊一側現在也進行了流線型設計,是向內凹陷的那一種曲面,與上一代對比的話就會明顯看出來。此外,還可以明顯的看到NVIDIA RTX 4090 Founder Edition顯卡相比上一代厚了很多,而長度則稍微還短了一點,但是總的來說,這個散熱器的規模是要比上代顯著增大的,可以應對更高的發熱功耗。





對于生產力系統來說,顯卡也就是加速卡,NVIDIA RTX 4090 Founder Edition顯卡尾端仍然有螺絲孔用來在工作站等環境中安裝顯卡支架,不過與上一代外露的設計相比,這一代特別設計了一個磁吸式的擋片來遮蓋住,很有特點。

NVIDIA RTX 4090 Founder Edition顯卡其實非常沉重,重量來到了2.187kg,拿在手里沉甸甸的,不過相對來說,NVIDIA RTX 4090 Founder Edition顯卡的外型相比這一代同型號的非公版產品來說還是更緊湊一些的,外觀設計也更加簡約、大氣,這個重量于是還是能傳達出一些"質感上乘"的感覺,并不會全是負面的體驗。圖上也可以看到這一代的NVIDIA RTX 4090 Founder Edition顯卡沒有了NVLink接口。










NVIDIA RTX 4090 Founder Edition顯卡延續了上一代的雙軸流推挽式風扇散熱設計——正面有一個軸流式風扇,雖然是軸流式風扇,但是經過特殊的風道設計,這個軸流式風扇吸入冷風之后是會將廢熱通過檔板那里排出機箱之外,另一個風扇是在顯卡背面,通過抽風讓冷空氣流經散熱鰭片,然后通過機箱的后置排風扇排出機箱之外,通過這種方式能更好的將廢熱定向的引導到機箱風扇的風道,避免了機箱風道的凌亂。

NVIDIA RTX 4090 Founder Edition顯卡仍然提供四個視頻輸出接口,包括三個DisplayPort 1.4a和一個HDMI 2.1接口,均可實現最高4K 120Hz的視頻輸出,并可實現最多4屏輸出,支持HDCP 2.3,HDMI 2.1接口還支持8K 60Hz HDR以及HDMI 2.1a 接口的可變刷新率功能。
RTX 4090公版卡拆解

RTX 4090公版卡的PCB一直是設計典范,在容納所有必須的電子元器件的同時仍然保持極小的尺寸,這非常考量設計技巧,PCB右側仍然采用了缺口的設計,這樣可以保證容納了穿透式風流設計的風扇后仍然將整卡的尺寸控制的盡量短,保證較好的兼容性。












PCB的正中心就是RTX 4090的AD102-300 CPU核心,周圍有12顆顯存顆粒圍繞,均是美光的GDDR6X顯存,型號為美光的D8BZC,單顆2GB容量,32-bit位寬,12顆一共組成24GB 384-bit的顯存規格。















再往遠一點的周圍就是一共23相對供電設計,其中核心供電20相,顯存供電3相,供電部分的mosFET均是芯源系統(MPS) 的MP86957,供電控制方面主要是1顆芯源系統(MPS) 的MP2891來負責。


盡管在這么小尺寸的PCB上放下了23相供電,但是仍然可以清楚的看到不少的空焊位,答案不言自明,這就是為將來的RTX 4090 Ti預留的,也就是說RTX 4090 Ti將使用同款的PCB,那么也可以預計其整卡尺寸大概也會一樣。


再看散熱器部分,RTX 4090公版卡仍然采用了真空腔均熱板設計,可以非常高效的將GPU核心的熱量傳導到熱管然后分散到散熱鰭片上,具有6根8mm直徑的熱管,這些熱管上面均覆蓋有鍍層,可以防止日久使用之后表面發生氧化,鍍層是黑色的也與整體的色調設計搭配,讓顯卡更好看。
測試平臺

本次首發評測對比顯卡包括了:GeForce RTX 3090、GeForce RTX 3090 Ti和AMD陣營的Radeon RX 6950 XT,除了Radeon RX 6950 XT沒有弄到公版卡用了一張技嘉Radeon RX 6950 XT GAMING OC 16G代替之外,其他都是FE公版卡。操作系統為最新的Microsoft Windows 11 22H2 64-bit版,系統的電源選項為高性能模式,在BIOS開啟XMP,讓內存運行在6000的頻率,其他方面不做過多改變,均采用默認設置。
基準性能測試
我們以3DMark作為顯卡基準性能測試,測試項目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六個項目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三個項目分別測試的是顯卡在DX11游戲中的1080p分辨率、2K分辨率和4K分辨率下的性能指數,Time Spy、Time Spy Extreme兩個項目則是顯卡在DX12游戲中的2K分辨率和4K分辨率下的性能指數,Port Royal是測試的顯卡實時光線追蹤的性能指數,具體成績見下表,表中所列成績均為3DMark顯卡單項的得分。

可以看到以上一代的RTX 3090為基準的話,采用新英偉達Ada Lovelace架構的RTX 4090確實性能暴增。
FireStrike這種面向1080p分辨率的項目其實對于RTX 4090來說CPU的瓶頸很嚴重了,而且RTX 4090主要是面向4K游戲環境推出解決方案,所以我們主要關注Time Spy Extreme這個子項目的性能對比(由于幾乎沒有新游戲采用DX 11 API了,所以Fire Strike Ultra對于RTX 4090的意義也不大),可以看到RTX 4090相比RTX 3090提升了92.66%,相比上代旗艦RTX 3090 Ti提升75.08%。
光追性能方面,RTX 4090是跟RTX 3090和RTX 3090 Ti相比不僅RT Core數量大大增多,而且從第二代RT Core升級到第三代RT Core,所以總的光追性能提升也非常巨大,RTX 4090相比RTX 3090提升了94.34%,相比上代旗艦RTX 3090 Ti提升75.57%。
至于AMD這邊,本來對于這種高端顯卡面向的4K游戲環境和光追游戲環境方面RX 6950 XT就不如RTX 3090 Ti,所以RTX 4090相比RX 6950 XT更是直接吊打,其Time Spy Extreme相比RX 6950 XT提升高達85.38%,而Port Royal相比后者更是提升高達144.83%。
4K分辨率游戲實測
RTX 4090雖然可以用作8K游戲解決方案,不過由于時間有限,加上目前8K的普及率遠不及4K,所以本次首發評測還是選擇了4K這個分辨率來作為測試分辨率(對于RTX 4090玩8K游戲感興趣的讀者可以留意我們之后的測試內容)。
由于本次新加入的DLSS 3是提高幀率、降低延遲同時還保持高畫質水準的全方位解決方案,這也讓我們在不同設置下進行對比成為了合理選擇,即我們回到影響游戲體驗的三大要素(流暢度、延遲和畫質)這個本源上來,通過綜合的游戲體驗來判斷提升。
故而本次的游戲實測主要分為三個部分,分別是DLSS 3開啟和關閉的性能對比,這個主要是測試DLSS 3;RTX 4090+DLSS 3對比RTX 3090 Ti+DLSS 2,這個是來看看RTX 4090和RTX 3090各自在自己軟硬件結合下的最優游戲體驗相差多少;最后就是較為傳統的同設置下的平均幀對比。
同設置下的平均幀對比這部分由于之前的RTX 3090 Ti面對不開光追的情況下已經能通殺所有游戲獲得流暢的游戲體驗,并且之后的新單機大作大概率就是像《賽博朋克2077》和《F1 2022》這樣——預設最高畫質就是開光線追蹤或者直接光線追蹤就強制開啟無法關閉——所以本次對于這種高端顯卡就不測試傳統光柵化的幀數對比了(當然,另一個主要原因也是首發時間有限,如果讀者們強烈希望測試這部分的對比,我們之后也會視情況做這方面的測試內容)。
所測游戲或者DEMO可以調節畫質的,均采用最高畫質。
DLSS 3開啟和關閉的性能對比
我們先來看看DLSS 3開啟和關閉的畫質對比,這里列出部分測試游戲的實機截圖對比。

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON
大家應該可以直觀的看到,DLSS 3的開啟不但沒有降低畫質,而且提升了畫質,這在具有全景光線追蹤的《逆水寒》中尤其明顯,而這正是我們跨畫質對比的理由,在畫質提升的情況下,平均幀、1%最低幀和系統延遲的對比到底如何呢?
接下來就是見證奇跡的時刻。

在目前具有全景光線追蹤的《逆水寒》"拂云庭"場景中,與關閉相比,開啟的游戲平均幀是后者的5.33倍,1%最低幀是后者的6.57倍,而系統延遲只有后者的15.58%。

在最高畫質的《微軟模擬飛行》中,與關閉相比,開啟的游戲平均幀是后者的2.11倍,1%最低幀是后者的2.31倍,而系統延遲只增大了1ms。

在最高畫質的《賽博朋克2077》中,與關閉相比,開啟的游戲平均幀是后者的4.2倍,1%最低幀是后者的3.71倍,而系統延遲只有后者的59.61%。

在最高畫質的《瘟疫傳說:安魂曲》中,與關閉相比,開啟的游戲平均幀是后者的2.37倍,1%最低幀是后者的2.69倍,而系統延遲只有后者的90.48%。

在最高畫質的《F1 2022》中,與關閉相比,開啟的游戲平均幀是后者的2.43倍,1%最低幀是后者的2.56倍,系統延遲這里RTX 3090 Ti DLSS 2的情況下除了點未知問題,沒有測出來。

在最高畫質的《Unreal Engine 5: Lyra》DEMO中,與關閉相比,開啟的游戲平均幀是后者的2.6倍,1%最低幀是后者的4.44倍,而系統延遲只有后者的81.67%。

在最高畫質的《Unity Enemies》DEMO中,與關閉相比,開啟的游戲平均幀是后者的3.23倍,1%最低幀是后者的3.67倍,而系統延遲只有后者的31.08%。

在4K的《3DMark DLSS Feature Test》中,與關閉相比,開啟的游戲平均幀是后者的2.97倍,1%最低幀是后者的3.07倍,系統延遲這里RTX 3090 Ti DLSS 2的情況下《3DMark》目前無法讀出數據。
總得來說,這8個測試中,與關閉DLSS 3相比,開啟DLSS 3的游戲平均幀是后者的3.16倍,1%最低幀是后者的3.63倍,系統延遲是后者的59.61%。這里主要還是因為目前的全景光線追蹤游戲太少,只有《逆水寒》這一個,其他的游戲拉低了這種場景下的提升。
RTX 4090+DLSS 3對比RTX 3090 Ti+DLSS 2
這里同樣,我們先來看看RTX 4090+DLSS 3對比RTX 3090 Ti+DLSS 2的畫質,這里列出部分測試游戲的實機截圖對比。

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3
這里可以看到DLSS 2和DLSS 3的畫面是看不出什么區別的,當然這里雖然不能保證DLSS 3的畫面剛好是生成幀的幀畫面(因為主要是要看這部分生成幀的幀畫面畫質有沒有降低,因為其他幀畫面就是DLSS 2的幀畫面),所以理論上看視頻對比更好,不過由于時間有限,這次沒法弄視頻對比給大家看,而且視頻對比對于這樣的4K畫面我們還需要解決好壓縮方面的問題,后續我們應該會有視頻對比給大家展示的。
這里筆者說一下自己的感受,那就是確實開啟DLSS 3的游戲過程中并沒有感覺到忽好忽差的情況,很穩定,而筆者相信人眼是極其敏感的(就算不夠敏感,超出了人眼可以辨別的范圍對于實際體驗來說也是一樣的意義,對吧),所以就可以認為DLSS 2和DLSS 3的畫面是沒有區別的,這也是我們繼續對比平均幀、1%最低幀和系統延遲的理由,因為這就是同畫質的游戲對比。
那么接著我們看看平均幀、1%最低幀和系統延遲的對比,結果如下:

在目前具有全景光線追蹤的《逆水寒》"拂云庭"場景中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.75倍,1%最低幀是后者的3.53倍,而系統延遲只有后者的28.7%。

在最高畫質的《賽博朋克2077》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.37倍,1%最低幀是后者的2.04倍,而系統延遲只有后者的64.2%。

在最高畫質的《瘟疫傳說:安魂曲》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的1.82倍,1%最低幀是后者的2.17倍,系統延遲這里稍微增大一點點,增加了7ms。

在最高畫質的《F1 2022》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的1.69倍,1%最低幀是后者的1.88倍,系統延遲這里RTX 3090 Ti DLSS 2的情況下除了點未知問題,沒有測出來。

在最高畫質的《Unreal Engine 5: Lyra》DEMO中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的1.68倍,1%最低幀是后者的1.82倍,系統延遲這里稍微增大一點點,增加了12ms。

在最高畫質的《Unity Enemies》DEMO中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.62倍,1%最低幀是后者的2.67倍,系統延遲這里RTX 3090 Ti DLSS 2的情況下除了點未知問題,沒有測出來。

在4K的《3DMark DLSS Feature Test》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.06倍,1%最低幀是后者的2.03倍,系統延遲這里RTX 3090 Ti DLSS 2的情況下《3DMark》目前無法讀出數據。
總得來說,這7個測試中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.14倍,1%最低幀是后者的2.31倍,系統延遲是后者的87%。
實時光追游戲測試:暢玩4K光追
這部分除了采用最高畫質之外,不開啟DLSS,好讓RX 6950 XT公平的參與對比。

這里測試的都是游戲的已發行版本,可以看到對于目前的光線追蹤游戲,即使不用DLSS,RTX 4090也能大部分完全流暢運行,即便是對于《賽博朋克2077》、《光明記憶》、《邊境》這樣光線追蹤渲染量很大的游戲,也保證超過30FPS,也就是說基本流暢都是可以做到的。
而對比性能的話,從8款游戲的綜合結果來看,RTX 4090相比RTX 3090 Ti提升為70.39%,相比RTX 3090提升為90.23%,相比RX 6950 XT提升為155.76%,越是光線追蹤壓力大的游戲場景越能體現出RTX 4090的優勢。
溫度測試
我們的GPU散熱測試均在裸機狀態(如果安裝在機箱內,GPU溫度會高出5℃左右)下進行測試,測試環境溫度約為25.1℃。待機溫度是開機以后記錄10分鐘,滿載溫度則是完成3DMark壓力測試后記錄下,數據通過GPU-Z的Log to File功能記錄,以下為溫度測試曲線。

RTX 4090公版卡支持風扇待機停轉,所以待機溫度都是被動散熱下的溫度,經過十分鐘的待機測試,從開始的29.7攝氏度上升到37.1攝氏度左右,10分鐘待機過程中最熱點溫度則是最低是開始的38.7攝氏度,偏后段是46.6攝氏度。
滿載狀態下,最高溫度居然僅僅67.1攝氏度,關注最熱點溫度的話,最高才75.5攝氏度,而且穩定后還要更低一點,這可是擁有763億個晶體管的怪獸,這個溫度表現令人再一次感嘆該卡散熱設計的偉大。
噪音測試

噪音方面,噪音測試在我們的消音室中完成,測試過程中噪音最低可以達到18.2dBA,能很好的測試出樣品的真實噪音水平。測試的狀態為顯卡散熱風扇在3DMark壓力測試中同轉速運轉的狀態,可以視為實際游戲負載下的噪音狀態,噪音儀距離聲源處距離為50cm,經測試,該卡此狀態下運轉的噪音值為36.4dBA,這個噪音水平是相當低的,對于玩家實際使用裝入機箱里的情況來說,更是很難感知到的。
功耗測試
通過我們手中的PCAT套件,可以分別精確地測量顯卡PCI-E、外接電源接口瓦特數,顯卡最大功耗在3DMark壓力測試中獲得,待機功耗則是在進入系統后記錄1分鐘取平均值。

統計功耗測試的結果算出,這張RTX 4090公版卡的整卡待機功耗平均為25W,滿載功耗平均為425W,峰值功耗到過450W。對于這樣級別的顯卡功耗來說,電源的話如果平臺其他部件的功耗不高那么可以850W的電源來帶動,如果其他部件的功耗也較高建議至少1000W的電源起步。
在上一代RTX 3080首發的時候,我們已經非常驚嘆于高端卡能相比上代產品平均提高50%,而這一代,沒人料到NVIDIA的進步速度更勝以往,RTX 4090相比RTX 3090在目前的光線追蹤游戲中可以提高90%的性能,幾乎達到了翻倍,即便是面對RTX 3090 Ti,也是提升超過70%,這個進步的速度更是遠遠的將競爭對手AMD現在的旗艦型號甩在了身后。
而RTX 4090最能發揮其性能的還并不是這些目前的光線追蹤游戲,而是將要到來的具有全景光線追蹤的游戲,通過DLSS 3技術的加持,RTX 4090可以將這些遠超當下技術能力的畫面實時渲染,并且能同時獲得流暢度、低延遲和高畫質的完美游戲體驗。
例如本次測試的《逆水寒》拂云庭場景,它讓我們體驗到了未來游戲的初形態,堪比CG動畫的游戲畫面美不甚收,而最神奇的是,在這樣的游戲場景中打開DLSS 3的畫面質量相比原生畫質還要好,并且在這樣的基礎上,DLSS 3還進一步提升了游戲幀率和系統延遲,AI的魅力令人難以置信。

在我們對比的8個測試中,與關閉DLSS 3相比,開啟DLSS 3的平均幀是后者的3.16倍,這里主要還是因為目前的全景光線追蹤游戲太少,還沒能完全表現出RTX 4090+DLSS 3的強大之處,要看到《逆水寒》拂云庭場景中,這個提升是5.33倍之多!
再加上與上一代RTX 3090 Ti+DLSS 2的搭配相比,在7個測試中,RTX 4090+DLSS 3的平均幀是后者的2.14倍,在《逆水寒》拂云庭場景中更是達到了2.75倍,從所有這些測試走下來,筆者最主要的感覺就是RTX 4090實在太強大了,強大到對當下的游戲環境完全是降維打擊,需要未來的游戲才能真正完全發揮它的價值,或許,NVIDIA走的太快了?
現在大家都知道RTX 30系列并不會馬上退市,而是作為中端和入門市場的補充與首發的三張RTX 40系列顯卡同時在市場銷售,盡管也有其他方面的原因,但正是這樣遠遠領先的步伐給了英偉達采用如此市場策略的資本。
最后說一個有趣的方面——散熱器設計,從我們的實測來看,似乎這一代顯卡的散熱器設計有點超標了,讓RTX 4090公版卡的滿載溫度僅僅只有65.3℃,熱點溫度最高才75.7攝氏度,而RTX 4090公版卡的散熱器設計其實已經算含蓄的了,AIC廠商的非公版卡散熱器更是夸張。固然更低的滿載溫度是玩家樂于看到的,但是這樣的散熱器規模也讓顯卡的體積暴漲,這就涉及到兼容性的問題了,筆者建議購買新卡的玩家尤其要注意機箱兼容性的問題。
RTX 4090公版卡極有可能是這一代RTX 4090中機箱兼容性最好的,好消息是,本次NVIDIA將限量推出GeForce RTX 4090 FE版,于北京時間10月12日晚9點在京東首發上市。屆時玩家可以按照喜好選購來自NVIDIA FE版和來自AIC供應商的RTX 4090 GPU標頻版和超頻版。
原文地址:http://www.myzaker.com/article/63458af18e9f09258f46b7a2