隆重介紹 GeForce GTX 680 GPU

Hardware

2012 年 3 月 22 日

作者: James Wang

從 Fermi 到 Kepler

NVIDIA 的工程師大約每隔兩年便會開始著手設計 GPU (繪圖處理單元) 的新架構。GPU 的架構將決定其建置組塊、組塊的連結方式及組塊的運作方式。此架構不僅是單一晶片的基礎,也是該晶片所屬系列的基礎。這些晶片可用於多種系統,如高效能電腦、輕薄筆記型電腦、醫療工作站及超級電腦等。每次設計的架構均為未來兩年 NVIDIA 推出的 GPU 鋪路。

兩年前,NVIDIA 推出使用 Fermi 架構的 GeForce GTX 480。此全新架構以義大利核能物理學家恩里科·費米 (Enrico Fermi) 命名,並擁有兩項重要的升級功能。 第一項升級功能為 GPU 的完全幾何處理,啟用一項稱為曲面細分與位移貼圖的重要 DirectX 11 技術。此技術用於「戰地風雲 3 (Battlefield 3)」及「末日之戰 2 (Crysis 2)」等遊戲,可大幅提升水、陸地及遊戲角色的逼真程度。第二項是 Fermi 大幅改善了 GPU 的一般運算效能,截至今日,在全球五台超級電腦中,就有三台使用 Fermi GPU。

今日,NVIDIA 推出 Kepler 架構,這是眾所期待之 Fermi 架構的後繼架構。透過 Kepler 架構,我們不僅要製造全球最快的 GPU,同時也要製造最省電的 GPU。在功能方面,我們加入了新技術,可從根本改善畫面流暢度及整體細節豐富程度。

為什麼省電功能如此重要?

當我們發表了搭載 Fermi 架構的 GeForce GTX 480 時,大家都覺得產品效能十分傑出,但也認為耗電量仍有改善的空間。玩家們在追求頂級效能之餘,也希望產品能具備安靜無聲、省電等優點。大家對 Fermi 的回應十分明確。我們推出 Kepler 的眾多目的之一,就是為了打造出能呈現絕佳遊戲效果的旗艦級 GPU。

Kepler 帶來兩項重大的改變,可大幅提升 GPU 的用電效率。首先,我們設計出 GPU 中最重要的元件: 串流多處理器,並就效能功耗比做了最佳化。再來,我們加入了一項稱做 GPU Boost 的功能,可提升時脈速度,使繪圖卡以現有耗電量來改善效能。

Kepler 的全新 SM (串流多處理器) 稱做 SMX,採用革命性的設計。SMX 捨棄 Fermi「2x」處理器時脈,使 GPU 採用相同的基本時脈。為彌補此變更,SMX 採用 192 CUDA 核心的極寬設計。由於晶片上共有 1536 顆核心,使 GeForce GTX 680 的效能輕鬆超越 GeForce GTX 580。

但此架構帶來的最大好處是省電。SMX 的效能功耗比是 Fermi SM 的兩倍。換句話說,每供應一瓦電量,Kepler SMX 的運作量是 Fermi SM 的兩倍。此為同類產品的比較,且產品的製造程序相同。想像一顆 50 瓦舊式燈泡發出的光芒卻和 100 瓦燈泡一樣 — 這就是使用 Kepler 架構玩遊戲時的情況。

劃時代的省電技術

當您將 GeForce GTX 680 接上電腦後,可明確感受到用電量的改善。以往的高階繪圖卡需要一組 8 針腳與 6 針腳 PCI-E 電源接頭,但 GTX 680 只需要兩組 6 針腳接頭。這是因為此款顯示卡的耗電量不超過 195 瓦,而 GeForce GTX 580 的耗電量為 244 瓦。GeForce GTX 680 就像是一位具有重量級拳擊手實力的中量級拳擊手。

GPU Boost

SMX 擁有兩倍效能功耗比,但如果 GPU 無法善用電力該怎麼辦? 我再舉一次燈泡的例子: 如果 100 瓦的燈泡有時候只能亮起 90 瓦,甚至 80 瓦的亮光,怎麼辦?事實上,現今 GPU 運作的情況大概就是這樣。

原因其實很簡單: GPU 跟燈泡一樣,是為了在特定功率下運作所設計的產品。這裡的數值稱為熱設計功耗值 (TDP)。高階 GPU 的 TDP 通常約為 250 瓦。解讀此數值的方式為: 此 GPU 的散熱器可以排出 250 瓦的熱能。若超過此上限一段時間後,GPU 必須強制降低時脈速度,以免過熱。換句話說,為使 GPU 呈現最佳效能,應在接近其 TDP 的環境下運作,勿超出 TDP。

在現實生活中,就算遊玩極為精細的 3D 遊戲,GPU 的功率也很少達到其 TDP。這是因為不同遊戲的耗電量均不同,而 GPU 的 TDP 是在最繁忙的狀況下所測量出的數值。如「戰地風雲 3 (Battlefield 3)」及「末日之戰 2 (Crysis 2)」等熱門遊戲的耗電量均遠低於 GPU 的 TDP 數值。只有少數幾款合成效能測試程式能將 GPU 的 TDP 推至極限。

舉例來說,若您的 GPU TDP 為 200 瓦,這表示在最繁忙的情況下,您的 GPU 將消耗 200 瓦的電力。若您正在遊玩「戰地風雲 3 (Battlefield 3)」,耗電量可能只有 150 瓦。理論上,您的 GPU 就算調高時脈速度,也能安全運作,但由於無法事先得知應用程式的電源需求,因此 GPU 會將時脈速度定在最安全的數值。只有在退出遊戲時,時脈速度才會降至適合桌面環境的數值。

GPU Boost 可以改變這一切。GPU Boost 會依據目前執行的應用程式耗電量來自動調整時脈速度,而不是由最耗電的應用程式來決定時脈速度。遊玩「戰地風雲 3 (Battlefield 3)」時,GPU Boost 會自動提升時脈速度,有效運用額外用電量空間,而不會持續以 150 瓦執行。

NVIDIA GPU Boost

運作方式

若要瞭解 GPU Boost,首先要明白此技術是透過即時硬體監控來運作,而非依據應用程式設定檔。此演算法會尋找當下最適合的 GPU 頻率與電壓。尋找方式為讀取 GPU 溫度、硬體使用情況及耗電量等大量資料。此技術將依據上述情況提升時脈與電壓,藉此發揮現有用電量下最強大的效能。 由於這些功能均透過即時硬體監控完成,因此 GPU Boost 不需要應用程式設定檔。新遊戲發售時,即便您未更新驅動程式,GPU Boost 也能正常運作。

GPU Boost

提升多少效能?

由於 GPU Boost 為即時執行技術,且提升的數值會依據執行中的應用程式不同而異,因此難以提出一個確切的數字。為註明一般效能增益,所有搭載 GPU Boost 的 Kepler GPU 規格表中均會列出兩組時脈速度: 基本時脈與提升時脈。基本時脈為所有 NVIDIA GPU 的現有繪圖時脈。對於 Kepler 而言,此數值也是 GPU 核心在執行 3D 應用程式時的最低時脈速度。提升時脈為 GPU 在執行 3D 應用程式時的一般時脈速度。

舉例來說,GeForce GTX 680 的基本時脈為 1006 MHz,而提升時脈為 1058 MHz。這表示在遊玩 3D 遊戲時,GPU 最低的時脈為 1006 MHz,但大部分時間均會以 1058 MHz 左右的時脈執行。GPU 的時脈速度不會持續以此速度執行,而是依據即時監控與回應增減,但大多數情況的執行速度仍貼近此速度。

GPU Boost 不會限制超頻。事實上,GPU Boost 技術提供更多超頻 GPU 的方式。您仍可如往常一般提升基本時脈,而提升時脈也會相對提升。此外,您可提升電源目標。此功能對耗電量逼近電源目標的遊戲來說非常實用。

逼真流暢的遊玩體驗

雖然現今推出的遊戲畫面都十分華麗,但即便我們已盡力抑制破圖情形,在遊玩的過程中仍會出現此類令玩家分心的情況。其中最明顯的是畫面撕裂。使用滑鼠左右移動畫面時,很容易發現撕裂情形。 發生時,遊戲幀數畫面間會呈現含劇烈閃爍的撕裂效果。撕裂效果容易在每秒顯示幀數較高時出現。在同一時間內顯示大量幀數時,畫面上不同區域便會產生撕裂效果。

Vsync 關閉時,遊戲畫面撕裂

垂直同步 (V-Sync) 為此問題的傳統解決方案,但許多玩家都知道 V-Sync 並不完美。V-Sync 最主要的問題是當每秒顯示幀數低於顯示器的更新頻率 (一般為 60 fps) 時,每秒顯示幀數會變得非常不穩定。例如,當每秒顯示幀數低於 60 fps 時,每秒顯示幀數會降至 30 fps。發生此情況的原因是顯示器會以固定間隔頻率更新 (雖然 LCD 顯示器沒有此限制,但 GPU 必須將其視為 CRT 顯示器以維持向下相容性),而 V-Sync 會強制 GPU 在顯示新影像前,等待下一次更新。如此便使每秒顯示幀數降至 60 以下,呈現明顯延遲狀態,即便只持續一時半刻。

每秒顯示幀數下降,Vsync 延遲

有鑑於此,NVIDIA 新發佈的 300 驅動程式帶來控制面板的全新功能: Adaptive V-Sync。Adaptive V-Sync 匯集 V-Sync 的優點,並摒除其缺點。透過 Adaptive V-Sync 功能,V-Sync 只有在每秒顯示幀數超過顯示器更新頻率時才會啟用。每秒顯示幀數低於此頻率時,V-Sync 會自動停用,將遊戲延遲情況降至最低。

Adaptive Vsync
Adaptive V-Sync 會依據遊戲效能動態開關 V-Sync,提升 V-Sync 選項對玩家的實用性,特別是非常重視遊戲流暢度的玩家。

FXAA: 流暢的反鋸齒效果

遊戲畫面出現鋸齒,是多麼煞風景的事。這會讓直線看起來彎曲,且在移動視角時,會產生令人分心的「蠕動效果」。鋸齒的解決方案為反鋸齒效果,但現今的反鋸齒效果必須犧牲每秒顯示幀數。更糟糕的是,新遊戲引擎還降低移除鋸齒的效果。

幾乎所有遊戲都採用一種稱做多重取樣反鋸齒 (MSAA) 的效果。MSAA 以極高解析度渲染畫面,再以低解析度取樣影像,減少鋸齒的數量。但此技術的主要問題,是需要使用大量視訊記憶體。 例如,4x MSAA 需要的視訊記憶體是一般渲染的四倍。實際上,許多玩家為了獲得更流暢的效能,不得不停用 MSAA。

FXAA 是一項新的技術,不僅快速、高效,更就現今遊戲引擎做了最佳化。FXAA 不以四倍解析度渲染畫面,而是根據對比偵測挑出畫面中的邊緣,再依據邊緣斜度將鋸齒邊緣平滑化。這些只要透過輕量的後處理著色器便能輕易做到。

FXAA - 高效能 / 高品質 AA

相較於 4xMSAA,FXAA 能呈現更為平滑的邊緣。但 FXAA 不像 4xMSAA,不需使用額外記憶體,因此執行速度直逼無反鋸齒效果。不僅如此,FXAA 也適用如葉子等透明幾何圖形,且能減少經常出現在亮面材質上的著色器鋸齒。

反鋸齒延遲圖表反鋸齒後處理圖表
「戰地風雲 3 (Battlefield 3)」MSAA (反鋸齒延遲) 與 FXAA (反鋸齒後處理) 的效能比較。

由於目前已經有多款遊戲支援 FXAA,您只要安裝 R300 系列驅動程式,我們便會將此技術整合至控制面板。這表示您可以在數百款遊戲中啟用此技術,即便是不支援反鋸齒的舊遊戲。

TXAA: 呈現比 FXAA 更精細的品質

在電影的電腦特效中,需使用大量的運算資源才能呈現反鋸齒效果。對於品質逼近電影的遊戲而言,開發商需要一套能呈現更高品質,同時兼顧效能的全新反鋸齒技術。

透過 Kepler 架構,NVIDIA 已設計出一套稱為 TXAA 的高品質的反鋸齒模式,可直接整合至遊戲引擎。TXAA 結合 MSAA 的原始效能與動畫電影中使用的精細解析過濾器。此外,TXAA 也在畫面間的取樣位置抖動,呈現更高品質。

無反鋸齒

8x 反鋸齒

TXAA

TXAA 提供兩種模式供您選擇: TXAA 1 及 TXAA 2。TXAA 1 可呈現 8xMSAA 的效果,但使用資源僅與 2xMSAA 相當;TXAA 2 則可呈現超越 8xMSAA 的效果,但使用資源僅與 4xMSAA 相當。

TXAA 如同 FXAA 技術般,將事先直接整合至遊戲引擎。下列遊戲、引擎及遊戲開發商已支援 TXAA: 「機甲爭霸戰 (MechWarrior Online)」、「神秘世界 (Secret World)」、Eve Online、「邊緣禁地 2 (Borderlands 2)」、Unreal 4 引擎、BitSquid、Slant Six Games 及 Crytek。

使用單張 GeForce GTX 680 即可呈現 NVIDIA Surround 效果

用三台顯示器玩自己最喜愛的遊戲時,是最令人讚嘆的時刻。以 5760 x 1080 的解析度,擴展遊戲視野,完全融入您的感知視覺,提供最身歷其境的賽車與飛行模擬器體驗。以往您需要兩張 NVIDIA GPU 才能使用三台顯示器,但現在透過 Kepler 架構,擁有一張繪圖卡便能使用三台顯示器玩遊戲,還可加裝第四台顯示器作為瀏覽網頁或即時訊息之用。

3d-surround
NVIDIA 的 Kris Rey 正透過三台顯示器在遊玩「上古卷軸 5: 無界天際 (The Elder Scrolls V: Skyrim)」,同時前往 GeForce.com 參閱該遊戲的微調指南。
三台顯示器配置問世時,價格令人望之卻步。現在,一台高解析度的平面顯示器價格不到 $150 美元。若您已有一台顯示器,則不用花費 $300 美元便可架設如上圖般的環繞系統 (不含附屬顯示器)。現在只要擁有一張 GeForce GTX 680,便能使用三台顯示器玩遊戲。

使用 Geforce GTX 680 呈現 NVIDIA Surround

品質設定:

  • 「末日之戰 2 (Crysis 2)」,30.33 FPS: 安裝 DirectX 11 Ultra Upgrade,啟用高解析度材質,最高細節等級。
  • 「駭客入侵: 人類革命 (Deus Ex: Human Revolution)」,46.20 FPS: 最高設定,啟用曲面細分,啟用 FXAA 高。
  • 「正當防衛 2 (Just Cause 2)」,46.60 FPS: 最高設定,啟用 CUDA Water,4xMSAA,16xAF。
  • 「惡靈勢力 2 (Left 4 Dead 2)」,126.10 FPS: 最高設定,4xMSAA,16xAF。
  • 「四海兄弟 2 (Mafia 2)」,51.35 FPS: 最高設定,啟用 PhysX Medium,啟用 AA,啟用 AF。
  • 「戰慄深隧 (Metro 2033)」,40.72 FPS: 最高設定,停用 PhysX,4xMSAA,16xAF。
  • 「傳送門 2 (Portal 2)」,127.90 FPS: 最高設定,4xMSAA,16xAF。
  • 「上古卷軸 5: 無界天際 (The Elder Scrolls V: Skyrim)」,59.55 FPS: 超高畫質,Bethesda 高解析度材質包,室內洞穴場景。

若您仍存有疑問,上方為使用 GeForce GTX 680 在三台 1080p 顯示器遊玩耗費資源的 3D 遊戲的效能結果。如表格所示,品質並沒有打折。大部分的遊戲均開啟高品質,甚至最高品質畫面進行遊玩。

結論

GeForce GTX 680 十分獨特,與本公司先前推出的旗艦級繪圖卡不同。每一次我們推出的 GPU 在當時均是全球最快。但這次透過 Kepler 架構,我們能做到的不僅如此。

Kepler 架構是個回歸遊戲核心的架構,這使我們捫心自問: 除了效能以外,我們還能如何提升整體遊戲體驗?
許多玩家告訴我們,他們希望 GPU 能更容易散熱、更安靜且更省電。所以我們重新設計架構,來達到玩家們的期許。GeForce GTX 680 是自 GeForce 8800 GTX 問世以來,耗電量最低的旗艦級 GPU,同時也是業界效能最高的 GPU。

我們希望除了提升遊戲的流暢度之餘,同時也提升畫面平順度,而 FXAA 與全新 TXAA 能兼顧兩者,讓遊戲能呈現超級平順的邊緣,同時維持頂級效能。

Adaptive V-Sync 提供許多玩家引頸期盼的改善功能。現在啟用 V-sync 時,無須犧牲每秒顯示幀數。

最後,您只需要單張繪圖卡便能呈現完整的 NVIDIA Surround 配置,外加一台附屬顯示器。此配置十分適合遊玩賽車或模擬飛行遊戲。

Kepler 是 NVIDIA 動員多位菁英工程師,投入超過四年時間所研發出的心血結晶。希望您能透過我們所設計的全新 GPU ,享受更高品質的遊玩體驗。

回應