MCPLive > 杂志文章 > 复仇怒火AMP Radeon R9 Fury X深度评测

复仇怒火AMP Radeon R9 Fury X深度评测

2015-07-17《微型计算机》评测室《微型计算机》2015年7月下

在AMD发布会现场证实了Fiji核心的相关规格后,我们再也难以抑制作为DIYer心中的激动之情。Fiji,一颗集成了89亿晶体管、面积达到596mm2的巨型核心跃然眼前。这是AMD(包括之前的ATI)历史上为庞大的显示核心;也是AMD阔别大核心策略多年后的第一次回归。同时也意味着这一代旗舰交锋,AMD不再有田忌赛马的错位竞争资本,而是一次真正意义上的正面火拼。Fury—罗马神话中的复仇女神,这个名字已经道明了AMD的来意,是Maxwell架构固守城池还是Fiji核心攻城掠地?好戏终于拉开了帷幕……

复仇怒火 AMP Radeon R9 Fury X深度评测
复仇怒火 AMP Radeon R9 Fury X深度评测

AMD真的需要制造一颗大核心吗?

从遥远的Radeon HD 4000系列开始,AMD就不再追求大核心至霸,转而制造一个不大不小的核心(通常在400平方毫米以内)专攻性能市场,依靠和双芯产品的配合夹击对手旗舰单芯,获得错位竞争优势。这个策略在很长一段时间内都是很成功的,以小的代价让对手为难。实际上AMD这类体积适中的性能级核心还拥有良率更高,成本更好控制的优势。也因此AMD成功将这类产品包装成了性价比极高的“甜点”显卡,博得了相当多玩家的认可和喜爱。

AMD之所以能持续设计和制造便宜、小巧而性能不错的核心,主要基于其长期以来坚持的积极工艺升级策略,用更先进的半导体工艺弥补核心面积甚至核心设计上的各种不足。但这个外部条件被台积电的工艺长期停滞在28nm节点的窘况打破,AMD长期以来积攒的硬件设计优势正在被对手赶超,因此AMD不得不转而更加依赖核心设计层面上的优化,甚至不惜扩大核心面积。在HD 5000系列向HD 6/7000系列过渡时,AMD还能通过规模效应获得不错的性能提升效果,帮助AMD维持甜点策略。但很显然,到R9 290X时就已经遇到了瓶颈,核心面积虽不及对手同时期产品,但也突破了400平方毫米。而且在核心面积还没有对手高的前提下,R9 290X的功耗和发热却反而更高,这不仅给竞争对手留下了宣传战上的能耗比软肋,也为AMD敲响了一记警钟。
综上,在面对“AMD真的需要制造一颗大核心吗?”这个思考时,MC觉得与其说AMD想要制造一颗大核心,不如说AMD当前不得不制造一颗大核心。因为各种原因导致的“甜点策略”难以继续维系,加上长期以来在顶级单芯市场的缺席,已经让AMD丢失了不少高端市场份额,以及发烧玩家的认可和口碑。所以AMD急需一颗真正意义上的顶级大核心产品来证明自己的实力,以期挽回不少发烧玩家的认可,稳固自己的市场。很显然,多种因素让多年未见的正面火拼在今年的高端显示核心领域重现,此役胜负的意义之重大,已经不言而喻。

Tips:Fury之名另有深意?

R9 Fury X这个命名既继承了R9这个顶级系列番号,又开创了数字命名之外的新规则。其实“Fury”这个名字对AMD来说算是熟客了—它本是罗马神话中的复仇女神,在被AMD收购前的ATI显卡早期历史上就出现过,包括高端的Rage Fury、性能级的Rage Fury Pro以及双芯版的Rage Fury MAXX。尤其是双芯版的Rage Fury MAXX曾经威名赫赫,堪称历史经典显卡之一。AMD如今将这个名号重新拎出来,除了借复仇这个名号向NVIDIA宣战以外,可能还有再次塑造自己的高端形象之意,回击NVIDIA的TITAN系列,树立一个对应的顶级旗舰形象。

技术看点:
一、核心3宗“”
二、首款公版搭配水冷散热器的单芯显卡
三、不得不说的DX12
四、平衡功耗和性能的帧率控制技术
五、类似DSR的VSR

“Fiji”创造显示核心史上多个第一

1、多晶体管:R9 Fury X使用的“Fiji”(斐济岛)核心是AMD有史以来庞大的一颗GPU核心,集成了多达89亿个晶体管,比此前的Hawaii 62亿个猛增了近50%,并一举打破了NVIDIA GM200拥有80亿个晶体管的纪录。其核心面积也高达596mm2,差一点就打破了GM200 601mm2的纪录成为核心晶体管数量和核心面积的双冠王。

HBM的封装形式主要是为了大幅提高带宽,同时也因此大幅降低了核心加显存的PCB面积占用量。
HBM的封装形式主要是为了大幅提高带宽,同时也因此大幅降低了核心加显存的PCB面积占用量。

2、大显存位宽、带宽:R9 Fury X拥有高达4096bit的显存位宽,它是自显卡诞生之日起,历史上显存位宽高的型号,而且远超第二名,达到曾经旗舰显卡上使用的512bit位宽的8倍。也因为此,即使显存等效频率仅1000MHz,它也帮助R9 Fury X实现了512GB/s的显存带宽,让它成为有史以来带宽高的显卡。

3、小PCB:当然是指旗舰显卡中,无论公版还是非公版,R9 Fury X绝对是我们见过的PCB面积小,短的旗舰显卡。但它的安装另需预留一个120冷排挂载位,总的安装空间并不比传统超长PCB显卡少,但纵向、横向可变的安装方式相对灵活,比长显卡的空间利用率更高。

HBM的技术和此前NVIDIA曝光的帕斯卡使用的HMC显存原理上基本一致,都是利用堆叠来实现高密度,用片上集成来实现高速、高位宽连接。
HBM的技术和此前NVIDIA曝光的帕斯卡使用的HMC显存原理上基本一致,都是利用堆叠来实现高密度,用片上集成来实现高速、高位宽连接。

HBM跟GPU封装在同一个基板上,还考虑到了通信延迟更低和避免PCB布线难度大的问题,为大幅度提高显存位宽铺平了道路。
HBM跟GPU封装在同一个基板上,还考虑到了通信延迟更低和避免PCB布线难度大的问题,为大幅度提高显存位宽铺平了道路。

划时代的HBM显存

说到R9 Fury X创造的显卡史上3个“”,就不得不提到头号功臣—HBM显存,正是它的成功应用,奠定了R9 Fury X拥有大显存位宽、带宽的基础,并侧面协助设计师完成了高端显卡的瘦身计划。

HBM(High Bandwidth Memory,高带宽显存),是为了解决GDDR5显存无法继续有效提升位宽和带宽问题而设计的。AMD和海力士合作开发的第一代HBM实用产品只需四颗显存颗粒就能提供4096bit的超高位宽,即使等效频率只有1GHz,带宽也能高达512GB/s,创造了显存带宽的新高。为了有效提升带宽,HBM相比以往的GDDR5就不得不做出大幅度改变,甚至包括封装和外观。HBM的单个颗粒就能拥有高达1GB的容量和1024bit的位宽,并且不再被安放在PCB上,而是和GPU焊接在同一块硅基板上,有些类似于英特尔处理器上的eDRAM。HBM如何在比GDDR5面积还小的单颗粒上实现高容量、高带宽的?答案是堆叠,当前AMD和海力士联合开发的第一代HBM每一个颗粒面积为35mm2(5mm×7mm),采用4层堆叠技术,每一层HBM Die拥有256bit位宽和256MB容量。每一层HBM Die都有垂直通道与底部的逻辑Die进行通信,彼此之间没有直接联系。终通过中介层(Interposer),将×4之后的容量和位宽连接到GPU上。值得注意的是,GDDR5想要继续扩展GPU带宽,就得添加更多颗粒,而颗粒和GPU间通信必须要经过PCB布线设计,过多的颗粒会指数性提高布线难度。而HBM直接通过硅基中阶层和GPU连接就好比内部缓存一样,不需要考虑布线难度,同时延迟还能更低,工作电压也下降至1.2V,比需要1.5V电压的GDDR5更节能。当然,在将显存集成到核心Die上之后,以往PCB需要为显存预留的空间就变得不再必要,能大幅缩减PCB空间,这也是我们后看到R9 Fury X如此短小精悍的主要原因。

Fiji核心架构示意图(左),除了显存控制器模块的明显变化,它相比之前的Hawaii XT(右)主要就是暴增了流处理器单元,注意看右侧的功能模块区和顶部的ACE等单元,两者几乎完全一样。

Fiji核心架构示意图(左),除了显存控制器模块的明显变化,它相比之前的Hawaii XT(右)主要就是暴增了流处理器单元,注意看右侧的功能模块区和顶部的ACE等单元,两者几乎完全一样。
Fiji核心架构示意图(左),除了显存控制器模块的明显变化,它相比之前的Hawaii XT(右)主要就是暴增了流处理器单元,注意看右侧的功能模块区和顶部的ACE等单元,两者几乎完全一样。

至于核心架构上,我们暂时看不出它和Hawaii XT核心的本质区别,尤其是流处理器数量的增幅和晶体管增幅基本相当这一点,让我们更加相信GCN1.2在计算逻辑上只是GCN1.1的微小改版。另外值得注意的是,在大幅增加了流处理器数量和纹理单元的同时,Fiji核心的光栅单元依旧维持在了64个,和Hawaii XT核心完全一样,比对手GM200的96个少了50%之多。基于此,我们非常怀疑R9 Fury X在光栅高压环境,例如高分辨率、高抗锯齿设定下的性能表现。同时,这种和显存位宽显得极为不和谐的搭配关系也让我们开始思考HBM带来的高带宽优势,对Fiji核心来说是不是真的不可或缺?仔细想想,在底层架构不变的情况下,显示核心对显存位宽和带宽很难有质变水平的需求,单单是在原来5000MHz 512bit GDDR5的基础上,适当调整显存工作频率到6000MHz或者7000MHz很可能足够满足新核心需求了。当然,这只是我们的猜测,R9 Fury X的实际性能表现,尤其是光栅等后端高负载压力时的表现有待实际测试中来检验。

CCC中的帧数限制系统控制面板,玩家可以自行设定理想中的帧数值,即保证流畅,又达到节能目的。
CCC中的帧数限制系统控制面板,玩家可以自行设定理想中的帧数值,即保证流畅,又达到节能目的。

首款上水的单芯公版卡

AMD为公版显卡配备水冷散热器已有先例,上次就为自家双芯旗舰R9 295×2搭配了一体式水冷散热器。就当时的情况来说,AMD多少有些无奈,传统风冷压制两颗“热情”的Hawaii XT核心恐怕难以胜任,不得已才用上了水冷。现在R9 Fury X也搭载了一体式水冷系统,不免让玩家觉得它是颗比Hawaii XT还要热情的核心。实际上根据AMD的官方说明,R9 Fury X的TDP功耗维持在275W,并不比上一代高,更不可能达到双芯显卡的程度。在AMD的计划中,本来就有一款基于Fiji的风冷产品—R9 Fury nano会在稍晚上市。这也侧面说明了上水并不是逼不得已,而是综合多方面因素的佳选择。公版R9 Fury X搭载的水冷散热器设计的散热TDP上限高达500W,面对TDP满载275W的R9 Fury X,意味着这套散热系统在显卡满载时也只是恰好进入50%的典型负载而已,并不需要多高的风扇转速就完全能满足R9 Fury X的需要,更别提多数时候它将处于低负载了。如此一来,R9 Fury X的温度、噪音表现就相当值得期待了,它很可能会成为旗舰公版显卡中,低温、低噪的代表。这里值得注意的是,过去非公版显卡总是凭借设计精良、体积夸张的散热器,带来比公版显卡更好的散热性能和噪音表现。但R9 Fury X的PCB面积出奇的短,留给散热器的空间局促,这会加大非公版显卡风冷散热系统设计的难度,搞不好会出现非公版显卡体积比公版大,散热能力却还没公版好的情况发生。

两组开启Frame Rate Targeting Control前后平台能耗数据,一样的流畅,我们为什么不节约一些能源?

两组开启Frame Rate Targeting Control前后平台能耗数据,一样的流畅,我们为什么不节约一些能源?
两组开启Frame Rate Targeting Control前后平台能耗数据,一样的流畅,我们为什么不节约一些能源?

Frame Rate Targeting Control(帧数控制)

对R9 Fury X这种旗舰显卡来说,并不是所有游戏都值得它全力以赴,很多时候都会出现帧数过度富余的情况(低帧数都远高于60fps)。处于节能环保的理念,AMD特意为R9 Fury X准备了一套智能的帧数控制系统—Frame Rate Targeting Control。它能智能检测当前游戏的帧数,在帧数超过玩家设定的阈值时,它会自动关闭显卡中的部分计算单元;当帧数不足时,它会让更多的计算单元工作,直到全力以赴。总之就是以尽可能低的功耗,让帧数刚好稳定在玩家需要的帧率上的同时,获得更好的节能、低温表现。例如全力以赴的R9 Fury X能在《蝙蝠侠:阿卡姆起源》中获得超过140fps的平均帧率,此时平台功耗350W。而我们开启Frame Rate Targeting Control并将帧数设定在80fps后,系统会实时调整参与游戏计算的GPU运算单元数量,场景复杂、要求高时,就开启较多运算核心;场景简单、要求低时,就关闭大多数运算核心。游戏全程确保游戏帧率稳定在80fps,不会有过高的帧率。这样你体验到的游戏流畅性和平均140fps没有任何分别,但是系统功耗却从350W大幅下降到了260W左右,节能效果明显。

VSR虽好,但不要随便什么游戏都那么贪心,对比着两组成绩你会发现用VSR玩1080p和直接输出4K的性能压力是一样的,4K分辨率下不能流畅运行的游戏还是不要尝试了。
VSR虽好,但不要随便什么游戏都那么贪心,对比着两组成绩你会发现用VSR玩1080p和直接输出4K的性能压力是一样的,4K分辨率下不能流畅运行的游戏还是不要尝试了。

VSR虚拟超分辨率

在GTX 980发布时,NVIDIA就公布了DSR(动态超级分辨率)技术,首次让1080p等物理分辨率较小的显示器也能输出4K超高清质量的图像。原理其实很简单,就是借鉴了SSAA思路,将更高精度的4K画面缩小后输出到1080p屏幕,相当于每个像素点的渲染精度提高了4倍,自然更清晰、更细腻。

CrossFireX系统显存的调用方式,这决定了显存没法叠加
Dx11下,CrossFireX系统显存的调用方式,这决定了显存没法叠加

DX12下的多卡显存调用方式,显存容量会随着显卡数量叠加。
DX12下的多卡显存调用方式,显存容量会随着显卡数量叠加。

AMD的这个VSR虚拟超分辨率(Virtual Super Resolution)使用了同样的原理,渲染环节处理了4K分辨率的高精度像素,输出时可将其压缩到1080p分辨率。这样用户就能在较小分辨率的显示器上感受高精度渲染的精细。尤其是对那些没有原生支持SSAA的游戏,VSR显然能带来更好的显示效果。当然,它的问题也跟DSR一样,都只能在原本性能富余的情况下,才能带来更好的游戏体验。因为这样做的计算强度和直接接驳4K显示器是一样的,渲染压力是普通1080p分辨率的4倍。要是因此而导致帧率降低到60fps、甚至30fps以下,让游戏过程都不流畅了,那么显然就是得不偿失了。

不得不说的DX12

DX12对AMD来说无疑是个双重利好,因为相比以往的API,DX12拥有更加出色的底层硬件直接调用效率,能充分发挥硬件的并发处理能力。更重要的是,这不仅仅针对显示核心,还包括在图形运算中,辅助显示核心的CPU计算部分。通过多线程指令缓冲记录技术,DX12能更好地调用更多CPU核心同时工作。这意味着AMD的多核心CPU产品能在未来的DX12游戏中充分发挥出并行处理优势,以弥补单核心性能明显不及竞争对手的劣势,缩小整体性能差距,消除显卡计算瓶颈。当然,在Windows 10正式发布前,我们还没有办法完整体验和分析DX12,只能从显卡厂商的零散宣传中,挤牙膏般地慢慢窥视DX12新特性。这不,AMD又给出了异步着色和原生多GPU计算的一些信息。

ACE异步着色器

允许异步着色是DX12的一个重要特性,它将复杂的串行负载分解为多个可以并行执行的简单负载,使得工作的并行度更高,减少GPU内处理单元的闲置率。借此能在同硬件平台下,挖掘出更强的硬件性能,为玩家提供更高级的画面特效。而且这种任务分拆机制,还非常适合虚拟现实渲染时的多重渲染应用环境。毫无疑问,宣称完整支持DX12的R9 Fury X也完全具备这种任务拆分处理能力。以往的DX11上,不同任务使用GPU内中不同模块的计算资源,但都得等待前续任务结束后才会被执行。在R9 Fury X上,各种任务将在同一时间内被送往GPU中的不同功能模块并行处理,很显然比以往的显卡架构效率高出不少。

原来的API会将图形接口的工作重点交给1~2个核心来处理,严重依赖单核心性能。DX12能更好地利用多颗核心,让工作在更短时间内完成,减少GPU等待时间,提高整体性能。
原来的API会将图形接口的工作重点交给1~2个核心来处理,严重依赖单核心性能。DX12能更好地利用多颗核心,让工作在更短时间内完成,减少GPU等待时间,提高整体性能。

原生多GPU支持

原生支持多GPU并联渲染是DX12相比以往DirectX API大的变化之一。玩家们应该清楚,在以前我们只能借助AMD的CrossFireX或者NVIDIA的SLI系统来并联多个GPU,通过协同工作获得远超单一显卡的性能。然而无论是AMD还是NVIDIA的方案,实际的性能提升幅度相比理论值都差距悬殊。这主要是因为显示卡厂商的多卡互联驱动没有办法适应所有应用,(下接88页)或者说不可能所有游戏都会特意针对CrossFireX或者SLI去做特别的优化。这就导致很多时候游戏中多卡系统并不能发挥出应有的性能。现在DX12原生支持多卡互联意味着什么?因为DirectX已经是PC游戏领域被公认的API,所有游戏开发者都会针对DX进行优化,DX12通过explicit multiadapter(多重附加着色器)提供的底层多GPU资源调用特性,就会随着游戏厂商对API的优化固定到游戏引擎中去,消除了需要针对性优化的局限性。借此,多卡系统更容易在游戏中发挥出跟理论值接近的性能。更重要的是,原生多卡系统中的显卡会被分派到不同的任务独自完成计算。因此不再有当前CrossFireX或者SLI多核芯间协作渲染时,需要随时同步显存数据的限制。简单点理解,DX12原生多卡支持能让多卡系统的显存容量做加法,原来两张4GB显存的显卡组件的系统拥有的可用显存还是4GB,而现在则等效拥有8GB了。这对多卡系统玩家来说无疑是一件好事,尤其是打算选择R9 Fury X来组多卡的玩家。R9 Fury X单张显卡仅4GB的显存容量将因此获得弥补。

DX11下顺序执行方式(上),很多时候都让计算资源处于闲置状态,以等待前续处理的完成,明显比DX12的并行任务方式(下)慢得多。

DX11下顺序执行方式(上),很多时候都让计算资源处于闲置状态,以等待前续处理的完成,明显比DX12的并行任务方式(下)慢得多。
原来的API会将图形接口的工作重点交给1~2个核心来处理,严重依赖单核心性能。DX12能更好地利用多颗核心,让工作在更短时间内完成,减少GPU等待时间,提高整体性能。


R9 Fury X是我们近年来看到过的PCB短小的旗舰显卡,也是近年来我们看到过的用料奢侈的设计之一。HBM和GPU固定在同一基板上,整个PCB上看不到显存颗粒让我们还略有些不习惯。但也因此,R9 Fury X核心加显存的“占地面积”从110mm×90mm降低到55mm×55mm,让显卡PCB长度仅17cm。在R9 Fury X的PCB上,只需要安放供电和输出模块需要的元器件。R9 Fury X的TDP功耗虽设定为275W,但其外接供电接口却是8Pin+8Pin设计,加上PCI-E供电,理论上能为显卡带来375W供电能力,冗余相对丰富,喜欢加压超频的玩家应该比较喜欢。在供电处理上,AMD为R9 Fury X设计了6相数字供电方案,规模不算庞大,胜在质量。我们能看到整个显卡的电容全是成本较高的贴片钽电容,具有极好的高温工作特性,能在长时间高强度负载中保持显卡运行的稳定性。以往这样的配置多出现在顶级非公版显卡上,且也没有这么大规模的全面使用。电感也是合金贴片产品,包括控制芯片,都是当前规格强悍的原生6相设计的IOQ3567B,整体规格相当高,在布局非常紧凑的状态下,都占用了显卡后端的所有PCB空间。以此看,要想设计超公版显卡,难度较高,只能加大PCB,从量而不是质上超越公版了。

R9 Fury X GPU-z信息识别图
R9 Fury X GPU-z信息识别图

Fiji核心Die,注意看GPU周围四个较小的Die,那就是HBM显存,看到明显泛黄的部分了吗?那就是裸露出来的中介层。
Fiji核心Die,注意看GPU周围四个较小的Die,那就是HBM显存,看到明显泛黄的部分了吗?那就是裸露出来的中介层。

采用4+2相数字供电,使用IOQ的3567B数控芯片,原生支持6相数字控制。
采用4+2相数字供电,使用IOQ的3567B数控芯片,原生支持6相数字控制。

整个PCB上看不到一颗烟囱电容,全部是贴片钽电容,用料相当奢侈。

整个PCB上看不到一颗烟囱电容,全部是贴片钽电容,用料相当奢侈。
整个PCB上看不到一颗烟囱电容,全部是贴片钽电容,用料相当奢侈。

值得一提的是AMD为R9 Fury X定制的水冷散热器,它不同于常见的冷头-水管-冷排设计,而是通过铜管将水路巧妙地和散热底座连接了起来,借助水冷的强悍散热能力,为供电模块等元器件提供了一体式的散热覆盖。在此之前,AMD第一次在自家R9 295X2上使用水冷时,都还需要借助额外的风扇来为周边模块提供散热,R9 Fury X则是真正的纯水冷了。

至于外观,AMD表示公版R9 Fury X的设计原则是专业、简单、时尚和优雅。可以把铝合金铸模、表面镀镍黑化、类肤材质处理以及背光LED LOGO等等设计理解为比较专业的外壳加工。另外,外观上的一抹纯黑而不花哨,更是极简化设计的典型代表。至于时尚和优雅,在公版显卡上我们暂时看不出来。实际上在AMD的官方说明中,他们特意强调了前面板的易拆特性,只需拆卸4颗螺丝就能轻松卸下前面板。说是为了迎合即将到来的3D打印潮流,让用户能非常方便地更换自己设计的有趣的外壳,也许这算是时尚吧……好了,接下来就让我们正式进入测试环节。

测试平台主要硬件信息一览表

处理器      酷睿i7 4770K
主板         ROG玩家国度Maximus VII Formula
内存         宇瞻DDR3 2133 4GB×2
硬盘         海盗船Neutron GTX 240GB SSD+希捷桌面4TB HDD

性能测试看点:

一、相比上代旗舰R9 290X提升究竟有多少
二、能否撬动GM200核心王者地位?
三、4GB显存是否会成为高分辨率瓶颈
四、AMD有史以来的大显示核心功耗几何?
五、水冷散热是否有足够惊艳的温度表现

在正式发布以前,从各种渠道流露出来不少R9 Fury X的一些信息,尤其是一份测试显示它的成绩比GTX TITAN X还高。结合上高达4096个流处理器的暴力规格,让不少玩家相信R9 Fury X有实力和GTX TITAN X一战。但在发布会上AMD宣布了R9 Fury X定价5099元,依旧是“田忌赛马”策略,进攻对手4999元的次旗舰GTX 980Ti和超过8000元的旗舰GTX TITAN X中间的空档。AFans十分希望R9 Fury X能给他们一个惊喜,性能能够更加接近GTX TITAN X,带来超高性价比。不过从价格定位看,R9 Fury X的真正对手无疑应该是次旗舰GTX 980Ti。

性能:话分两头说

坦白说,R9 Fury X的测试过程有些曲折,在首发测试时,AMD为它准备了专用的15.15beta版本驱动程序,这也是我们首先用来体验R9 Fury X性能的驱动,几乎是所有国内媒体首发测试时使用的驱动。不得不说这个驱动显然不够成熟,在不少项目当中,R9 Fury X都不能获得一个相对“正常”的成绩,比如3DMark 11中,它的表现就只比R9 290X略好,提升幅度不到20%,大幅低于它在3DMark中相比R9 290X大幅提升40%以上的表现。基于此, R9 Fury X在不少首发测试中的表现都不尽人意,评价不佳。不知道接下来会发布的正式版驱动能否修正这个问题。仔细分析,这个问题应该更新显存系统对驱动要求更高有关。新软件还好,尤其是不少老款软件和游戏成绩,在当前驱动下,它的性能无法获得较好的发挥。整体来说就是R9 Fury X显得不善应对低分辨率的情况,相对来说在4K分辨率下,它的表现更加显眼。

vs. R9 290X超越40%

我们的对比首先从上代单芯旗舰R9 290X开始,计算规模提高了45%,倘若性能能线性增长,R9 Fury X就能获得145%于R9 290X的性能。实际测试结果更佳喜人,R9 Fury X在3DMark理论测试中的成绩获得了超过52%的性能提升,比计算单元的增加规模还要高。通常来说,3DMark是应用中对显示核心设计理解比较到位的软件,能较为充分地挖掘出显示核心性能。从这个角度看,R9 Fury X的确如AMD所说,不仅仅是暴力增加了计算单元,还在每个单元的执行效率上有一定程度的优化。而且可以预见的是,能如此完美地发挥出比线性增长还要可观的性能,还仰仗了HBM提供的超高带宽,以及更低的数据延迟。

实际游戏对架构的优化程度显然不及3DMark理论测试软件,所以R9 Fury X的游戏性能平均领先R9 290X没能达到50%的幅度,而是在40%左右。尤其值得一提的是,在4K分辨率下,R9 Fury X的优势更加明显,个别项目相对R9 290X的提升幅度达到了70%以上。这让我们比较吃惊,因为之前的架构分析里,我们还很担心R9 Fury X依旧只有64个光栅单元的设计会严重影响它的高分辨率、高抗锯齿状态下的性能表现。现在看来,并不存在高压力状态性能不佳的问题。相反的,它还能在这种高压中更好地释放出架构的整体性能优势。

R9 Fury X确实是块更适合4K游戏的显卡,它在不少游戏的1080p分辨率中性能还低于GTX 980Ti。一旦分辨率提高到4K,它的潜力将彻底爆发,一举反超GTX 980Ti,甚至直接超过了GTX TITAN X。
R9 Fury X确实是块更适合4K游戏的显卡,它在不少游戏的1080p分辨率中性能还低于GTX 980Ti。一旦分辨率提高到4K,它的潜力将彻底爆发,一举反超GTX 980Ti,甚至直接超过了GTX TITAN X。

不善应对1080p?主流环境败于GTX 980Ti

在与上代R9 290X的对比中,我们已经发现R9 Fury X不善应对低分辨率的情况,在接下来与对手GTX 980Ti和GTX TITAN X的对比中,这个劣势显得更加明显。我们看到在4K分辨率的3DMark FireStrike Ultra中,R9 Fury X的成绩介于GTX 980Ti和GTX TITAN X之间,但面对分辨率仅1080p的3DMark FireStrike Extreme时,R9 Fury X的表现却跌落到比GTX 980Ti还低6%以上。尤其是参与测试的10款游戏中,R9 Fury X基本上全都负于GTX 980Ti。这样的表现显然不能让人满意,尤其是在R9 Fury X定价比GTX 980Ti还高100元的情况下。

4GB显存是硬伤?4K游戏反而发力了

就在我们略感失望之时,接下来的4K分辨率游戏测试中,R9 Fury X又为我们带来一场全面逆袭的好戏。对于HBM显存,原本我们是持怀疑态度的,主要是基于两点:1当前HBM技术还不够成熟,容量难以提升,导致R9 Fury X成为一个可能在4K分辨率下爆显存的旗舰显卡;2在架构并未大幅革新的情况下,现有GCN基础架构设计对显存带宽的需求量是否真的如此之高?否则是在浪费了HBM的高带宽优势的同时,还被迫接受了HBM当前容量受限的劣势。

然而实际情况却是在1080p分辨率下全面落败的R9 Fury X,在4K分辨率中终于展现出了自己应有的实力。参测10款游戏,R9 Fury X有5款游戏的成绩比GTX 980Ti更出色,4款游戏成绩两者处于伯仲之间,仅1款落败。尤其值得注意的是,在5款胜出的游戏中,R9 Fury X的成绩相当逼近GTX TITAN X,尤其是《蝙蝠侠:阿卡姆起源》和《Far Cry 4》,R9 Fury X的成绩甚至超过了对手的顶级旗舰GTX TITAN X。

仔细分析,这可能基于两方面因素:1是HBM的高带宽、低延迟优势在压力相对较小的1080p下难以发挥应有的性能,不能给R9 Fury X带来明显优势,只有高压力的4K下才能更明显;2是当前游戏对显存容量的需求其实并不贪婪,4GB貌似多对多数游戏来说都足够了。至少我们的测试中,就只有《GTA 5》让R9 Fury X遇到了爆显存问题,导致成绩不佳。

功耗表明GCN1.2优化功底颇深

在架构分析的时候,我们看到当前Fiji使用的GCN1.2和之前的GCN1.1在功能模块上几乎完全一致,很难从结构性上看出新架构的优化程度。尤其是性能测试中,我们大多数时候看到它相对R9 290X的性能提升幅度都约等于核心计算规格的提升幅度,这就让我们更难感受到核心设计的改变。直到功耗测试,我们才从中感受到了AMD在新架构上花费的功夫。

首先,让我们回顾一下文章一开始列出的上代和这代顶级显卡的主要规格对比表,注意看MC在其中特意加入的晶体管密度这个数据。仔细观察你会发现NVIDIA在28nm节点上的工艺改进在上代GK110时就已经达到大值了,密度在1300万/mm2左右,新的Maxwell架构的GM200也依旧维持这个水平。反观AMD,在Hawaii XT时,就已经获得了晶体管密度上的优势,密度达到1400万/mm2。同样是28nm工艺,在制造Fiji核心时AMD的工艺水平又有了进一步提升,晶体管密度达到1500万/mm2。晶体管密度是半导体芯片的一个重要参数,也是衡量半导体工艺的重要指标,这从侧面表明同样是28nm工艺,AMD在设计和制造上掌握得更娴熟。

但让我们担心的是,R9 290X上使用的GCN1.1架构,也就是Hawaii XT核心,在集成62亿晶体管的规模下,能耗已经达到比较惊人的高度。就核心面积来说它仅430多平方毫米,但是满载功耗却比530多平方毫米的GK110核心(GTX TITAN BE)和600多平方毫米的GM200核心(GTX TITAN X、GTX 980Ti)还高。通常来说同架构下核心功耗和核心面积成正比,依旧基于GCN的R9 Fury X的Fiji核心相比R9 290X的Hawaii XT核心面积提高了约35%,就算AMD将功耗管理水平提高35%,也会面临功耗明显高出对手GM200的情况。尤其是公版显卡搭载水冷散热系统,更像是官方默认了Fiji是个高发热量的功耗怪物。但实际情况却比我们想象的好了太多,在将计算规模大幅提高45%、核心面积高出35%的前提下,AMD将Fiji的功耗在Hawaii XT的基础上降低了8%左右。从晶体管数量上来讲前者有89亿,后者仅62亿,单个晶体管能耗平均降低了56%以上;从核心面积来说,Fiji有596平方毫米,Hawaii XT是438平方毫米,单位核心面积的功耗平均降低了46%左右。无论单个晶体管对比还是单位核心面积对比,Fiji的能耗管理提升的幅度都是非常惊人的,比GK110到GM200大约10%左右的提升幅度无疑高出了太多。当然,以上基于核心的简单对比显得略微片面,R9 Fury X的功耗控制得力,肯定有来自HBM显存的积极影响,这样的表现是综合后的结果。而综合起来整张显卡的终成绩单上,R9 Fury X的满载功耗已经跟GTX 980Ti和GTX TITAN X处在伯仲之间。典型的3DMark基准测试软件中,R9 Fury X的功耗还比GTX 980Ti和GTX TITAN X略低。就能耗比来说,R9 Fury X虽然没能超越对手,但完成了从大幅度落后的完败到基本持平的跨越式进步,在对手大势宣传的能耗比战争中终于能够喘一口气了。

这里还值得一提的是FurMark拷机成绩,这是不少媒体衡量显卡功耗的唯一参考。在我们的测试中,R9 Fury X在此项目中的表现也是相当糟糕,比GTX 980Ti、GTX TITAN X高出60W左右。实际上NVIDIA早从GTX 400系列开始,就针对这个暴力拷机软件加入了功耗限制机制,从那以后到现在的GM200核心,都不会在这个软件中发挥出自己的真实功耗水平,这不知道成功忽悠住了多少用户。鉴于此,MC向来都只将这个传统项目保留下来,作为衡量满载核心温度的工具,而功耗成绩仅作参考。功耗成绩我们会通过3DMark运行时的功耗,和实际游戏时的功耗为准。你会看到在FurMark中和GTX 980Ti、GTX TITAN X功耗相差悬殊的R9 Fury X,在3DMark和实际游戏中的功耗则和它们相差不多,甚至略低。也正因为此,在以3DMark成绩和功耗为基础计算的能耗比项目中,R9 Fury X的表现并不像有些媒体宣传的那么不堪,已经和对手处于同一水平。

温度和噪音简直是“作弊”

功耗并未大幅提升,相比前代旗舰还有明显下降,在此基础上却用上了水冷散热器,毫无疑问这注定了AMD R9 Fury X的温度表现将出色到“爆表”。实际测试结果显示,即使是持续高负载游戏,R9 Fury X也能把核心温度控制在50℃以内。在要求更为苛刻的FurMark拷机测试中,它也能将核心温度稳定在55℃左右。反观GTX 980Ti和GTX TITAN X轻易超过85℃的表现,R9 Fury X的优势不言而喻。长时间处于低温显然对延长显卡的使用寿命有积极作用,更重要的是,低温意味着散热系统不需要疲于奔命,只需要较低的风扇转速就能满足核心的散热需求。在我们的长时间游戏体验中,R9 Fury X的噪音一直处于非常低的状态,10cm距离实测仅38.8dB,只比夜间安静的评测室背景噪音高3dB左右。而GTX 980Ti在满载时,1米开外就已经能清楚听到风扇噪音了,10cm实测已经高达48.6dB,差距非常明显。

测试小结:难以回应AFans过高的期望

测试到此告一段落,就整体性能来说,R9 Fury X无法撼动GTX TITAN X的王者地位,但对GTX 980Ti来说绝对是个巨大威胁。尤其是R9 Fury X公版卡在散热和噪音上的优势,让对手根本无法招架。这也让我们理解了为何NVIDIA临近R9 Fury X发布前才发布GTX 980Ti,而且在规格削减不大的情况下,相比GTX TITAN X大幅降低售价的原因。很明显NVIDIA希望借助实惠的GTX 980Ti来进一步巩固自己的高端市场竞争力,降低R9 Fury X甜点定价对GTX TITAN X的冲击。

说到官方放风,AMD的这次行为有些成也萧何、败也萧何的感觉。超多的消息,尤其是确定启用HBM显存等次世代规格的确认,让R9 Fury X成为近几年中,上市之前受关注度高的显卡。这帮助AMD吸引了足够多的人气,与此同时,也让AFans们信心大增,对R9 Fury X拥有了过高的期望,甚至期望它能和GTX TITAN X正面抗衡。后果显而易见,玩家对R9 Fury X拥有的期望越高,在现实面前的失望也就越大。

多显卡同平台3DMark FireStrike Ultra成绩/能耗对比一览
多显卡同平台3DMark FireStrike Ultra成绩/能耗对比一览

借助水冷散热器的优势,R9 Fury X拥有当前旗舰显卡中出色的温度和噪音控制能力,使用体验为舒适没有之一。

其实R9 Fury X已经很好地完成了换代和阻击对手的任务,对比自家上代的R9 290X,它获得了超过40%的性能提升,提升幅度已经相当可观。尤其是相比R9 290X,它的能耗比表现拥有质的飞跃。综合性能、能耗比和性价比来看,R9 Fury X毫无疑问依旧是款见缝插针的错位竞争产品。它拥有GTX TITAN X 90%的性能,但价格只有前者60%;与GTX 980Ti的性能在伯仲之间,价格略贵却拥有绝对的低温、低噪优势。

MC点评:

一次大胆的尝试

正如我们前文所说,与其说AMD是想制造一颗大核心来与对手正面抗衡,不如说是AMD在当前环境下不得不这样做。很显然,我们能从Fiji的身上感受到仓卒的身影,上马新架构时间不充裕,墨守成规又不能获得出色表现,于是我们看到了继续优化老架构同时配合新显存系统的大胆尝试。性能对比测试中我们已经分析过架构小改动与新的HBM显存系统的不适应性,以及HBM系统对新驱动编写的更高要求等对R9 Fury X带来的负面影响。不过终的结果并不太糟糕,至少R9 Fury X的实际性能完全能与GTX 980Ti正面抗衡—对手能跑流畅的我也能,我不能流畅运行的,对手也提供不了流畅体验。与此同时,我们也要看到将HBM商用化,突破现有显存瓶颈、降低显存功耗以及减小显卡体积对未来显卡行业发展的积极作用。这也让我们尤其期待下一代经过架构变动,更加适应HBM,能充分发挥出HBM优势的显示核心架构的面世。希望那时,AMD依然走在硬件更新的前列。

另外值得一提的是,R9 Fury X的小体积封装优势,更加便于开发双芯产品,AMD很可能在接下来的顶级双芯战役中获得后发先至的竞争优势。尤其是面对接下来将大面积爆发的4K和VR应用,当前的单芯旗舰都将无法招架,即使是GTX TITAN X也不例外。多芯,甚至多芯多卡并联系统才是玩家们的好选择。而在多卡互联中,使用水冷的系统几乎不会受到邻近显卡的散热干扰,能在保持高频全速运算的同时,持续获得低温、低噪的极佳游戏体验。这是传统风冷不具备而R9 Fury X自带的优势,这让我们更加看好它的应用前景。实际上在AMD的发布会现场,AMD就已经发布了一款高性能的小体积游戏PC。分体式水冷的小身板,让这款PC非常容易内建两张R9 Fury X显卡组建CrossFierX系统。这样的小身板高性能恐怕也是对手难以复制的优势。

分享到:

用户评论

共有评论(2)

用户名:

密码: