NVIDIA GeForce GTX 1080 Ti显卡首发深度图解评测+拆解

222 阅读 0 评论 147 点赞

　　对极致性能的追求可谓是显卡界的主旋律，就像运动员刷新世界纪录一样，每一次的显卡性能纪录刷新都能让玩家和从业者内心澎湃。随着Pascal显卡家族的诞生，业界的最强神话在短短一年不到的时间里一次又一次地被打破，我还记得去年5月老黄手举GTX 1080大声宣布：“a new king borned!”；我也记得去年7月，老黄在斯坦福大学的AI会议上公布NVIDIA TITAN X时骄傲的笑容；就在本月，最强游戏显卡的纪录再次刷新，新卡皇在本月初正式降临！

　　2017年3月1日，NVIDIA发布了玩家们期待已久的GeForce GTX 1080 Ti显卡，老黄在GDC 2017大会上明确声称，该卡的性能强于NVIDIA TITAN X，是“Ultimate GeForce”，翻译过来就是最强最极致的GeForce显卡。在GTX 1080 Ti未发布之前，很多人以为该卡会在NVIDIA TITAN X的基础上再削减一部分流处理器来区分定位，但意外的是，GTX 1080 Ti同样拥有3584个CUDA处理器，核心上一刀未动，可谓是开创了X80 Ti和TITAN间关系的先河。

GP102-350核心和二代G5X显存

　　毕竟GTX 1080 Ti还是要比TITAN X low一些的，因此NVIDIA破天荒地阉割掉了1GB显存以区分定位，与之对应的，显存位宽减少了32-bit、ROPs单元少了8个、L2少了256KB。可能是吉吉我资历尚浅，我从来没见过这种“阉割”方式，11GB的显存也算是活久见了，不得不让人怀疑GTX 1080 Ti是不是老黄临时赶工，把TITAN X少焊一颗显存便当成GTX 1080 Ti卖了。机智的老黄显然会猜到我们这么想，所以老黄在会上说，GTX 1080 Ti只是性能上强于TITAN X？乃们太天真了！

“就问你怕不怕？”（设计台词）

　　当然，老黄原话肯定不是这么说的，不过想表达的意思确实是GTX 1080 Ti对比TITAN X是全方位的提升，那么此话怎讲？老黄在会上称，GTX 1080 Ti使用了第二代G5X显存，经过优化后频率从10GHz上升至11GHz；供电部分也得到了强化，采用全新7相双FET设计，这使得整卡性能和超频潜力要远大于TITAN X；散热方面，GTX 1080 Ti搭载了全新设计的真空腔均热板，照比之前散热面积扩大了一倍，同GTX 1080比同温下噪音降低2.5dB，同噪音下温度降低5℃。

GeForce GTX 1080 Ti Founders Edition

　　如此多的改进表明了NVIDIA的诚意，那些观望许久的高端玩家们已经准备好入手这款新旗舰，不过与此同时，那些已经购买了GTX 1080和NVIDIA TITAN X的玩家们则表达出了强烈的不满。新旗舰的发布自然会导致老旗舰的降价，老黄宣布GTX 1080下调100美元，在国内的反应便是非公版GTX 1080的售价普遍下调了1000元人民币，那些年初购买GTX 1080的玩家们简直上吊的心都有了。NVIDIA TITAN X作为信仰级显卡，售价高达9499元，性能做工等各方面却都落后于GTX 1080 Ti，这让购买了TITAN X的资深N饭们深深地体会到了什么叫“信仰被无情地践踏”。

GeForce GTX 1080 Ti显卡开箱视频

　　尽管AMD Ryzen是现在PC界最受关注的对象，但GTX 1080 Ti的发布抢了Ryzen不少风头，可见玩家们对这款新旗舰是非常感兴趣的。相信正在看这篇文章的你一定非常想知道测试的结果，所以我就先给大家透个底：GTX 1080 Ti的综合性能的确超越了TITAN X，但并不是每一项测试都胜过后者。此外，吉吉我会在本文结尾向大家详细阐释NVIDIA让GTX 1080 Ti胜过NVIDIA TITAN X的意义以及本人根据小道消息的一些猜想。那么GTX 1080 Ti究竟超越GTX 1080和NVIDIA TITAN X多少，又是哪些测试不敌前任游戏卡王？就让我们一起揭晓答案吧！

　　Attention！为了感谢各位读者长期以来的厚爱，吉吉我将会抽取评论区的三位幸运读者，分别送出NVIDIA纪念鼠标垫一个、NVIDIA平板支架一个和NVIDIA多功能双肩电脑包一个，望大家踊跃参与评论，说出你对NVIDIA新旗舰的看法。

　　具体规则为：截至文章发布24小时为止，在第180楼、380楼和580楼回复的网友获奖，每个ID仅能获奖一次，禁止连续回复三次以上，一经发现将取消该ID获奖资格，奖品顺延至下一符合要求的楼层。

GP102-350核心解析

　　GeForce GTX 1080 Ti采用全新16nm制程的Pascal架构，核心代号为GP102，具体型号为GP102-350-K1-A1，而NVIDIA TITAN X的核心代号为GP102-400-A1。GP102核心面积约为471平方毫米，得益于16nm的制程优势，核心内集成了12亿晶体管，是GTX 980 Ti晶体管数量的1.5倍，核心面积却仅为GTX TITAN X的78.4%。

注：表中售价均为官方首发限价

　　基于Pascal架构的GP102-400芯片运算资源总量为3584个ALU，于GP102-400相同；GP102-350的TMUs数量为224个，后端的ROPs数量为88个，5个带宽为64bit的双通道显存和1个带宽为32bit的单通道内存控制器组成了总量为352bit的显存控制单元，大小为11GB。同NVIDIA TITAN X相比，其各项参数基本相同，不过显存位宽下降32-bit，显存带宽从505GB/s下降至484GB/s，ROPs单元数量也下降了8个。

GP102-350架构图

　　我们可以看到，GTX 1080 Ti的默认核心频率为1480MHz，Boost频率为1582MHz，比NVIDIA TITAN X的频率要高出60MHz左右，其中显存频率提升较大，由于G5X显存升级换代，等效频率提高了足足1GHz，因此单精度浮点运算性能比后者还要高出0.5 TFLOPS。GTX 1080 Ti的默认Pixel Fillrate能力达到了142.2Gpiexls/S，默认Texture Fillrate能力为331.5Gtexels/S，照比NVIDIA TITAN X均有所降低。最后需要说明的是，在TDP相同的情况下，GTX 1080 Ti拥有11.5 TFLOPS的超高单精度浮点运算能力，照比GTX 980 Ti提升了80%，能耗比惊人，为目前单精度浮点运算性能最高的单芯游戏显卡。

新老“X80 Ti”显卡详细参数对比

　　Pascal架构GP104-350芯片由以下主要的部分组成：

　　1、基于TSMC的16nm FinFET Plus工艺，相比28nm HPM提升了65%的性能或者减少了70%的能耗，同时晶体管密度翻倍。

　　2、6单元的宏观并行结构，30组SMs单元被分为6个GPC，每个GPC包含5组SMs，但砍掉了2组SMs单元，因此总量为28个，相对应地，纹理单元缩减为224个。

　　3、28组全新设计的，包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMs单元。每个SMs单元包含一组负责处理几何任务需求的PolyMorph Engine，同时均下辖5组更基本的SM单元，每个SMs单元包含8个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array，四组并行的二级线程管理机制以及对应的shared+Unified Cache等缓冲体系。

　　4、GP102-350拥有11个32位显存控制器，总计352位，每个32位显存控制器包含8个ROPs单元和256KB二级缓存，共计88个ROPs单元和2816KB二级缓存。

　　5、改进型的4.0版本PolyMorph Engine，包含了为VR设计的The Simultaneous Multi-Projection Engine，在极端情况下，SMP引擎可以减少32倍VR所需的几何渲染工作量。

新一代GDDR5X显存

　　为了进一步提高性能，GeForce GTX 1080 Ti配备了以11 Gbps运行的新一代GDDR5X显存，这是目前显存所能达到的单端IO信号传输的最快速度。NVIDIA与显存供应商倾力协作，改进显存的数据通道，使用先进的均衡技术减少物理接口的不利影响，并使抖动和噪声达到最小，实现更高的数据传输速率。

　　上图为显存工作时的数据眼图，左侧的图像显示了以11 Gbps运行的原始GDDR5X显存，右侧为新一代GDDR5X@11 Gbps显存，我们可以看到，左图采样数据的中心与转换中的数据混淆在一起，因此无法可靠地捕获数据，而右图显示新的GDDR5X显存具有显着改进的数据眼，结合Pascal强大的IO设计，使显存IO速度达到了一个新高度。

图块缓存技术（Tiled Caching）

　　NVIDIA最新的GPU采用了旨在放大原始内存带宽并为GPU核心提供更高有效内存带宽的技术，该技术被称为区块缓存。传统的渲染架构分为两种，高端桌面级GPU使用的是立即式渲染器，如左图所示；绝大多数移动级GPU使用的是图块式渲染架构，如右图所示：

传统渲染架构

　　在立即式渲染架构中，输入命令列表中的每个命令按序执行并完成，例如当输入三角形时，在开始下一个三角形的绘制之前先绘制之前的整个三角形。此架构的优势包括只读取一次输入的几何数据，并且能够在复杂输入时节约资源。缺点是在具有高透明度的区域中，相同的像素被多次读取和写入，增加了存储器带宽的消耗。

　　图块式渲染器的工作原理是屏幕被分成许多单独的区块，并且进行两次渲染，第一次处理几何数据并确定每个三角形覆盖哪些区块，并将该信息写入DRAM；第二次为每个区块再添加几何列表，每次一个区块，在移动到下一个区块之前渲染完成之前的区块。这样做的好处是所有渲染都在芯片内发生，最终只有颜色信息被写入DRAM。

图块缓存技术

　　与立即式渲染相比，图块式渲染有两个明显的限制：首先，对于合并通道的需求增加了数据延迟和复杂性；第二，保存和读取合并通道信息所需的显存带宽是与渲染场景中几何形状的量成正比，如果每像素带宽节省超过合并带宽量，则图块渲染是相对节省带宽的。对于那些相对简单，几何复杂度低的场景，例如移动端游戏是可行的，但对于具有丰富几何形状的桌面级游戏，图块式渲染对带宽的需求可能要比立即式渲染更高。

图块式渲染与立即式渲染对比

　　从Maxwell架构开始，NVIDIA便一直都在使用不同于以上两种传统渲染方式的渲染技术，其名为“图块渲染”，这种技术在Pascal架构中演变得更加成熟。这种渲染技术的基本理论是“化整为零”，将整个屏幕划分为一个个16*16或者32*32的小区域，然后以每一个小区块为基础对整个画面进行光栅化处理。Maxwell和Pascal GPU可以动态地评估每个帧所需的图块大小，根据场景的复杂度随时调整。

图块缓存的优势

　　“化整为零”的好处是GPU需要处理的单位画面数据变少，也就是说待渲染数据可以被暂时存储在GPU的L2高速缓存当中。这意味着GPU不必在更大、更慢的显存池中大海捞针，从而减少了显存系统的负载，增加可用于其他任务的可用显存，同时加速渲染速度和渲染质量。此外，这种图块化的渲染方式也很符合GPU的并行运算逻辑，GPU可以根据可用资源同时处理许多独立的图块，在多路显卡系统中的优势更加明显。

　　从上面的解释中我们不难看出，图块渲染的核心就在于L2缓存，更大的L2缓存将能够提供更多的渲染画面数据存储，于是我们看到由Kepler升级至Maxwell时，L2缓存被增加了8倍，从256KB大幅攀升至2MB，而从Maxwell升级至Pascal时，GP102核心L2容量达到了3MB，再次大幅提升。

显卡拆解赏析

　　从外形上可以看出，除了其散热器外壳、显卡名称和散热鳍片颜色互相对调以外，其他地方GTX 1080 Ti和NVIDIA TITAN X是相同的。

显卡正面外观