索泰天启系列显卡怎么样(银鳞装甲的天启骑士)

1前言/外观赏析:索泰 GeForce RTX 4090 天启 OC

前言

今年9月,玩家翘首以盼的GeForceRTX4090显卡终于到来了,老黄的NVIDIA新品发布会也称得上是科技圈的“春晚”之一,新的RTX4090既有性能的飞跃,又有独家的黑科技加持,然而FE公版一经上架就一抢而空,玩家们想要体验这张性能巨兽,选择AIC非公版会更合适。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(1)

索泰作为NVIDIA的核心AIC合作伙伴,在RTX4090发售之初就带来了GeForceRTX4090AMPEXTREMEAIRO,我们也在第一时间上手评测了那张显卡,顶级的配置和性能令人印象深刻。最近索泰的另一款产品GeForceRTX4090天启OC也上市了,那么这款索泰GeForceRTX4090天启OC会有怎样的表现呢?

*下文的“索泰GeForceRTX4090天启OC”简称为“索泰RTX4090天启OC”

外观赏析:索泰 GeForce RTX 4090 天启 OC

众所周知,索泰天启系列一直以豪华用料与高规格散热著称,这一代的索泰RTX4090天启OC也不例外。外包装还是一贯的风格,以天启系列的LOGO作艺术化的延伸,打造了一个相当富有艺术感以及神秘感的外包装的主背景。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(2)

不同于其他品牌将产品渲染图放于正面,索泰则是将RTX4090天启OC的效果图放置在外包装的背面,并且用文字凸显出其特色设计及功能,让玩家一眼就能看出这代显卡的特色。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(3)

索泰RTX4090天启OC的外观设计极具辨识度,机甲风格设计贯穿整张显卡,正面是三风扇设计,风扇的四周被名为“银鳞装甲”的散热风罩包围,银黑装甲、龙鳞设计辅以正中央的“启世之环”,简约飒爽,造型炫酷。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(4)

索泰还为这个“启世之环”打造了无以伦比的灯光效果,透光的钻切呼吸灯点亮后犹如钻石般璀璨闪耀。玩家也可通过索泰FireStorm控制中心自定义灯效,可玩性拉满。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(5)

三个110mm的仿生盾鳞2.0散热风扇十分吸睛,扇叶相比前代也大出不少,并且在扇叶表面还设计了鳞庄仿生条纹并优化了扇叶曲率,这样设计的目的是给显卡提供充足的风量,保证风道流通,高效散热。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(6)

与其他高端显卡一样,索泰RTX4090天启OC采用高强度合金材料一体铸形而成,能够增加显卡结构强度,保护显卡PCB,提升显卡静电防护能力。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(7)

并且背板上加入了天启之翼2.0散热引擎,左右分别设置了两个风扇,分管吹风和抽风,位置上正好对应“天启姬”的形象设计,既有颜又能打,全方位为显卡散热,助力性能完全释放。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(8)

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(9)

其中一个小风扇下压制的是AD102核心的背部电容,相比其他显卡,散热效能更进一步。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(10)

显卡的顶部可以看到一个印有索泰Logo的发光灯牌,与正面的“启示之环“一样,通过FireStorm软件可以实现灯效自定义等效果,灯牌之后是一整排的散热鳍片贯穿显卡顶部和底部,加速热量排出。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(11)

接着看细节,索泰RTX4090天启OC采用全新的12VHPW供电接口,通过一根12VHPW的电源线就可达到供电需求,并且索泰给接口内部的金属端子镀金,能够有效减缓氧化,降低电源线和接口的接触阻抗,降低发热量,保障显卡的安全使用。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(12)

在12VHPW供电接口的旁边是显卡BIOS切换按钮,索泰RTX4090天启OC预设了加速和寂静两种BIOS设置,玩家可以通过BIOS切换按钮或索泰的FireStorm控制中心进行切换,满足玩家高性能或安静的需求。

显卡的底部为显卡金手指,接口为标准的PCIe4.0x16,不过在使用前一定要在主板打开ResizableBAR功能,这张显卡的性能才能完全释放。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(13)

显卡厚度上不比其他RTX4090动辄3.5槽的厚度,索泰RTX4090天启OC仅有3槽,对小机箱还是比较友好的,并且配备了三个DP1.4a和一个HDMI2.1a,用这款显卡带8K屏幕一样流畅。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(14)

2显卡拆解:索泰 GeForce RTX 4090 天启 OC

显卡拆解:索泰 GeForce RTX 4090 天启 OC

索泰RTX4090天启OC的堆料相当奢华,我们拆开来一探究竟,卸下索泰RTX4090天启OC金属背板上的螺丝后就可以分离散热系统和PCB。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(15)

再卸下金属背板上剩余的螺丝后即可完全分离PCB,PCB采用类公版的方案,越肩设计,比一般的显卡都要再高一些,从长度来看,索泰RTX4090天启OC的PCB比前代RTX3090Ti还要小,不过PCB上密密麻麻布满各种元器件,排列整齐,有大厂出品的质感。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(16)

PCB的背面主要是控制芯片,核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC(一组10个MLCC),整体电气性能更强。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(17)

回到正面,PCB的正中央就是这张显卡的大脑——TSMC4NNVIDIA定制工艺的AD102-300-A1GPU芯片,小小的GPU芯片中集成了763亿个晶体管,相比RTX3090Ti足足多了2.7倍,称它是地表最强卡皇都不足为过。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(18)

核心的四周就是NVIDIA与美光共同研发的GDDR6X显存,型号是型号为2MU47D8BZC,共12颗,单颗2GB容量,12颗组成RTX4090上24GB的超大显存容量,为处理复杂项目提供坚实的硬件基础。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(19)

作为天启系列的续作,供电规模也相当豪华,索泰RTX4090天启OC采用24 4相SEP供电系统,供电分列在PCB的左右两侧。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(20)

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(21)

其中24相为核心供电,每相供电均采用了独立的DrMos芯片,封装型号为BLN3,实际应为AOS的AOZ5311NQI-03,持续输出电流为55A。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(22)

另外4相为显存供电,每相都采用了独立的DrMos芯片,同样是来自万国半导体Alpha&OmegaSemiconductor,封装型号为BLN0,实际应为AOZ5311NQI,持续输出电流也是55A。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(23)

供电控制芯片共三颗,均安排在PCB背面,型号分别是:uP9512U、uP9512R,以及uS5650Q。其中uP9512U与uP9512R共同管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(24)

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(25)

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(26)

在核心周围还能看到两颗BIOS控制芯片,型号为IS25WP016,分别控制这款显卡的加速BIOS与寂静BIOS。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(27)

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(28)

豪华的堆料自然少不了强劲的散热系统,索泰RTX4090天启OC采用了全新升级的高效能冰芯VC散热系统。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(29)

全新升级的冰芯VC散热系统相当庞大,不仅能够给GPU散热,还为显存、电感以及MOS管等进行散热,如此规格的散热压制AD102核心绰绰有余。

在VC均热板上可以看到索泰给显存和供电都配上了高系数的导热垫辅助散热,AD102核心上也安排上了厚厚的硅脂,为的就是让这颗地表最强核心尽情释放全部潜能。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(30)

将隐藏在风扇下的螺丝卸下后,就可以彻底分离散热风扇与庞大的散热器,散热器本体为两段式散热模块,左右两侧均有全覆盖高密度镀镍鳍片,搭配全新对流穿透散热设计,能够大大提升显卡散热效能。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(31)

9根冰脉2.0热管穿梭在散热器内部,能够将前后的两段散热鳍片链接起来,将热量快速传导到散热鳍片。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(32)

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(33)

散热系统上还包括三个采用双滚珠轴承设计的110mm仿生盾鳞2.0风扇,升级后的扇叶不仅能够保证充足的风量,还兼顾了使用寿命,并且风扇动静交由AI掌控,可以在高、低温度和负载之间让风扇智能启停,减小噪音。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(34)

五风扇的散热设计,剩下的两个就是背部的天启之翼2.0散热引擎,采用无线触点设计,使风流可以遍及显卡背面PCB等散热死角,构成全方位立体散热系统,进一步降低显卡温度。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(35)

3测试平台/理论性能/游戏性能

测试平台介绍

旗舰级的显卡自然要有旗舰级的配置,想要衬得上索泰RTX4090天启OC这样的卡皇,其他硬件自然不能差,所以我们在测试平台的搭建上都挑选一些较为顶级的设备。三套件为:INTEL的i9-12900K,微星MEGZ670ACE主板,以及金士顿的64GBDDR5-6000高规格内存。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(36)

有了强悍的硬件,显示设备也不能拖后腿,显示器我们采用了爱攻&保时捷联名PD32M电竞显示器,其搭载了目前顶级的4K144Hz面板,可以完美体验到RTX4090带来的丝滑4K144Hz游戏体验。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(37)

上机前依照惯例,先在GPU-Z中验明正身,索泰RTX4090天启OC的基准频率为2235MHz,Boost频率为2550MHz,高于公版FE的2520MHz,并且可以看到此时主板的ResizableBAR功能已开启,显卡能够做大限度的发挥出其全部性能。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(38)

另外从GPU-Z中我们还可以了解到这款显卡的功耗和温度设定,索泰RTX4090天启OC的TGP设定为450W,最高限度500W,与公版保持一致,温度控制的上限为84℃,不过可向上调整至88℃,想必这张卡还有不小的超频空间。

理论性能测试

首先是3DMark的理论性能测试,在基准性能测试部分,索泰RTX4090天启OC充分释放了性能,成绩大幅领先于RTX3090Ti。其中不管是代表DX11性能的FireStike还是代表DX12性能的TimeSpy,其成绩领先的幅度都在70%以上。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(39)

另外最近3DMark还更新了基于DX12新的基准测试工具——SpeedWay性能测试,索泰RTX4090天启OC得分首超1W分大关,来到了10028,相比公版的9854分高出不少,可见这次索泰来势汹汹。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(40)

而在DXR光追性能部分,得益于拥有数量更多的第三代光追单元,索泰RTX4090天启OC领先幅度更大,相比上代卡皇RTX3090Ti,性能提升超过一倍,在PortRoyal中,26196的得分领先了80%以上。

3DMark中的理论性能提升已经足够“离谱”,AIDA64的GPGPU理论性能测试中,索泰RTX4090天启OC的表现更令人惊喜,整体性能相比RTX3090Ti提升了85%以上。在显存复制上,这代RTX4090有着几乎三倍于上代产品的性能提升,而在哈希算力上,RTX4090相比RTX3090Ti有小幅提升,不过随着以太坊的合并,也不用再担心显卡成为空气卡了。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(41)

游戏性能测试

绝大多数玩家关注的自然是心心念念的游戏性能,为了展示这款核弹级显卡的真正实力,我们选取了多款游戏或Benchmark测试对索泰RTX4090天启OC进行实测。

首先是1080P分辨率下的游戏性能表现,这个对于RTX4090可以说是小菜一碟了,测试的游戏中绝大多数都能跑到200FPS以上。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(42)

2K分辨率下,索泰RTX4090天启OC逐渐展示出其优势,整体性能相比前代卡皇RTX3090Ti提升近40%以上,不少游戏依旧稳定200FPS以上,2K@144Hz不在话下。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(43)

4K分辨率才是这款显卡的主场,从实测结果中可以看出,随着分辨率的提升,索泰RTX4090天启OC的优势越大,在有着“显卡杀手”之称的《赛博朋克2077》中,索泰RTX4090天启OC能够做到76FPS,而RTX3090Ti仅有48FPS,属实有点不够看。而在《光明记忆:无限》中,即使是高画质加复杂光追的苛刻条件下,这代显卡的表现依旧强势,87FPS的成绩领先前代近70%。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(44)

既然都是地表最强游戏显卡了,不试试8K分辨率怎么行,在8K游戏测试方面,索泰RTX4090天启OC能够将大部分游戏跑到60FPS以上,像一些优化好的游戏,例如《极限竞速:地平线5》甚至能有85FPS左右,总的来说,用RTX4090已经能够满足部分游戏运行在8K画质下的需求,相较于RTX3090Ti几乎是翻倍的提升,如果游戏厂商优化到位,8K电竞指日可待。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(45)

4DLSS 3性能

DLSS 3性能测试

应该有不少玩家疑惑,为什么游戏测试中没有提及DLSS3,不要着急,要说这DLSS3可以说是这一代40系显卡的最大升级亮点,相比DLSS2,DLSS3不仅可以实现画质于帧数的双向提升,还新增帧生成功能,实现游戏帧数翻倍,老黄在发布会上更是直言“DLSS3让游戏性能翻倍”,所以我们也用多款DLSS测试程序与游戏验证这一说法。

3DMarkDLSS3理论性能测试

3DMark中新增了DLSS3性能测试,实测下来有DLSS3的加持下,索泰RTX4090天启OC相比RTX3090Ti真的实现了性能的翻倍,在4K分辨率下,不开DLSS3仅能勉强维持在60FPS附近,一旦开启DLSS3后,性能直接提升三倍,已经可以满足4K@144Hz的电竞需求。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(46)

8K分辨率下更是离谱,不开DLSS3只可以13FPS,测试过程卡成PPT,而开启DLSS3后,帧数暴涨80FPS,逼近百帧,相较上代提升3倍有多,似乎已经可以开始期待8K@120Hz甚至8K@144Hz了。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(47)

F122DLSS3性能测试

具体到实际游戏表现中,索泰RTX4090天启OC的表现依旧强劲,在《F122》游戏中,4K分辨率下仅TAA设置的游戏流畅度仅为75FPS,这说明了RTX4090不开启DLSS功能的游戏性能已经足够强了,开启DLSS3后,无论是质量档还是性能档,其游戏流畅度都高于120FPS,对于一款赛车游戏来说,这流畅度是真再爽不过了。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(48)

当然不少玩家可能担心DLSS3会有降画质的问题,这里我们也截取了DLSS3各个档位下的游戏实际画面,可以看到无论是哪个档次,游戏画质均没有明显影响,甚至因为DLSS3是通过AI进行超分渲染,因此在文字等细节纹理上会比原生画质更加清晰。

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(49)

DLSS3-F122-DLSS-Balance

索泰天启系列显卡怎么样(银鳞装甲的天启骑士)(50)

DLSS3-F122-DLSS-Perfoemance

DLSS3-F122-DLSS-Quality

DLSS3-F122-DLSS-SuperPerfoemance

DLSS3-F122-TAA

UnrealEngine5LyraDLSS3测试

最后我们还测试了利用UnrealEngine5引擎打造的LyraDEMO,此DEMO除了能够支持最新的DLSS3技术外,还带上了NVIDIAReflex。笔者这里上传了两个图片给大家看看LyraDEMO里的DLSS3开启与关闭的画质对比,游戏流畅度自然是DLSS3开启后提升较为明显的,达到192FPS,而PCL延迟也进一步降低到了50ms的水平。

Unreal-Engine-5-Lyra-DLSS3-OFF

Unreal-Engine-5-Lyra-DLSS3-ON

总的来说,有了DLSS3的加持,索泰RTX4090天启OC相比前代有了翻天覆地的变化,以前8K想都不敢想,现在近在咫尺;目前游戏中的特效日渐复杂多样,老旧显卡已经不足以支撑高画质畅玩,而有了DLSS3的加入,给这代显卡带来巨幅的性能提升,因此要面对未来的全景光追游戏大作,索泰RTX4090天启OC显然是必备之物。

5创作者能力/双NVIDIA编码器

创作者性能测试

作为一张顶级卡皇,索泰RTX4090天启OC不仅游戏性能强,对于生产力用户来说,索泰RTX4090天启OC的24GB超大显存和强大算力就有了用武之地,因此我们测试了以ULProcyon、PugetBench为代表的Bnechmark来检验这款显卡在视频创作上的能力,同时也加测了PCMark10用于模拟日常使用。

从实测结果来看,你可能觉得索泰RTX4090天启OC对办公或视频剪辑的提升不大,但其实并非如此,Adobe等软件对显卡性能要求不高,但索泰RTX4090天启OC上有着24GBGDDR6X显存,大显存的优势在视频剪辑、特效处理等应用项目上是显而易见的,它能够处理更加复杂的项目,并且缩短用时,因此作为一个设计师或后期工作者,这张RTX4090可以让你的效率更进一步。

不同于传统办公和视频剪辑,索泰RTX4090天启OC在专业领域的提升十分显著,Blender和Octance这两个渲染器对3D渲染的用户一定不陌生,曾经的卡皇RTX3090Ti已经足够强了,但索泰RTX4090天启OC的性能更胜一筹,相比前代分别有87%和94%的性能提升。

即使是在SPECviewperf2020集成的8款工业软件测试中,索泰RTX4090天启OC也是全方位的领先前作,性能提升也有54%之多,所以说搞工业设计的用户这次真的可以换显卡了,这代RTX4090真的可以显著提升你们的渲染效率。

双NVIDIA编码器测试

工业软件提升明显,视频剪辑小幅提升,那后期工作者或设计师就没有必要更新这代RTX4090了吗?非也,这次索泰RTX4090天启OC还有一个重磅升级——双NVENC编码器,作为第八代NVENC编码器,其编解码性能相比前代有了质的飞跃。

最新的RTX4090显卡支持AV1编码,而RTX3090Ti仅支持AV1解码,二者差距相当明显,新的AV1编码技术能够在占用相同空间情况下,提供更加快速的视频编码和更高质量的流媒体传输性能,并且目前许多主流媒体也逐步支持AV1编码,像达芬奇、万兴喵影、剪映等软件均已支持AV1编码。

我们使用NVIDIA提供的8K片源与工程文件进行测试,同样的素材下AV1编码相比H.265编码所需时间更短,而即使同为H.265格式导出,索泰RTX4090天启OC的导出时长也比前作快了70%以上。

另外我们来看看H.265格式与AV1格式下的画质区别,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现,总的来说,无论是导出速度、空间占用还是画质表现,它都完胜H.265。

6超频/功耗/评测总结

超频体验

前面提到索泰RTX4090天启OC的TGP与温度墙都有一定的余量,那超频自然是不可错过的绝佳好戏。我们使用索泰的FireStorm控制中心对显卡进行超频,小手一拉,这张显卡在3DMark的PortRoyal测试中跑出了2955MHz的有效频率,得分也上升至26848分。

我们继续加大压力,在FireStorm中将索泰RTX4090天启OC的BOOST频率提升到2800MHz,继续测试3DMark的PortRoyal光追项目。

这次显卡的有效频率直接来到3120MHz,相比默认的2550MHz提升明显,分数也上升至27297,比起默认状态下的26196提升超1000分,不得不说索泰的供电与散热设计相当强劲,完全可以继续开发这颗至尊级GPU的性能,玩家如果有兴趣,还可以进一步挖掘它的强大潜力。

功耗与散热

索泰RTX4090天启OC是罕见的五风扇散热器配置,要知道这代RTX4090的散热器都是超规格的,那这个配置拉满的散热器究竟能给这张RTX4090降温到什么程度呢?我们使用甜甜圈单烤,15分钟后,显卡核心频率为2700MHz,GPU核心温度仅有63.8℃,显存温度更是只有66℃,相比起上代的RTX3090Ti动辄七八十度,这代显卡的温度表现甚至比部分CPU还低。

另外温度低还不够,索泰RTX4090天启OC最高功耗为446W,甚至还比RTX3090Ti低一点,用几乎相同的功耗却带来了几乎翻倍的性能提升,不得不说这代显卡的强劲实力令人惊喜。

烤机过程中我们也留意了风扇噪音,实测满载情况下,风扇噪音也不大,放在机箱中几乎感受不到,如果你想要更安静的使用环境,可以切换至寂静BIOS或者手动使用索泰的FireStorm控制中心对风扇转速进行调整。

评测总结

评测到这里就接近尾声了,全新AdaLovelace架构下的RTX4090无论是游戏性能还是专业生产力都遥遥领先RTX3090Ti,不愧为地表最强游戏显卡。而本次测试的索泰GeForceRTX4090天启OC无论是性能、颜值、还是配置都延续了天启系列一贯的奢华。

性能上着实给我带来不小的惊喜,虽然出厂默认的BOOST频率只比公版4090高了30MHz,但从我们实测来看,它的超频潜力不容小觑,轻轻松松就能跑到3120MHz。在散热上更有全新升级的高效能冰芯VC散热系统加持,丝毫不惧发热,完美诠释了顶级非公应有的表现。

外观上这代索泰GeForceRTX4090天启OC也是辨识度拉满,机甲风格设计、启示之环RGB灯、天启之翼等元素辅以RGB灯效后,低调内敛的造型设计和个性张扬的RGB灯效相得益彰,在个性和沉稳找到了一个很好平衡点,看得出这款显卡就是索泰专为游戏玩家量身定制的。

总的来说,如果你想购买一款性能强劲、颜值在线、堆料豪华的显卡,那么索泰RTX4090天启OC就是你的不二之选。DLSS3、全新RTCore、TensorCore等黑科技加持,8K游戏也能轻松实现;24GB大显存配上大幅提升的算力,创作者也能感受架构革新带来的效率提升。目前索泰GeForceRTX4090天启OC上架销售,售价12999元,感兴趣的不要错过。

7ADA架构解析

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。

从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。

在讲述核心架构前,我们先了解几个关键词:GeForceRTX4090、AdaLovelace、TSMC4N、608mm²、760亿个晶体管、2倍性能功耗比。

大家带着几个关键字来看上面的【显卡规格参数对比】表格,就可以更容易读懂上述表格了。最新一代的桌面显卡GeForceRTX40系列均采用全新的AdaLovelace架构核心,GeForceRTX4090的核心是AD102,目前AdaLovelace架构核心中最为强大的,具有760亿个晶体管、16384个CUDA核心和24GB高速美光GDDR6X显存。

得益于NVIDIA与台积电深度合作的TSMC4N制程工艺,GeForceRTX4090核心面积仅是608mm²(上代RTX3090Ti628mm²),在更小的核心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。

值得注意的是,制程工艺的提升不单能拥有更多的晶体管,其核心频率更是能跑得很高,GeForceRTX4090Boost频率就已经达到了2520MHz,这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

从GTC2022秋季大会中,其实我们就已经发现了,目前GeForceRTX4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12个GPC(图形处理集群)、72个TPC(纹理处理集群)、144个SM(流式多处理器)和⼀个带有12个32Bit显存控制器的384Bit显存位宽。

再来看上面的GeForceRTX4090架构图,和完整版本的AD102核心对比起来就很容易看出差别。首先,GeForceRTX4090核心代号为AD102-300,其拥有9个完整规格的GPC(图形处理集群,每个内建6个TPC),与2个非完整的GPC(图形处理集群,每个内建5个TPC),共组成了64个TPC,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

如果你还是不太懂,这里笔者就逐一为了AdaLovelace架构显卡的构成。

刚才我们已经说到,一个完整的AdaLovelace架构AD102核心内部拥有12个GPC,而每个完整的GPC中包含了一个专用的RasterEngine(光栅化引擎),两组ROPs共16个ROP(光栅化处理单元),以及6个TPC与12个SM单元。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32 INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4090拥有128个SM,16384个CUDA核心,那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了,比上一代的RTX3090Ti显卡的40TFLOPS,还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,这样RTX4090显卡中就实现了163MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD102核心是96MB二级缓存,而RTX4090显卡拥有72MB二级缓存,也可能是因此AdaLovelace架构核心对显存位宽的依赖性并不高。

技术讲解:第三代RT Cores与第四代Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。

在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形 位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。

8DLSS 3技术讲解

技术讲解:DLSS 3

或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。

https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4

之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。

在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。

从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点:NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。

但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。

9双NVIDIA编码器技术讲解

技术讲解:双NVIDIA编码器(NVENC)

GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。