MCPLive > 杂志文章 > NVIDIA Maxwell发布前夜猜想

NVIDIA Maxwell发布前夜猜想

2014-03-31张平《微型计算机》2014年2月下

近,有关NVIDIA下一代显卡Maxwell的消息越来越多了,首当其冲的就是GM107等GPU的规格和性能。和Kepler发布节奏类似的是,Maxwell也基本确定是首发小核心产品,大核心产品后期发布。那么,Maxwell在架构上究竟有什么改善呢?相比Kepler的进步在哪里?请看本文综合业内消息给出的分析和猜想吧。

NVIDIA Maxwell发布前夜猜想

近关于GPU热闹的新闻莫过于NVIDIA即将发布全新一代Maxwell显卡了。NVIDIA自从在2012年发布了Kepler家族产品后,在将近两年的时间内产品架构都没有实质性的更新了。这一次,NVIDIA在Maxwell芯片上将为用户带来一个全新的架构。在产品发布之前,用户关心的问题莫过于:新架构的优势在哪里?能给用户带来什么样的体验呢?虽然答案在NVIDIA没有彻底解禁Maxwell之前,谁都不可能彻底知晓。但是从目前业界发展趋势、晶体管制造工艺发展情况以及NVIDIA对产品的规划来看,还是可以推测出不少的信息。尤其是目前处于Maxwell发布前夜,很多产品信息都已经在网上泄漏,因此对Maxwell新品的分析就更为有的放矢了。

好了,本文将采用问答的方式,就Maxwell的发布时间、产品情况、架构改进和性能目标等诸多内容做出分析。不过由于是预测性质的内容,出现错误和偏差肯定无法避免,一切还得等产品正式上市后才能彻底清晰。

问题一:Maxwell什么时候发布?

Maxwell的发布时间目前依旧不够明确,预计会是在年后2月中下旬。但可以明确的是:发布时间很可能就在近,甚至在看到这篇文章时,Maxwell已经发布并上市也有可能。

NVIDIA在进入了统一渲染架构时代后,对产品发展节奏的控制曾经有过多次尝试和探索。就像英特尔一年一代的Tick-Tock那样,NVIDIA也逐渐形成了自己的产品发布节奏,那就是:两年一次大的架构换代,两次架构换代之间的一年主要以优化改进、型号升级为主。比如Fermi时代GTX 480的GF100算是架构换代的例子,而随后的GTX 580的GF110则是优化改进、型号升级。两年后的2012年的GTX 680、GTX 670、GTX 660以及GTX 650等Kepler家族产品都已齐备,这就是整体架构换代,2013年的GK110以及GTX 780的上市、GTX 770等产品的推出则是优化更新。

从Kepler发布到现在已经两年了,Maxwell无论怎么说也应该出来了,至少AMD已经从Tahiti升级到了Hawaii,GCN架构也有了更新。NVIDIA虽然依靠Kepler家族依旧应对有余,但是GPU发展以及更多新特性的需求使得Maxwell不得不出现,毕竟GPU市场虽然只在两家公司之间竞争,但是如果NVIDIA打一下瞌睡,还是有可能被对手轻松反超的。

问题二:Maxwell为什么还是28nm的产品?

根据目前的爆料来看,Maxwell依旧采用28nm工艺打造。这是因为目前台积电TSMC的主流工艺还是28nm,20nm工艺也只是在2014年第一季度才能开始进入大规模量产而已。考虑到NVIDIA可能早在2013年中期就将Maxwell的相关产品交给TSMC流片试产,那个时候NVIDIA是无论如何都不可能超越时间选择到20nm工艺的。因此可以断定的是,NVIDIA还将使用TSMC的28nm工艺来生产目前的Maxwell。只不过目前曝光的Maxwell从编号上来看明显都是小核心的产品——诸如GM107或者GM117这样的。

为什么首先曝光的是小核心产品呢?答案很明显,20nm就算已经开始量产,但其良率和稳定性肯定无法用于GPU这样复杂的芯片。使用成熟的28nm生产Maxwell的小芯片,良率上更有保证。

那么,接下来的Maxwell中等核心和大核心产品会使用什么样的工艺呢?从TSMC的规划来看,20nm的芯片可能要在2014年第一季度开始大规模量产。如果预期良好的话,难度较小的GPU小芯片可能在2014年3~4月使用20nm工艺进行大规模生产,发布的话可能会拖延到2014年中期。这样一来,新的Maxwell如果使用20nm肯定赶不上2014年初的发布计划了。如果是大型芯片的话,可能要到2015年初(参考GK110,差不多使用了快一年时间才解决大规模量产的问题),20nm工艺才能解决生产的问题了,等得实在是太久了。

网上报料的Maxwell架构的GeForce GTX 750Ti的GPU-Z图片,从中能看出不少有用的信息。
网上报料的Maxwell架构的GeForce GTX 750Ti的GPU-Z图片,从中能看出不少有用的信息。

AMD在2011年底就发布了Tahiti,又在2013年发布了Hawaii,虽然性能不是强的,但也算出过新品了。图为Hawaii核心。
AMD在2011年底就发布了Tahiti,又在2013年发布了Hawaii,虽然性能不是强的,但也算出过新品了。图为Hawaii核心。

20nm工艺升级的费用对比28nm工艺,贵了不是一点半点。
20nm工艺升级的费用对比28nm工艺,贵了不是一点半点。

这应该是两张源于NVIDIA内部的PPT,说明了NVIDIA对20nm工艺的态度其实并不乐观。
这应该是两张源于NVIDIA内部的PPT,说明了NVIDIA对20nm工艺的态度其实并不乐观。

 这应该是两张源于NVIDIA内部的PPT,说明了NVIDIA对20nm工艺的态度其实并不乐观。
这应该是两张源于NVIDIA内部的PPT,说明了NVIDIA对20nm工艺的态度其实并不乐观。

目前泄露的GTX 750 Ti运行3DMark系列软件的成绩。综合其他显卡的测试成绩来看,GTX 750Ti比GTX 650Ti性能应该略高,基本和AMD R7 260X持平。

目前泄露的GTX 750 Ti运行3DMark系列软件的成绩。综合其他显卡的测试成绩来看,GTX 750Ti比GTX 650Ti性能应该略高,基本和AMD R7 260X持平。
目前泄露的GTX 750 Ti运行3DMark系列软件的成绩。综合其他显卡的测试成绩来看,GTX 750Ti比GTX 650Ti性能应该略高,基本和AMD R7 260X持平。

这里又出现一个问题。20nm的意义究竟有多大?之前在国外媒体对AMD的访问中,询问AMD是否考虑TSMC的20nm工艺来生产全新的H awaii以及未来全新系列的芯片时,AMD回答的大意是出于经济性的考虑,相关产品短期内是不会升级到20nm工艺的。仔细分析一下,AMD的回答基于两个方面的考虑:

一方面,20nm成本相比28nm实在是太贵,再加上不可预计的风险,AMD不太会考虑迅速转换至新工艺。在这一点上,根据国外有关电子企业的估计,20nm的转换过程,需要投资总金额高达70~117亿美元。而之前28nm只需要45亿美元左右,这些成本后还是转嫁给AMD、NVIDIA这样的芯片用户的。

另一方面,20nm本身相对28nm改进不大。根据NVIDIA官方的资料,20nm相对28nm在终成本的降低上并没有什么明显的优势。升级到20nm后,制造成本的上升甚至会对冲掉由于芯片面积降低而带来的成本降低。或者说由于工艺问题,20nm对晶体管尺寸的降低和芯片面积的缩小显得不够明显。再加上目前28nm工艺还是有潜力可挖的,因此AMD和NVIDIA终都没有选择20nm,而是继续在28nm工艺上改进产品。

经过分析,短期内20nm的GPU似乎没有希望了。下一个问题是,未来AMD和NVIDIA是否要进入20nm时代呢?答案似乎也是否定的。因为根据TSMC的规划,20nm的寿命只有差不多一年左右的时间。也就是说2015年的第一季度,真正的全代工艺、彻底革新的16nm FinFTE就将正式投产。相比20nm,16nm FinFTE(也就是传说的3D晶体管)才能算得上是真正的革命性改变。目前TSMC宣称自己16nm研发生产进展十分顺利,甚至会面向不同的用户提供不同类型的产品。考虑到16nm对晶体管体积和芯片面积缩小十分明显、鳍状栅极技术对晶体管性能的改进极为显著,16nm还是相当值得期待的。结合前文的分析,如果NVIDIA现在使用20nm生产中等核心和大核心的Maxwell产品,发布时间甚至会拖延到2015年。如果是这样,那还不如干脆等着TSMC 2015年16nm产品上市后直接用16nm工艺生产就行了。

问题三:Maxwell现在曝光的产品什么样?

根据目前曝光的产品参数来看,GM107拥有960个流处理单元,频率大约在1GHz左右,搭配128bit GDDR5显存颗粒,被称作GeForce GTX 750 Ti。另一款GeForce GTX 750的信息参数不是很明确,流处理器数量可能是768个,但是也有消息说是384个。考虑一下目前GK107的GTX 650的规格,GTX 750的流处理器数量不太可能是384个,768个更有可能一些。而384个流处理器的GM107则很可能是接替更为低端的诸如GT 630这样的产品的。

除了规格曝光外,还有一些信息是有关Maxwell的性能的。曝光消息指出,GTX 750Ti的性能要略弱于GTX 650Ti Boost,但是胜出GTX 650Ti,和AMD的R7 260X性能相当。综合规格和性能来看,960个流处理单元的GTX 750Ti性能甚至要比768个流处理器的GTX 650Ti Boost性能略差,可见128bit显存位宽导致的较低的显存带宽对GPU性能的制约还是相当明显的。只是目前不清楚GTX 750Ti是否原生就是128bit的,如果是的话(很大可能),那么显然这颗核心的确就是一个全新的、面向中低端市场的核心。

比较遗憾的是尚不能清楚知道GTX 750T i的核心面积。在假设Kepler和Maxwell的GPU架构没有革命性改变的情况下,可以从GK106的角度来推测:GK106的核心面积是214平方毫米,GK107的核心面积是130平方毫米,前者有3个显存控制器、5个SMX;后者有2个显存控制器、2个SMX。也就是说,1个显存控制器搭配3个SMX的核心面积大约是84平方毫米。如果GM107是2个显存控制器(对应128bit),5个SMX的话(对应960个流处理单元),再考虑各种周边辅助组件等,GM107的核心面积应该在160平方毫米左右。

当然,这只是一个计算上的推测。如果Maxwell的核心架构设计发生大幅度变化,那么这样的推测就算终结果比较接近,但还是失去了应有的意义。毕竟作为入门级产品来说,核心面积超过200平方毫米是非常令人难以接受的,好将其控制在150平方毫米以内,才能以廉价产品的身份出现在市场上。

接下来,按照NVIDIA的惯例来推测,NVIDIA随后还会推出定位从中端到高端的GM106、GM104以及GM100等产品。不过这些产品消息更为稀少,因此暂时没有办法有任何的猜测了。另外,令人感兴趣的一点是,有关GM100(或者类似定位的大芯片),是否依旧需要使用28nm来生产呢?毕竟GK110的核心面积已经达到了530平方毫米。虽然NVIDIA有超越600平方毫米的GT200的例子在前,但在28nm时代,还需要一颗如此巨大的核心吗?这个疑问,只有等到未来产品曝光才能解答了。

GM107的核心面积依旧是个谜,如果控制在150平方毫米以内的话,那就非常不错了。图为130平方毫米的GK107核心。
GM107的核心面积依旧是个谜,如果控制在150平方毫米以内的话,那就非常不错了。图为130平方毫米的GK107核心。

NVIDIA发布会上CEO黄仁勋展示的NVIDIA未来发展的路线图
NVIDIA发布会上CEO黄仁勋展示的NVIDIA未来发展的路线图

问题四:Maxwell的架构改进方向是什么?

在产品发布之前,有关Maxwell的架构消息其实非常稀少,唯一知道的就是NVIDIA官方公布的有关每瓦特双精度性能的图片了。

在这张图中,Kepler的每瓦特双精度性能大约在6的位置,Maxwell大约在10的位置,也就是说Max well的目标性能功耗比要比Kepler提升60%左右。为了达到这个目标,可以从两个角度来观察之前的GPU发展是如何做到性能提升的,然后再总结有关Maxwell的情况。首先来看工艺。GPU的性能基本上是随着晶体管数量增加而不断增加的,晶体管数量又受限于当时工艺制程的发展情况——也就是说工艺决定了GPU的性能。当然不惜成本的话,GPU可以做得很大,不过这并不是本文关注的目标。在Maxwell上,工艺这一招可能不灵了。由于前文解释的原因,20nm难堪大用,甚至恶劣的情况是Maxwell这一代都要继续使用28n m工艺,直到后期16nm工艺成熟后推出改进版本。先来看恶劣的情况——Maxwell只能使用28nm,16nm制程不够顺、利良率过低导致迟迟不能生产,这样一来NVIDIA的操作空间就很有限了。在NVIDIA手中,Maxwell大核心产品的芯片面积上限大约在600平方毫米以内,现在已经是533平方毫米了(Kepler),还有大约13%的上升空间,这显然达不到60%的目标。除了恶劣的情况外,还有一种比较好的情况,那就是NVIDIA顺利在28nm上生产了GM107、GM106、GM104后,到了2015年如果16nm FinFTE的Maxwell顺利投产的话,16nm大约能让同等芯片的线宽多缩减至28nm的一半。这样一来,一颗500平方毫米的芯片在采用16nm工艺后,芯片面积可能缩减至300平方毫米。300平方毫米的面积,上升空间就大多了,如果继续扩充芯片规模,这样60%的性能提升还是可以轻松达到的。

工艺看完了,再来看架构。相比工艺而言,由于现代GPU的架构设计已经非常成熟。诸如GeForce FX这样的大失误NVIDIA应该不会再犯,因此架构改进能带来的性能提升都是非常有限的。那么,NVIDIA Maxwell还有什么架构改进的空间吗?

回顾一下NVIDIA进入统一渲染时代后,G80直到Fermi,可以算作一个节点。在这些产品中,每一个CUDA Core都非常庞大,以Fermi的CUDA Core为例,其中不但包含了整数处理单元、浮点处理单元,甚至还包含了指令模块诸如指令分发、操作数控制、结果排序等组件。这样多个模块被放置在一个CUDACore中,实际计算模块中提供计算能力的晶体管的比例就不会很高,容易导致计算效能较低。因此从G80到Fermi,NVIDIA都在采用分频(也就是流处理器频率高于GPU频率)的方法来提高效能。

史上大核心65nm版本的GT200封装,NVIDIA首次触碰到了600平方毫米的“红线”。从此之后数代,NVIDIA都尽量将G PU面积控制在550平方毫米以下。
史上大核心65nm版本的GT200封装,NVIDIA首次触碰到了600平方毫米的“红线”。从此之后数代,NVIDIA都尽量将G PU面积控制在550平方毫米以下。

Kepler的GK110架构图,CUDACore内部结构图没有展示,但这一代作为单纯的计算单元的CUDA Core的内部结构也的确没什么好展示的。
Kepler的GK110架构图,CUDACore内部结构图没有展示,但这一代作为单纯的计算单元的CUDA Core的内部结构也的确没什么好展示的。

但是到了Kepler架构后,NVIDIA采用了SIMD阵列来加强效率。简单来说,CUDA Core就是纯粹的计算核心,无论是整数还是浮点计算,都交由SIMD阵列来完成。每一个SIMD阵列里面的计算单元,被称作CUDA Core。这相对之前Fermi的CUDA Core来说,计算单元体积小了不少,数量也多了不少,性能也高了不少——毕竟没有如此多的指令模块,也不分整数和浮点分别计算,统一计算后流处理器工作性能更高。

那Maxwell又是怎样的呢?从GM107来看,流处理器的数量被进一步加多到了960个。如果GM107的芯片面积相比之前的GK107没有大幅度增加的话,那么NVIDIA可能采用一些手段来继续加强计算模块,使得核心中用于计算的单元比例更高,性能自然会提升。这就是架构上的大幅度调整,性能增长的首要来源是架构改进。如果GM107相比GK107在核心面积和流处理器数量呈明显相关的关系的话,那GM107就很就可能是NVIDIA对Kepler架构进行了一些小调整后使用的更大的一颗核心而已。这依然包含了架构调整的内容,但是性能增加的首要来源就是晶体管规模的增大而并非架构了。

总的来看,在工艺制程无法提升的情况下,目前的Maxwell将是NVIDIA展示自己在架构设计、产品优化上深厚功底的机会。毕竟依靠工艺、提升晶体管数量得来的性能提升不算太难,但是在工艺无法进步、产品面积严格受限的情况下,架构设计就成为决定性的因素了。AMD已经展示了在28nm工艺下Hawaii所使用的GCN架构,实际上只是单纯地扩大了晶体管规模,没有做出核心架构的重大调整。那么,在Maxwell上,NVIDIA能否带来新的进展呢?我们拭目以待。

分享到:

用户评论

用户名:

密码: