腾讯云星星海好用吗(海星云没有腾讯游戏)-枫舟驿站

本文目录：

1、腾讯2020年净利润1227亿，它为中国崛起贡献了什么？
2、国内vps服务商有哪些?
3、腾讯云服务器和阿里云服务器的区别是什么？
4、韩天堂一在线人数怎么查，2020年的/who查不了？
5、把人脑智能化后，能再创造出更强的人工智能吗？
6、AMD EPYC的模块化和NUMA之路

腾讯2020年净利润1227亿，它为中国崛起贡献了什么？

腾讯的很多游戏产品在海外取得了很好的成绩，对于海外游戏玩家来说，这也是一种传播中国文化的一种方式。媒体报道，腾讯公司日前公布了其去年全年的财报，腾讯的净利润实现了1227亿元人民币，与同期相比，增加了三成以上。其中游戏业务依然是公司主要的利润来源，2020年腾讯游戏业务的增长超过了35%，达到了1560亿的营收，其推出的《王者荣耀》连续两年蝉联国内手游的排行榜的第一名，而推出的《PUBG Mobile 》则成为了去年全球最受欢迎的手机游戏。

这些年，腾讯游戏的出海计划取得了很好的效果，目前游戏业务25%的收入是来源于海外市场，未来这个数字还会进一步增长。而在国内无论是王者荣耀还是和平精英，都牢牢占据着榜单的第一名，游戏巨头的位置无人可以撼动。

此外，这些年，腾讯的企业业务也获得了飞速的发展，例如去年推出的“腾讯会议”很好的满足大家远程办公的需求，此外在腾讯云服务方面，也是紧张迅速，享受腾讯云服务的公司越来越多了。

参考资料：

我们投入于IaaS技术，包括‘星星海’定制化云服务器解决方案及自研的数据中心技术‘T-block’，以提升我们云服务的表现及成本效益。我们开发了新一代星星海SA3 服务器，采用最新的AMD霄龙处理器，提升了人工智能、安全、存储及网络能力，更加节能。

SaaS产品方面，‘腾讯会议’成为中国最大规模的独立云会议应用，最近发布的企业版腾讯会议在能源、医疗及教育行业提升了渗透率；我们推出全新的会议室解决方案‘腾讯会议Rooms’和‘会议室连接器’，能够与客户现有的音视频设备兼容，提供高质量的互动通信体验。企业微信已经成为远程办公不可或缺的通信工具，目前服务超过550万企业客户，使其实现更好的内部沟通，并与超过4亿微信用户连接。

国内vps服务商有哪些?

国内排名前三的云服务厂商分别是阿里云、腾讯云、华为云，你可以根据自己需求选择，如果只是

中小型网站可以选择华为云的鲲鹏服务器（ARM架构），价格比X86的便宜不少，也能满足大部分

需求（如果你要部署的服务是开源的都能满足）。

或者腾讯云的AMD服务器也不错，下面我也推荐

了一些其他的。

稳定性最好应该是阿里云吧，国内第一，而且每年都会经历双十一的流量冲击，国内最早做云计算

的也是阿里云，应该积累了不少经验，其次是腾讯云。

华为云主要用户是政企，应该也不错。

提醒一下：如果你是新用户有优惠价，能买多长时间就买多长时间，因为优惠价的服务器到期后续

费很贵的，而且新用户优惠只能买一次，所以尽量买长时间点划算。

费用

华为云，学生机1H1G1M，9元/月，2H4G1M，18元/月，24岁以下免学生认证；1H2G1M，

281元/年(相当于23元/月)；；2H4G5M，499元/年(相当于41元/月)；香港1H1G1M，37元/

月。

阿里云每日秒杀，1H2G1M，102元/年（相当于8.5元/月）；1H2G5M，448元/年（相当于37

元/月）；2H4G1~10M，699元/年（相当于58元/月）。

阿里云新用户，1H2G1M，102元/年，送对象存储和云数据库。

阿里云轻量应用服务器，香港/新加坡1H1G30M，24元/月

腾讯云星星海(AMD服务器)，1H2G1M，99元/年(相当于8.25元/月)。（实测性能比Intel的强

很多）

腾讯云双十一活动，1核2G1M，88元/年(约7.3元/月)；2核4G3M，698元/3年(约19元/月)。

滴滴云，1H2G1M，88元/年（相当于7.3元/月）；8H16G5M，868元/年（相当于72元/

月）。

金山云新用户：1H2G1M，88.8元/年（相当于7.4元/月）；2H4G5M，288元/年（相当于24

元/月）；4H8G5M，1144元/年。

滴滴云，1H2G1M，88元/年（相当于7.3元/月）；8H16G5M，868元/年（相当于72元/

月）。

腾讯云岁末回馈，2H4G6M，488元/3年(约13元/月)；4H8G8M，1788元/3年(约49元/月)。

腾讯云服务器和阿里云服务器的区别是什么？

腾讯云服务器和阿里云服务器的区别是：

腾讯与阿里都在发力布局云市场，技术与资金投入方面都很巨大，在稳定性、安全性、速度、服务方面不分伯仲，相比之后总结了腾讯云的优势：

1、价格：相同的配置，腾讯云的价格相对更便宜；

2、扶持优惠：腾讯云针对个人用户有认证送50代金券、限时3折抢购等活动，针对企业用户有认证送300代金券、最高百万扶持等活动，针对创业者提供半年免费云服务、价值50万应用宝流量等活动，针对公益组织提供免费云服务等活动；

3、运营推广：游戏、移动应用等领域客户可以享受腾讯开放平台、应用宝、QQ空间、广点通、玩吧、米大师等亿级流量平台的推广支持；

4、安全认证：腾讯云提供安全认证，安全认证通过后，可获得专属腾讯云认证，覆盖腾讯数亿用户，发到QQ消息窗口就有个绿色的勾勾，给您最权威的认证展示。

韩天堂一在线人数怎么查，2020年的/who查不了？

韩天堂一在线人数怎么查，2020年的/who查不了？展开关键词

首页

专栏

问答

沙龙

团队主页

开发者手册

智能钛AI

腾讯云大学

TVP

返回腾讯云官网

首页关键词网络游戏在线人数查询

网络游戏在线人数查询

把人脑智能化后，能再创造出更强的人工智能吗？

近日，埃隆·马斯克投资1 亿多美元的脑机接口初创公司Neuralink在现场发布会展示了新一代的脑机接口设备。

脑机接口是什么？可能这个名词在我们日常生活中是不常见的。脑机接口是最前沿的研究领域，建立人（或动物）与外部的设备进行信息传输的通路，实现人类意识的实时传输。还利用机器学习技术奖脑电波信号与其对应的动作反应建立映射关系，让人类意识在机器上得以翻译。

说人话就是：接入脑机之后，你大脑信号发出的时候就实时发送到电脑上并翻译出来，且可以指导机器完成指令。

这款新产品体积大约指甲大小，拥有 1024 个信道，能读取人脑的大量信息，预计对于包括记忆力丧失、焦虑、脑损伤、抑郁症等疾病将会有比较明显的效果。

马斯克表示，Nerulink脑机产品手术的过程不需要全身麻醉，植入时给人头上钻孔直径只有一英寸，缝起来时也让人毫无感知。对于人脑的损伤会大大降低。只安装一个芯片来替换人类头骨的一小部分，如果做得好，不会有任何血迹。这意味着接入脑机对人脑的损害性更低。

值得一提的是，Neuralink的创立缘于马斯克对人工智能飞速发展的忧虑，马斯克担心人工智能无限度的发展会很大程度上抑制人类自己的智能。但想要完全限制人工智能的发展是不现实的，因此他给出的解决方案是：开发可植入脑的脑机接口，在人工智能全面超越人类之前，让二者融合为一体，在人的大脑皮层在增加一层 AI 数字层，通过接口让人类和计算机相连，与云端无线链接，让人类自己变成智能。

人脑智能化，有望催生更多应用场景及技术发展

脑机接口技术原则上可以修复绝大多数大脑问题，比如治疗老年痴呆症、残疾人恢复肢体语言、为植物人传达意识等等，也就是使用人工装置（假体）帮助恢复听觉、视觉和运动能力，主要用于神经系统医疗领域，不过目前这一技术还处于试验和探索阶段。

虽然该技术暂时只用于医疗领域，但也有人担心，脑机接口是否可以”读心“？隐私问题如何保障？如果通过脑机接口向人脑输入信号，这个人的意识是否会被操纵？

实际上，目前脑电图（EEG）也可以算作一种非接触的脑机接口，脑电图“读出来”的只是一堆曲线罢了，和我们去医院照 B 超或者照 CT 的出来的图像基本是同一个含义。或许有朝一日真的能把它们”翻译“成我们能读懂的内容，但这一天还不知何时到来，更别提”心灵控制“这样的难度了。

尽管如此，脑机接口技术仍然是得到了值得为之兴奋的进展。脑机接口技术可以改善大脑运行（只是改善），让人可以时刻保持满格「电量」，思维敏捷、注意力集中，学习速度翻好几倍；还可以通过复制大脑海马体记忆密码，通过芯片植入另外的大脑，实现记忆移植，短时间内拥有大量知识和技能。

目前这个能力已经在猴子的身上取得成功，至于应用在人类身上会是哪一天，还不得而知。

但我们也可以大胆设想，在医疗范畴以外，人脑得到机器的赋能后，更强大的人脑是否可以创造出更智慧化的应用场景和人工智能技术？

智能赋能场景化的普及正在加速

这并不是天方夜谭，在移动互联网、大数据、人工智能等技术加速发展的今天，许多新的应用场景颠覆了原有的持续了几十年的人类活动习惯，从线下购买到手机下单、从手机通话到视频通话、从人类劳动到机器替代等等，人们的生活习惯不断智能化和智慧化。往前回溯20年，没有所谓的移动支付，外卖业没有发展起来，也不可能在网上买菜，有多少人敢想象未来能足不出户几个月也能活下去？

同样，目前人工智能技术的发展也正颠覆着人们的想象。如今年的疫情期间，送药机器人、问诊机器人让医护人员大大减少了病毒接触的频率，各种无人机巡逻、无人机消毒也作出了相当杰出的贡献。人工智能逐渐走进人们视线，走进现代化产业中。

在技术爆炸的时代里，人工智能是如何跋山涉水、越过山丘到达实打实的应用场景上？人工智能技术到底还有多少种可能性？人工智能技术如何布局，才能真正创造价值？

数字经济浪潮之下，人工智能成为不可或缺的「基石」

回顾过去，人工智能领域的许多进展或许还未被大众认可，但在今年的疫情中，人工智能发挥的不可替代的作用，让各地政府与企业看到了人工智能技术的赋能效用。今年 3 月 4 日，我国明确指出要加快推进包括5G 网络、人工智能、数据中心等新型基础设施建设进度。显而易见，在数字经济的浪潮下，AI 早已不再是“锦上添花”，而是不可或缺的“增长基石”。

在 2020 腾讯全球数字生态大会 AI 专场上，腾讯AI Lab与Robotics X主任张正友、腾讯优图实验室副总经理黄飞跃、中科院计算所研究员博导/万人计划领军人才山世光、独立艺术家AI影片《老北京100年影片修复》作者大谷、腾讯智能平台产品副总裁李学朝、腾讯云AI计算机视觉产品中心总经理王磊、新智元创始人兼CEO、中国人工智能产业发展联盟理事杨静、线性资本CEO创始人、2018年世界经济论坛“全球青年领袖”获得者王淮等重磅嘉宾，将深入解读人工智能在各个领域和场景下的新进展、新价值、新探索，为你一一呈现AI领域丰富的技术应用案例与切实的产业落地价值。

37 个专场论坛，全方位了解数字经济及智慧化未来

大会共设立 37 个专场论坛，覆盖了产业、技术、生态等多个板块，由各领域行业领袖及科学家参与分享。包括最热门的未来经济峰会、微信专场、AI 专场、智慧医疗、5G 专场及合作伙伴专场等。

如智慧医疗专场，设置了大家非常关心的《基于医疗大数据的疾病预测》、《基于医疗大数据的疾病预测》等热门话题，专场中还将发布《科技向善·智享医保——智慧医疗保障蓝皮书》。智慧医疗专场将与大家一同探索医疗科技创新、智享医疗便民服务、实践三医智慧联动、生态开放联合共赢，致力共筑智慧医疗共同体。

不仅如此，本次大会还分为「云上会」和「云上展」两大板块：

根据活动方透露，在这些专场上还将发布最新业务战略，分享标杆案例实践，为参会者带来行业最佳实践案例与发展方向。大会首次移师云上，共邀请到 400 多名国际知名经济学家、行业领军人物、技术大咖齐聚，共同探讨新时期数字经济发展新趋势及其对经济社会发展的助推作用，分享各行业数字化转型的最佳实践，为社会治理与产业升级提供“数字优先”的最佳路径参考。腾讯产业互联网各业务板块负责人也将联袂出席，对外发布和解读腾讯产业互联网年度战略。

值得一提的是，腾讯全球生态数字大会上还准备了非常丰富的礼品，星星海、MySQL、CynosDB、数据万象 CI 等品牌产品超低直播价秒杀、在线互动课堂等你来 Pick！

数字化是经济社会发展的必选项也是最优解

在全球技术飞速发展的当下，经济社会发展的下一步已经十分明朗，数字化不仅是经济社会发展的必选项，也是最优解。无论是人工智能等前沿技术还是传统商业智慧化，都绕不过「数字先行」的一步。

在时代的浪潮推动下，如何更好地抓住时代发展带来的机会和挑战，是摆在所有人面前的考题。 9 月 9 日~11 日，2020 年腾讯全球数字生态大会，与你共话数字化风云。

或点击

立即报名「腾讯全球数字生态大会」

AMD EPYC的模块化和NUMA之路

看起来似乎有强行把芯片设计和数据中心建设拉到一起尬聊的感觉，但世间也没有那么多的一见如故，一些有意义的讨论未尝不是从尬聊开始的。

就我个人而言，今年已经多次在关于数据中心的文章和（线上）分享中提到AMD：“从1月29日开始到2月6日，腾讯会议每天都在进行资源扩容，日均扩容云主机接近1.5万台，8天总共扩容超过10万台云主机，共涉及超百万核的计算资源投入，全部由腾讯云自研的服务器星星海提供支撑。”这款服务器基于AMD去年8月发布的代号Rome（罗马）的第二代EPYC处理器，最大的特点就是核多——双路配置再算上超线程，一台采用腾讯云定制版EPYC处理器的星星海服务器可以为云服务器提供多达180个核——也就是说，这100万核服务器资源，“只”需要不到6000台该款自研服务器即可满足。

腾讯云星星海SA2服务器采用2U高度结合类似远程散热片（remote heat-sink）的设计，配合6个60mm风扇，据称可以支持2个300W级别的CPU（AMD第二代EPYC处理器公开版本最高TDP为280W）

实际上，官方名称为AMD EPYC 7002系列的第二代EPYC处理器最多能提供64个核芯、128个线程，腾讯云定制版本选择了48核芯（96线程）而已。至少在CPU的核数（core count）上，AMD给Intel（英特尔，昵称“大英”）造成了很大的压力。上个月英特尔发布了代号为Cooper Lake的第三代至强可扩展处理器（Xeon Scalable Processor，XSP），主打四路和八路市场，四路配置可提供112核芯224线程，核数上堪与双路EPYC 7002系列抗衡，为10nm制程的Ice Lake争取时间。

摩尔定律难以延续的后果就是CPU的功耗持续攀升，第一代至强可扩展处理器（公开版）里TDP最高的205W，到第三代已是寻常，250W算是克制——毕竟要考虑四路的散热需求

话说上一次AMD搞得大英如此狼狈，还要追溯到本世纪初的64位路线之争。众所周知，英特尔是x86及其生态（特别是软件生态）的缔造者，属于“亲妈”级别，AMD充其量是个“后妈”。但是，x86几十年的发展史证明，“亲妈”未必就比“后妈”更了解孩子的发展潜力。也可以前一阵大火的剧集《隐秘的角落》为例，看完就会发现，对于朱朝阳的隐藏能力，后妈的认知似乎先于亲妈。

Cooper Lake：你看我还有机会吗？

简单的说，Intel建立发展x86生态，AMD坚定捍卫x86路线——不断改造作为生态核心的x86处理器，焕颜新生

盛衰无常：架构与制程的双簧

虽然已经在过去十年中逐渐沦为爱好者口中的“牙膏厂”，但在历史上，英特尔一直不乏创新精神。对待x86的态度可以算是这种精神的一个体现，起码在进入64位时代之前，英特尔其实不太瞧得上x86，总觉得这个娃太low——可能是亲妈更了解孕育过程中的种种先天不足吧——几次三番地在重大的转折点，想要“与时俱进”，重起炉灶，带给用户“船新体验”。反而是AMD屡屡在关键时刻出来捍卫x86，通过翻新加盖来维持其生命力。

64位是关键的转折点。上世纪九十年代末，还是32位的x86刚“插足”服务器市场不久，英特尔选择与惠普（HP）联手开发基于IA-64架构的Itanium（安腾）作为接班人，与已经64位了的RISC阵营大佬们对抗。然而，AMD认为x86还可以抢救一下，决定通过64位扩展来“续命”，并在2003年4月发布首款64位x86处理器Opteron，两年后又把x86(-64)带入多核时代。

此时，英特尔已经在IA-64的路上走了十多年。时过境迁，当初设定的目标并没有实现，而x86扩展到64位和多核之后，不仅软件和应用的生态系统得到了完整的继承，性能也完全可以一战。用户用脚投票，大英不得不从。

第二代EPYC处理器发布会上，Google出示2008年7月9日上线的其第100万台服务器的照片，追诉与AMD的革命友情……还是台四路服务器

英特尔痛定思痛，决定用架构和制程构筑双保险，在2007年提出了Tick-Tock（取自于时钟的“嘀-嗒”周期）量产模式，即先通过制程升级将芯片面积缩小，是为Tick；再基于操练纯熟的制程改用新的微架构，是为Tock。当时的英特尔工厂在技术和产能上都占据明显优势，只要架构上回到正轨，左右手组合拳一出，产量受限的AMD哪里支撑得住？在2008年推出Nehalem微架构之后，英特尔终于夺回主动权。

在英特尔施加的强大压力下，AMD在处理器架构上也犯了错误，2011年推出的Bulldozer（推土机）架构采用了即使现在看来也过于激进的模块化设计。随着2012年英特尔开启至强E5时代，AMD在节节失利后不得不退出服务器市场，上一个巅峰期彻底结束。

有道是：福兮祸所依，祸兮福所伏。先贤曾经曰过：纵有架构、制程双保险，奈何CEO是单点。2016年英特尔推出最后一代至强E5/E7（v4），这是英特尔首批采用14nm制程的服务器CPU，同时也宣告了Tick-Tock模式的终结，改用Process–Architecture–Optimization （制程-架构-优化）的三步走模式。

在这个可以简称为PAO的模式里，虽然仍是先制程、后架构的节奏，但新加入的优化不管是针对两者中的哪一个还是兼而有之，都起到了拉长制程换代周期的效果。第三代至强可扩展处理器已经是第四波采用14nm制程的服务器CPU，14nm后面的“+”都数不清楚有几个了——还好预计年底发布的Ice Lake将终止这个“土拨鼠之日”式的制程循环。

架构层面上，从代号Skylake的初代至强可扩展处理器开始，由环形总线改为6×6的2D-mesh，然后持续“优化”。在架构的角度，Mesh和环形总线都属于所谓传统的单片（Monolithic）式架构，优点是整体性好，涉及到I/O的性能比较有保证；缺点是对制程不太友好，随着规模的扩大，譬如核数和Cache的增加，良率上的挑战很大，高端产品的成本下不来，这对于追求高核数的云计算服务提供商显然不是个好消息。

至强E5/E7 v4的四环（2组双向环形总线）与至强SP的6×6 Mesh架构

关键时刻，又是沉寂多年的AMD挺身而出，接盘Tick-Tock，以自己的方式“维护”摩尔定律。

这个方式，就是模块化。

MCM：同构对等模块化的利与弊

先简单回顾一下AMD之前的模块化设计为什么会失败。 Bulldozer架构的模块化设计，建立在AMD对未来应用趋势的不靠谱假设上，即整数（Integer，INT）运算将占据绝对主导地位，结论是增加整数运算单元，减少浮点（Floating Point，FP）运算单元。于是，Bulldozer架构很“鸡贼”的采用了两个（具有完整整数运算单元的）核芯共用一个浮点运算单元的模块化设计，两个模块就可以提供4个核芯（但只有2个浮点运算单元），6核以此类推。

模块化本身并没有错，Intel Nehalem的模块化设计就很成功。Bulldozer错在“拆东墙补西墙”，结果连补强都算不上

不用放马后炮，这也是一个妄揣用意（用户意志）的行为。即使是在AI大行其道的今天，第二代英特尔至强可扩展处理器已经支持INT8加速推理运算，也不能和通常意义上CPU的整数运算划等号。贸然押宝，错了当然怪不得别人。

不难看出，Bulldozer的模块化，与之前Intel Nehalem架构的模块化设计，只限于架构层面，并不是为制程考虑——CPU不论几个模块多少核，都是作为一个整体（die）来制造的，毕竟十年前制程还没到瓶颈。

然而，到了AMD以代号Naples的（第一代）EPYC处理器重返服务器市场的2017年，摩尔定律放缓的迹象已很明显。同样的14nm（可能还没有英特尔的先进）制程，AMD如何以更低的成本提供更多的核芯？

EPYC系列处理器基于AMD的Zen系列架构，从Zen、Zen+到Zen 2，以及规划中的Zen 3的发展路线，有点像前面提到的Tick-Tock：开发一个良好的基础然后交替演进，不断优化。

与先辈们不同，Zen系列的模块化明显侧重于解决制程面对的挑战，即芯片在物理上被切割为多个die（比较小的芯片更容易制造，良率有保证，有利于降低成本），通过Infinity Fabric（IF）互连为一个整体，所以每个die就是一个模块，但不一定是模块化设计的最小单位。

第一代EPYC处理器的4个die及Infinity Fabric示意

还是从初代EPYC处理器所采用的Zen架构说起。Zen确立了该系列计算单元模块化的最小单位CCX（Core Complex，核芯复合体），每个CCX包括4个Zen核芯（Core），以及8 MiB共享L3 Cache，每核芯2 MiB。

从AMD公开的示意图来看，各片（Slice）L3 Cache之间的连接方式像是full-mesh（全网状，即每两个点之间都有直接连接，无需跳转），CCX内部的跨核芯L3 Cache访问是一致的

Zen的CCD里除了2个CCX，还有2个DDR内存控制器（各对应1个内存通道），用于片上（die之间）互连的Infinity Fabric（IF On-Package，IFOP），而CPU之间互连的Infinity Fabric（IF Inter-Socket，IFIS）与对外的PCIe通道是复用的——这个知识点在后面会用到。

芯片层面的模块是CCD（Core Complex Die），包括2个CCX，共8个Core、4 MiB L2 Cache、16 MiB L3 Cache。官方名称为AMD EPYC 7001系列的第一代EPYC处理器只有CCD这一种（die层面的）模块，所以每个CCD除了2个CCX，还有大量I/O接口器件，包括DDR、Infinity Fabric/PCIe控制器，CCX占CCD面积的比例只比一半略多（56%）。

这个多芯片模块（multi-chip module，MCM）架构的代号为Zeppelin（齐柏林），四个这样的“复合型”CCD构成完整的第一代EPYC处理器，最多能提供32核芯、64 MiB L3 Cache，直接减少CCD的数量就会得到面向PC市场的高端（2×CCD）和主流产品（单CCD）。

按照AMD提供的数据：每个die的面积为213mm²（平方毫米），4个die的MCM封装总面积为852mm²，如果要用大型单一芯片来实现，面积可以缩小到777mm²，大约节省10%，但是制造和测试成本要提高约40%，完全32核的收益下降约17%、成本提高约70%。投入产出比当然非常划算，也变相的说出了大英的苦衷——可是，后者为什么还在坚持单片路线呢？

MCM这种完全对称的模块化方案，如果套用到数据中心领域，相当于一个园区，几栋建筑结构和功能完全一样，都包含了机房、变配电、柴发、冷站、办公和接待区域等。好处当然是彼此之间没有硬性依赖，每栋建筑都可以独立作为数据中心使用，照此复制就可成倍扩大规模；缺点是没有其他类型的建筑，而有些功能还是需要专门的建筑集中和分区管理的，譬如人员办公和统一接待……

如果一个数据中心园区只有黄框里这一种建筑（模块）……实际上，加上左边的66KV变电站，这里也只是整个园区的一角

况且，与绝大多数的数据中心园区不同，CPU对各模块之间的耦合度要求高得多，否则无法作为一个整体来运作，分工合作快速完成数据处理等任务。而这，正是MCM方案的局限性所在。

第一代EPYC的每个CCD都有“自己的”内存和I/O（主要是PCIe）通道，加上CCD之间的互连，每个CCD的外部I/O都很“重度”

多芯片（对称）设计、全“分布式”架构的特点是内存和I/O扩展能力与CCD数量同步，随着核芯数量的增加，内存和I/O的总“容量”（包括带宽）会增加，这当然是优点，但缺点也随之而来：

首先是局部性（locality）会降低I/O的性能，主要是跨CCD的内存访问时延（latency）明显上升。因为每组（2个）CCX都有自己的本地内存，如果要访问其他CCD上连接的内存，要额外花费很多时间，即所谓的NUMA（Non-Uniform Memory Access，非一致性内存访问）。虽然Zen的CCD上有足够多的IFOP，让4个CCD之间能组成全连接（full-mesh），无需经其他CCD跳转（类似于CCX内4个核芯之间的状况），但I/O路径毕竟变长了；如果要访问其他CPU（插槽）连接的内存，还要经过IFIS，时延会进一步上升。

CCD里的两个CCX也通过Infinity Fabric连接，同样会增加跨CCX的Cache访问时延

根据AMD提供的数据，不同内存访问的时延水平大致如下：

随着访问路径变长和复杂，时延以大约一半的比例增加，这个幅度还是很明显的。

同一个CCD里的内存访问没有明显差异，而跨CCD的内存访问，时延增加就很明显了

然后是PCIe，前面已经有图说明，Zen用于CPU之间互连的IFIS与PCIe通道是复用的，即单路（单CPU）的情况下全都用于PCIe通道，共有128个；双路（双CPU）的情况下每个CPU都要拿出一半来作为（两者之间的）IFIS，所以（对外的）PCIe通道数量仍然是128个，没有随着CPU数量的增加而增长。

简单归纳一下，Zen架构的问题是：核数越多，内存访问的一致性越差；CPU数量增加，外部I/O的扩展能力不变——NUMA引发的跨CPU访问时延增长问题还更严重。

单CPU就能提供128个PCIe 3.0通道原本是第一代EPYC处理器的一大优势，但双CPU仍然是这么多，就略显尴尬了

核数进一步增加的困难很大，不论是增加每个CCD的核数，还是增加CCD的数量，都要面临互连的复杂度问题，也会进一步恶化一致性。

说得更直白一些，就是Zen架构的扩展能力比较有限，难以支持更大的规模。

既然双路配置有利有弊，AMD又是时隔多年重返服务器市场，单路一度被认为是EPYC的突破口，譬如戴尔（Dell）在2018年初推出三款基于第一代EPYC的PowerEdge服务器，其中就有两款是单路。

1U的R6415和2U的R7415都是单路服务器

类似的情况在通常用不到那么多核及I/O扩展能力的PC市场体现得更为明显，在只需要一到两个CCD即可的情况下，消费者更多感受到的是低成本带来的高性价比，所以“AMD Yes!”的鼓噪主要来自个人用户，服务器市场在等待EPYC的进一步成熟。

只有1个die的Ryzen将Zen架构的缺点最小化，获得个人用户的喜爱也就不足为奇了

Chiplet：异构混合模块化的是与非

时隔两年之后，AMD推出基于Zen 2架构的第二代EPYC处理器，通过架构与制程一体优化，达到最高64核、256 MiB L3 Cache，分别是第一代EPYC的2倍和4倍，内存访问一致性和双路的扩展性也有不同程度的改善，终于获得了一众云服务提供商（CSP）的青睐。

Zen 2的整体设计思维是Zen的延续，但做了很多明显的改进，配合制程（部分）升级到7nm，突破了Zen和Zen+在规模扩展上的限制。

首先，Zen2架构延续了Zen/Zen+架构每个CCD有2个CCX、每个CCX有4个核芯共享L3 Cache的布局，但是每个核芯的L3 Cache增大一倍，来到4MiB，每个CCX有16 MiB L3 Cache，是Zen/Zen+架构的两倍。

CCD层面的主要变化是把DDR内存、对外的Infinity Fabric（IFOP/IFIS）和PCIe控制器等I/O器件剥离，以便于升级到7nm制程。AMD表示，第一代EPYC中，上述I/O器件占CCD芯片面积的比例达到44%，从制程提高到7nm中获益很小；而第二代EPYC的7nm CCD中，CPU和L3 Cache这些核心计算、存储器件的占比，高达86%，具有很好的经济性。

被从CCD中拿出来的DDR内存控制器、Infinity Fabric和PCIe控制器等I/O器件，组成了一个单独的I/O芯片，即I/O Die，简称IOD，仍然采用成熟的14nm工艺。

自左至右，分别是传统单片式、第一代EPYC的MCM、第二代EPYC的Chiplet三种架构的示意图

一个IOD居中，最多8个CCD围绕着它，AMD把这种做法称为Chiplet（小芯片）。

如果继续拿数据中心的模块化来强行类比，相当于把整个园区内的变电站、柴发、冷站、办公和接待区域都整合到一个建筑里，位于园区中央，周围是构造完全相同的一座座机房楼……你说，这样一个所有机房楼都离不开的建筑，该有多重要？

仅从布局看，和第二代EPYC处理器有点像的数据中心，但变电站在园区外，制冷也是分布式的（与4个机房模块在一起），中间的建筑并没有上面设想的那么重要

第一代EPYC处理器（Naples）与第二代EPYC处理器（Rome）的片上布局对比，后者是1个IOD + 8个CCD，共9个小芯片组成的混合多die设计

因为CCD的数量增加一倍，所以Rome的核数可以达到Naples的两倍；因为每个CCX/CPU核芯的L3 Cache容量也增加了一倍，所以Rome的L3 Cache总容量可以达到Naples的四倍。

14nm IOD + 7nm CCD的组合——因为不是全部升级到7nm，所以我更愿意称之为制程的“优化”——体现了更高的扩展性和灵活性，使第二代EPYC能够以较低的制造成本提供更丰富的产品组合，提高了市场竞争力。但是，事情并没有看起来这么简单，要了解产品的具体构成和预期的性能表现，您还需要继续往下看。

2019年8月，第二代EPYC正式发布后不久，AMD在Hot Chips大会上介绍了Zen 2产品的Chiplet设计。可能是之前有Zen+架构采用12nm制程的缘故吧，IOD的制程被写成了12nm，其他场合的官方材料都是14nm，所以我们还是以后者为准

今年2月IEEE的ISSCC（International Solid-State Circuits Conference，国际固态电路峰会）2020上，AMD更详细的介绍了Zen 2这一代产品的设计。结合前一幅图可以看到，第二代EPYC的IOD具有83.4亿晶体管，数量与同样采用14nm制程的英特尔Skylake/Cascade Lake相当——虽然两者的晶体管类型构成有很大差别，但可以作为一个参照，说明这个IOD自身的规模和复杂度。

从红框中的选项来看，EPYC 7302 CPU有4个CCD，每个CCX有2个核芯，可以选择各启用1个

IOD集中所有I/O器件的一个好处是，CPU能提供的内存通道数量与CCD的数量无关。E企实验室前一阵测试了基于第二代EPYC处理器的Dell PowerEdge R7525服务器，送测配置包括2个AMD EPYC 7302处理器，从PowerEdge R7525的BIOS设置中可以看到，这款16核的CPU有4个CCD（而不是8个），应该对应下图中右二的情形：

上方柱状图是AMD列出7+14nm Chiplet方案与假设的单片7nm方案相比，成本优势可以达到一半以上（64核没有假设，可能是指单片式很难制造）；下方从左至右依次是8、6、4、2个CCD的布局，原则是尽可能的对称

虽然7302在EPYC 7002系列产品中定位偏低端，只有16个核芯，用4个CCX就能满足，但是它拥有128MiB的L3 Cache，这又需要8个CCX才可以。因此，7302的每个CCX只有2个核芯，享受原本属于4个核芯的16 MiB L3 Cache。

从EPYC 7002系列的配置表中可以看出，7302下面72开头的产品才是真正的低端，譬如同样是16核的7282，不仅L3 Cache容量只有7302的一半（倒是符合每核4 MiB的“标配”），而且仅支持4个内存通道，也是7302等产品的一半——说明其CCD数量是2个，就像前一幅图右下方所示的情况——4个内存通道配置的运行频率也低，只有DDR4-2667，与标准的8通道DDR4-3200相比，理论内存带宽仅为40%多

Dell PowerEdge R7525用户手册里对内存条的安装位置有很详细的说明，毕竟插满8个内存通道和只用4个内存通道，性能差距太大

IOD集中所有I/O对性能也有好处，因为内存控制器集中在一个芯片上，有助于降低内存访问的局部性（NUMA）。不过，AMD在很多场合放出的示意图很有误导性，容易让人以为，对Rome（下图右侧）来说，同一个CPU上的内存访问是不存在NUMA的。

从上面的数据来看，第二代EPYC处理器的“本地”内存访问时延有所增长，毕竟内存控制器和CCX不在一个die上了；收益是跨CPU内存访问的时延有所下降，总体更为平均

好在，稍微详细一点的架构示意图表明，一个EPYC 7002系列CPU内部的内存访问仍然会有“远近”之分：

Dell PowerEdge R7525的BIOS配置中，可以在L3 Cache的NUMA设置为Enabled之后，看到每个CPU内部其实还是可以像EPYC 7001系列一样，分成4个不同的NUMA区域

这时学术性会议的价值就体现出来。AMD在ISSCC 2020上的演讲表明，完整版的Server IOD要承载的功能太多，已经有太多的晶体管，中间都被Infinity Fabric和PCIe相关的I/O所占据，内存控制器只能两两一组布置在IOD的四角，每2个CCD就近共享2个内存控制器。由于中间已经没有走线空间，只能构成一个没有对角线连接的2D-mesh拓扑——仅从拓扑角度而论，还不如EPYC 7001系列4个CCD的full-mesh连接方式。所以，临近的访问有长短边造成的延迟差异，对角线的内存访问因为要走过一长一短两条边，没有捷径可走，自然要更慢一些。

注意放大看IOD布局示意图和右侧1～4的不同等级时延注解，可以理解为每个CPU内部仍然分为4个NUMA区域：本地、短边、长边、（拐个弯才能抵达的）对角线

Hot Chips大会上的这张示意图突出了不同功能的Infinity Fabric导致的IOD中部拥挤，和DDR内存控制器都被挤到边角上的感觉。结合前一张图，不难理解，像EPYC 7282这样只有2个CCD对角线布置的低端SKU，另一条对角线上的4个DDR内存控制器主要起增加内存容量的作用，不如只保留CCD就近的4个内存通道

总之，不管是EPYC 7001系列的MCM，还是EPYC 7002系列的Chiplet，随着芯片数量的增长，性能肯定会受到越来越明显的影响（而不是近乎线性的同步提升），只是好的架构会延缓总体性能增长的衰减速度。

这里我们可以回过头来看看同样基于Zen 2架构的第三代AMD Ryzen处理器，主流PC产品没有那么多核数要求，只用2个CCD即可满足，所以其配套的Client IOD（cIOD）正好是Server IOD的四分之一，从前面图中晶体管数量的对比（20.9亿 vs. 83.4亿）也可以看出来。

代号“Matisse”的第三代Ryzen，仍然可以看到两个DDR4内存控制器偏居一隅的“遗存”，但对两个CCD已经公平了很多，基本不存在NUMA问题。也就难怪“AMD真香”党在消费类用户中比例要大得多

尽管CCD升级到了7nm，但更多核芯、更大得多的L3 Cache，意味着整体功耗的上升，譬如同样16核的7302和7282，前者Cache大一倍，频率略有提高，默认TDP就来到了155W，Dell为送测的R7525配备了180W的散热器——而EPYC 7282的TDP则“只有”120/150W。当然，CCD应用7nm的效果还是比较明显的，同样16核、L3 Cache只有7302四分之一，运行频率还低500MHz的7301，TDP也有150/170W，基本与7302相当。

为了满足云计算、高性能计算（HPC）和虚拟化等场景的用户需求，AMD又向EPYC 7002系列CPU中增加了大量多核大(L3) Cache以及核数虽少但频率很高的型号（如今年初发布的7Fx2系列），导致全系列产品中TDP在200W以上的SKU占比很高，也给服务器的散热设计带来了更高的挑战。

200W+的CPU将越来越常见

EPYC 7002系列的另一大改进是PCIe从3.0升级到4.0，单路仍然是128个通道，但双路可以支持多达160个通道（譬如Dell PowerEdge R7525的特定配置）——在主板支持的情况下。第一代EPYC处理器推出时的一个卖点是，为其设计的主板也可以支持第二代EPYC处理器。没有广而告之的是，要支持PCIe 4.0，主板需要重新设计。用老主板可以更快的把第二代EPYC处理器推向市场，却不能充分发挥新CPU的全部能力。

不过，PCIe 4.0本身就是一个很大的话题，留待以后（有机会的话）专文讨论。

【腾讯云星星海好用吗】的内容来源于互联网，如引用不当，请联系我们修改。

腾讯云星星海好用吗(海星云没有腾讯游戏)

本文目录：

腾讯2020年净利润1227亿，它为中国崛起贡献了什么？

国内vps服务商有哪些?

腾讯云服务器和阿里云服务器的区别是什么？

韩天堂一在线人数怎么查，2020年的/who查不了？

把人脑智能化后，能再创造出更强的人工智能吗？

AMD EPYC的模块化和NUMA之路

相关推荐

评论抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

本文目录：

腾讯2020年净利润1227亿，它为中国崛起贡献了什么？

国内vps服务商有哪些?

腾讯云服务器和阿里云服务器的区别是什么？

韩天堂一在线人数怎么查，2020年的/who查不了？

把人脑智能化后，能再创造出更强的人工智能吗？

AMD EPYC的模块化和NUMA之路

相关推荐

评论 抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

评论抢沙发