随着上云和用云的需求逐渐深化,云厂商在积极往行业渗透,打造最佳客户实践。
不久前,腾讯云联合速石科技为芯片设计企业燧原科技,打造了一个面向HPC(高性能计算)场景的行业解决方案。该方案基于腾讯和速石科技共建的一站式芯片设计研发云平台,快速自动地调用腾讯云IaaS资源构建仿真环境,满足了燧原科技的业务弹性需求,提升了整体的项目研发效率。
“它是一个可见的有巨大潜力的蓝海”,腾讯云高性能计算行业高级经理Kevin说,腾讯云会在这方面加大投入。据数智前线获悉,除了芯片设计产业,腾讯也将重点布局云渲染、生命科学等多个高性能计算赛道。
01、芯片设计产业上云正在成为趋势
燧原科技作为国内领先的AI芯片设计企业,当初创造过仅用18个月就将技术门槛很高的AI训练芯片一次性流片成功的纪录。
但随着工艺制程越来越先进,燧原也面临着IT资源和效率无法满足业务需要的矛盾。
芯片的研发周期通常都比较紧张,尤其是大芯片,中后期经常是按天来做任务排期。而行业内普遍采用的是自建IDC(数据中心),Kevin告诉数智前线,这么做主要是当时的芯片工艺没那么先进,对算力的需求也没那么大。
而且,燧原科技IT负责人Vincent透露,芯片项目在前期会做大量论证和规划,包括需要多少算力和存储。但问题在于,在项目推进过程中经常会有变更,包括制程的改进、功能变化及性能指标调整。这种变更会造成大量突发的算力需求。如果要通过采买服务器或者是租借服务器的方式来满足需求,从部署、上线测试,需要相当长的一段时间业务团队才能用上这些算力,影响研发进度。
这样的效率显然是无法接受的。尤其是这几年的疫情导致采买硬件的周期不可控,但芯片项目周期是明确的,这就意味着,芯片设计企业要面临一个不确定的IT资产的风险。比如一天之内要准备一两百台服务器,只有上云才能够做到,如果是原有的IT流程,从确认服务器型号到采购,从安装服务器上机柜到机房运维,最快要8到12周,而且IT资金占用成本太高。
“这是我们上云的一个契机吧。”Vincent提到。
大芯片设计周期超过12个月,包括产品定义、前端设计、IP验证、SOC验证、综合、布局布线等多个阶段,不同阶段对算力的需求不相同。验证环节是算力使用的高峰期。所以,燧原也选择将部分仿真验证搬到云上,“前端IP验证的过程基本都上云了,后续我们肯定是希望把整个弹性的部分尽量都上云。”燧原科技项目负责人Eli说。
燧原有大量弹性作业的需求,比如需要在同一个时间配置数百台的服务器,对稳定性和实时响应的要求非常高。目前,腾讯云联合速石可以做到让客户在1小时内快速把仿真作业跑起来,让客户在有限时间更频繁地去跑仿真和验证任务,提高流片前的成功率。同时基于速石对业务场景优化和CAD方面的能力,帮助燧原整体Job运行时间降低了50%,加快了整个项目的研发进度。
而且,芯片设计行业如今已经进入到7nm甚至3nm时代,一颗芯片上会有几百亿级的晶体管,它对算力的需求会大大增加。这就意味着,芯片企业在高峰期的算力需求非常明显,燧原等芯片设计企业开始向云厂商寻求弹性的算力解决方案。
“上云是一个行业趋势。”Vincent说,“都在尝试,但全部都上云还需要一些时间。”
02、安全、效率和成本的铁三角
芯片设计企业最核心的是各种芯片代码和知识产权,相比于很多行业,这个赛道对数据安全有着更高的要求。
燧原科技在上云的态度是,所有的数据要放在本地,只有弹性的部分在云上,中间不做数据存储。所以,腾讯云和速石在燧原的建议和启发下,大家探索出了“存算分离”的混合云计算架构,并且花了五六个月时间去验证。
它能够在保障核心数据、代码存储在本地的前提下,通过速石的调度平台与本地计算集群打通,使得计算任务能够灵活选取本地或云端算力队列。
速石科技技术总监陈琳涛透露,此次采用的存算分离方案本质上是一个混合云方案,在燧原的项目中,该方案面临进一步的技术挑战,例如在整个混合云建设架构上,对网络的时延、带宽的吞吐率和效率的要求都非常高,这就要求三方共同在这个项目里寻求最优的架构布置方式。
Vincent坦言,因为做了存算分离的架构,数据在本地,所以企业对安全的担忧会有降低。
以前的存算分离,是在同一自治域内,比如都在腾讯云上实现。但现在燧原的方案是在两个自治域内,混合云部署,这增加了物理距离,而且各种接口的调度变得更加复杂,更加考验云厂商和合作伙伴的能力。而速石平台不改变用户的使用习惯,让使用者无感地调用云资源,对资源的调用更加便捷,减少上云的学习成本。
这也是云厂商在深入行业时经常遇到的难题。腾讯云和速石之前考虑的是直接把客户的数据上云,方便高效。但沟通之后发现,芯片客户对数据安全的要求,还是采用混合云存算分离的架构最为合适。腾讯云目前仅做算力的支撑,速石平台提供自动化高效的环境构建,燧原的知识代码等企业核心数据都是放在线下。不过,在Kevin看来,有些不敏感的数据理论上可以上云,通过缓存技术来提高仿真效率。
Kevin告诉数智前线,早期初创企业,存量数据和存量资产少,对安全没那么大顾虑,使用全云方案是首选,但规模大了之后,很多企业则倾向采用混合云架构。
而且,很多芯片设计企业以前就有很多IDC资产,如何把原有的资源利用起来,也是企业的诉求,可以比较好的平衡既有资产的投资投入,同时又兼顾云的弹性、灵活、快捷、便捷。“所以从这个角度上来说,混合云是目前来看一个比较好的选择。”
像燧原并没有将全部业务搬到云上,其中一部分依然用到了本地的算力,比如项目前期运行还是更适合本地已有的算力。事实上,很多芯片设计企业还是以本地为主,云上做弹性的部分。
混合云的部署方式,对IT成本的节约也在逐渐成为共识。
燧原算过一笔账,如果自己采买服务器、自建机房,按照三五年的周期财务进行对比,每个月均摊的成本会比每个月上云均摊的成本更低。但如果从节省时间和人力、提升效率以及整体的综合成本考虑,上云的优势还是非常明显。因为云不需要水电,也不需要自己运维,这部分都是省下来的,而且快速部署和弹性扩容的能力,能让昂贵的研发人员提高效率,缩短研发周期。
除了采用存算分离的架构,腾讯云联合速石也为燧原等芯片设计客户打造了从终端到云端的完整安全方案:在终端,腾讯云的零信任安全的iOA方案,可以保障燧原全国各地的研发人员,能无缝体验一致的仿真环境,同时确保终端安全、信息保护以及一些漏洞的保护。
在云端,使用了腾讯的主机安全,保障整个计算环境是安全授信的,通过这个部分确保整个计算过程不会有入侵、数据泄露、勒索病毒等等的问题。甚至是传输层面,腾讯云与燧原之间有一条超大带宽的网络保障,确保了整个传输的通道安全可信。
不难发现,通过存算分离的架构和混合云的部署方案,既满足了对弹性算力和效率的需要,又能满足节约成本和数据安全的需要。而这些都是企业在上云和用云过程中最在意的东西,也是云厂商需要重视和解决的方面。
目前,“存算分离”的混合云架构已经帮助燧原节省了可观的IT投入,任务并发量可以通过云端弹性同步提高,同时部分仿真周期缩短30%-50%。
当然,Eli也提到,现阶段使用这一套三方共创的存算分离方案满足了部分业务在弹性算力使用量上的需求去做的各种定义。而下一步我们还要进一步优化,提升使用效率,“如何更高效的利用云上机器,如何契合业务使用进行高效优化,并迁移更多的业务,这个是我们接下来要做的事情。”
不难发现,通过存算分离的架构和混合云的部署方案,既满足了对弹性算力和效率的需要,又能满足节约成本和数据安全的需要。
未来,GPU加速芯片仿真及提供智能芯片设计优化是行业的新方向,腾讯云也将与国内外EDA软件合作共建加速仿真生态,为芯片仿真作业带来数倍的加速并提供AI智能PPA优化能力。同时腾讯云也在尝试探讨云端开发,把芯片设计前流程部署云上,基于全云构建芯片设计流程,进一步提升大芯片研发设计效率。在高并发场景下,腾讯云通过遨驰云原生操作系统的海量大规模调度能力,及丰富多元的裸金属实例、 GPU 实例,在芯片的仿真验证和性能对比测试环节,可一站式完成多代次,多卡型的验证工作,节省自建购买费用,极大提升部署效率和测试效率。
©本文来源于数智前线(szqx1991)文|游勇 编|石兆