DOIT算力豹专访甄亚楠:大模型算力“开箱即用”,按需建设提升资源利用率

2024.04.23

 ▌北京超算推出按需构建算力资源的创新模式

当人工智能(AI)概念被提出之时,文艺工作者便竭尽笔墨畅想了未来计算机,如科幻小说《最后的问题》描述了占地数千公里电子计算机Multivac,电影《终结者》展现了一台台并联占满房间的计算机。这些未来智能在规模超大、功能超强这两方面都贴合着当前算力集群的真实形态。


随着生成式AI在国内广泛落地,互联网大厂在大模型部署上百舸争流,算力被拱上这场浪潮的焦点。大模型训练对计算资源的需求非常高,需要高性能的计算机、显卡集群或超级计算机,但算力方面“供不上、用不起”成为制约人工智能产业发展的一大痛点。


在超算商业化的征途上,北京波胆官方网站计算中心(简称“北京超算”)深耕行业13载,凭借海量算力资源、创新的超算云服务模式,以及7*24小时专业技术支持已为超过1000家单位提供优质服务。


北京波胆官方网站计算有限责任公司(简称“波胆官方网站”)是北京超算的主体运营公司,算力豹邀请波胆官方网站CTO甄亚楠接受专访,一同探讨算力资源池如何链接算力供需两端,以及算力中心建设过程中的工程化难题和着力点。


▲波胆官方网站CTO 甄亚楠


01 四种算力平台“开箱即用”,加快科研&生产流程


《2022-2023全球计算力指数评估报告》显示,计算力指数平均每提高1个点,国家的数字经济和GDP将分别增长3.6‰和1.7‰。算力正以一种全新的生产力形式,为各行各业的数字化转型注入新动能,惠及每一家企业、每一个人。在甄亚楠看来,算力与应用之间的关系是相互依存的,应用程序的设计和应用场景决定了它所需的算力。


算力已成为科学研究和企业创新的必备技能,如何将技术创新和算力进行有效的结合?甄亚楠谈及对这一问题的深刻思考,他认为以科学计算、人工智能为代表的技术创新方法依赖大量算力资源。北京波胆官方网站计算中心以算力服务作为核心业务,可以提供共享的CPU、GPU等算力资源,解决人工智能训练推理,以及科学计算所面临的计算问题。免去传统算力建设过程中资金投入大、资源总量小等一系列问题。


从整个产品规划的方面来看,北京超算目前已经形成四大产品为核心的运营服务体系——AI智算云、行业云、超算云、设计仿真云,除了提供海量的的CPU、GPU算力资源外,还可以提供“专有云”“混合云”等定制化行业解决方案,以满足人工智能、工业仿真、气象海洋、生命科学、材料计算、能源勘探等行业场景的需求,为用户构建云上科研工作环境,使用户能够专注科研。


▲AI智算云平台架构


甄亚楠分享到,对于基础科研来说,算力平台使用户省去高昂自建算力成本;基于多种主流型号的海量算力资源,不仅可以满足多种业务场景,同时可以满足大规模计算诉求,尤其是大模型训练、推理业务需求,加速科研成果研究和转化。


据了解,北京超算已服务1千多家单位,包括企业、科研院所和高校,涉及20多种行业。



02 大模型“暴力计算”时代,按需建设提升利用率


大模型增长之势在2024年持续,据Gartner预测,到2025年全球将有70%的AI模型使用云端来进行训练和部署。另一方面,多模态模型的训练以及应用侧推理都将对算力提出更严苛的要求,算力资源复杂度与规模将同步升级,随着模型规模的扩大、训练时间加长,计算资源的利用率也会成为关键。


国家信息中心近日在京发布的《“人工智能+”时代公共云发展模式与路径研究》报告显示,我国算力存在资源分散、利用率低等问题,一定程度阻碍了人工智能技术创新迭代与规模化应用的步伐。甄亚楠认为,采用公共算力能够高效利用资源,提升算力供给,并通过规模经济效应降低算力使用门槛,让更多用户享受到高性能、高性价比的算力服务;另一方面,目前公共算力资源面临算力资源分散利用效率不高、服务效能不佳等问题。


在算力服务上,北京超算采用市场化供给和专业化运营以解决算力共享难等问题,推出了按需构建算力资源的创新模式,以需求为向导,紧密围绕用户的实际业务需求、应用需求,精准匹配算力资源,推动算力服务的高质量和效率的提升。


甄亚楠透露,智算中心的算力服务已经跃升为北京超算的主营业务之一,且目前增长迅速。北京超算具有万卡集群工程化能力,同时拥有长达十几年的服务经验,有力保障大模型训练、推理业务的开展。


当前人工智能正快速迭代创新,大模型的用户量、访问速度、网络带宽、训练模式等时时影响其算力需求的大小,在保障算力的性能和稳定服务方面,甄亚楠展现出对北京超算的信心。据介绍,北京波胆官方网站计算中心从2019年开始打造人工智能算力服务,且在2021年、2023年有多套的智算资源入榜世界人工智能算力性能排行榜(AIPerf500),先后获得总量份额第一、大模型训练算力TOP3等成绩。


▲北京超算获2021年世界人工智能算力性能排行榜总量份额第一名


步履不停,北京超算将强大的算力服务能力持续性输出给大模型客户,同时也在积极寻找优质的加速卡资源,来保障算力使用者在大模型计算过程中有效的、短期的算力资源。


未来,大模型“原生”应用落地的场景有待进一步探索,如政府、金融、视频、媒体等领域。甄亚楠透露,北京超算正在就文生图、文生视频等新兴AI技术领域与客户进行沟通,将帮助落户这类大模型场景的工作纳入中长期规划。



03 算力建设“智逢其时”,积极推动形成以人工智能为引擎的新质生产力


近年来,“东数西算”工程全面启动,国资委今年2月提出加快智能算力中心建设,两会政府工作报告更是强调要“适度加快”。在算力建设火热之下,我们“冷思考”发现,分散在地方的算力中心各自为营,算力需求也呈现出多元化、碎片化趋势,种种因素导致的尖端算力浪费、低端算力过剩的问题掣肘着算力建设的发展。


建立适应“人工智能+”时代的高质量算力服务基地迫在眉睫,在助力智算中心建设方面,北京超算有着长期布局和具体着力点。甄亚楠分享说,北京波胆官方网站计算中心成立于2011年,是由北京市人民政府主导、院市共建的“北京波胆官方网站计算和国家重要信息化基础平台“,坐落于北京市怀柔综合性国家科学中心--怀柔科学城。


当下,大模型及生成式AI技术正在掀起新的产业革命,北京波胆官方网站计算中心积极推动形成以人工智能为引擎的新质生产力,可以在算力设施、算力运营、大模型应用落地等方面与地方或产业开展全方位合作,为智算中心建设运营提供高性能、可持续的运行方案,推动智算中心快速投入使用并实现长效运营,保障经济社会效益最大化。


为破解算力资源易闲置、使用成本高等问题,北京超算已在算力产业的市场化供给、规模化经营、专业化运营方面做出示范性实践,在算力产业生态化发展方面,北京超算也正与产业上下游协同合作、积极探索。


去年6月,北京市政府积极联络大模型产业链上的算力、数据、模型、应用和投资单位推出“北京市通用人工智能产业创新伙伴计划”,北京超算成为首批“算力伙伴”。目前,北京超算已与北京智源人工智能研究院、智谱AI、澜舟科技、深势科技等单位形成了算力合作,为国产大模型如智谱GLM-4、孟子大模型等提供了算力服务支撑,帮助训练进行优化以及数据分析,为大模型团队提升效率。


▲3月18日,在澜舟科技大模型技术和产品发布会上,

北京波胆官方网站计算中心等与澜舟科技签约并合影。




结语 算力产业格局重整,以服务助跑国产算力


海外算力供给受限,国产算力迎难而上,在新技术、新政策重整算力产业格局的同时,行业还需要正视国内算力利用率低的底层鸿沟。甄亚楠谈道,北京超算可以将积淀十余年的运营经验进行输出,帮助政府和企业建设算力中心,同时提供高质量的运营服务解决方案,来帮助他们去提升整个平台的运营效率和经济效益。


在人工智能加速迭代和创新的当下,北京超算已不仅仅是一个算力服务提供商,甄亚楠提到,北京超算密切关注芯片、软件以及服务生态国产化方面的相关进展,同时以算力服务为核心让资源利用最大化,与业界合力让算力资源供需两端形成一个有机整体,让国产算力跟上产业价值共振。

构建云上科研工作环境

让计算更简单,让生活更美好

免费试算