数据和算法在科学研究乃至整个社会发展中正发挥着越来越重要的作用。到2025年底,全国范围内普惠易用、绿色安全的综合算力基础设施体系将初步成型,这将成为“数智化”转型的基石。
近日,OpenAI发布的文本生成视频模型Sora引爆全球。可以预料,大算力和AI融合将会在未来几十年诞生巨量的新知识和数字资源,甚至可能超过历史所有知识总和。
作为高校管理者、科研工作者,这不得不让我们反思,高水平大学作为一流学科建设及拔尖人才培养最重要的场所,发展新阶段的算力赋能显得尤为重要。
数据和算法驱动的科研模式正加速发展
2007年,数据库专家吉姆·格雷做了著名的演讲“科学方法的一次革命”。吉姆·格雷是1998年的图灵奖得主,在演讲中,他提出科学研究的范式将从之前的实验范式、理论范式和仿真范式这三种范式,发展到数据密集型的科学发现。此后,随着海量数据成为新的科学研究基础设施,构造基于数据的、开放协同的研究与创新模式,已逐渐成为科学发现的重要领域。
2012年,基于深度神经网络算法AlexNet的出色表现,以机器学习为手段的数据分析和处理成为科学研究的新热点。其中,AlphaFlod是最具代表性的工作之一。AlphaFold2在国际生物信息学蛋白质结构预测程序大赛中得分超过90分,被认为是计算生物学领域的一项重大成就,也是朝着解决生物学界持续数十年之久的重大挑战迈进的一大步。诺贝尔奖获得者、结构生物学家文卡·拉马克里希南称这一结果为“蛋白质折叠问题上的惊人进展”,并认为“它将从根本上改变生物学研究”。
近年来,AI4Science的概念逐渐流行,并被认为是科学研究的第五范式,即使用人工智能开发新的科学发现工具。AI4Science已经被认为是代表机器学习和自然科学领域最激动人心的前沿方向之一。2023年11月,卡内基梅隆大学的研究团队在《自然》杂志上发表了基于GPT-4的自动化AI系统Coscientist,它能够自主计划、设计和执行人类发明的化学反应。尽管还存在一定的争议,但以大模型为引擎的科研正在迅速成为各学科当下最有前景的方向之一。
算力已成为高校科研和拔尖人才培养的核心要素之一
从过去10多年的发展可以看出,算力已逐渐成为科学发现的重要基础,而且其重要性还在加速提升,甚至在一定程度上成为科学研究最重要的基础设施之一。通用计算、智能计算、超级计算构建的融合算力中心在高校学科发展中,发挥了不可替代的作用,已经成为名副其实的科研创新基座之一,其重要性也愈发凸显。
用大模型打造新的研究范式正成为潮流,但是这些都建立在大量计算资源需求的基础上。虽然OpenAI没有公布相关数据,但根据业界的推测,GPT-3 175B模型需要355个GPU年,即全球最快的一块GPU运行355年的运算量,单次训练运行成本为460万美元。而作为升级版,GPT-4的参数规模比GPT-3大10倍以上。据称,GPT-4的训练成本约为6300万美元。美国麻省理工学院斥资10亿美元建设全球第一个计算学院——苏世民计算学院,学生不仅学计算机,还学计算数学、计算物理、计算化学等基于计算的专业交叉课程。上海交大网络信息中心将最初的单核串行程序代码性能进行优化,高效的声子玻尔兹曼输运方程算法通过上海交大高性能计算中心,并行计算效率最高提升了1.8万倍。
高校站在科学研究和人才培养的第一线,这两项任务在创新研究和基础设施需求等方面是相通的。高水平的科学研究需要拔尖人才,而如果没有参与高水平的科学研究,所谓的“人才”也难以被称为拔尖人才。随着科研对算力的需求越来越大,拔尖人才培养同样需要更多的算力来支持。可以预见,算力指标将很快成为衡量高校人才培养能力的一个重要方面。
超大规模的算力需求需要新的建设模式
对于高校来说,很多时候需要定制化的本地计算,多学科主流应用需要进行频繁的效率测试与个性化调优,因此在多数情况下无法直接使用商用算力。
目前国内高校的算力建设大多完全依靠自身投入,仅有少数高校借助国家超算中心的建设,形成较高的算力资源。即便如此,高校仅凭自身力量能够满足的算力需求依然十分有限。
由此可见,无论是科研还是拔尖人才培养,仅依靠高校自身提供算力的模式将越来越力不从心。为适应新的形势,高校的算力建设需要新的模式。一种模式是,上海市乃至长三角高校之间互联互通,形成算力池,共享共用;另一种模式是,高校与企业联合共建算力,通过打通算力调度,一方面企业将算力提供给学校支持科研和人才培养,另一方面高校也能够通过产学研合作,为企业的算力赋能,形成算力附加值。
加强高校校级算力建设以应对未来挑战
基于上述思路,上海大学已经开始了这方面的尝试和探索。学校早在多年前就确定了包括“五朵金花”(微电子、人工智能、生物医药、新能源、量子科技),“五大阵地”(城市社会治理、考古与文保、新海派文化、艺术技术、数字经济与管理)在内的“五五战略”发展规划,并于2019年就策划启动了新一轮自有算力的建设。学校自主建设的算力有力地推动了“五五战略”的发展,但是依然难以满足各学科及人才培养对算力指数级增长的需求。
在这一背景下,学校联合企业共建了“自强5000”一期共享算力平台,学校可调用的算力超过2000张GPU加速卡,整体算力规模已经跻身国内高校前列。通过学校统一身份平台为所有师生开通自强5000算力统一调度服务平台,有力支撑学校的科学研究和人才培养,同时也为学校应对未来的挑战做好充足的准备。
上海大学坚持校级算力平台一体化统筹建设,学校信息化工作办公室成立专门的算力中心,推动专业超算人才队伍建设,更好地做好超算运营服务,经过一年多运行已经取得明显成效。本次教育部本科教育教学审核评估,有专家建议在学校高水平大学建设过程中,面向全校的本科生全覆盖开设AI、超算等新一代信息技术素养相关课程,提升本科生、研究生数据处理和AI素养能力水平,推进算力+课程、算力+大赛、算力+科研融合课程。
未来2-3年内,上海大学除了在高水平大学建设过程中加强算力建设外,也将进一步加强算力应用生态建设,并继续加强校企合作,探索出上大特色的算力建设模式和场景应用,进一步将算力建好、用好,为学校高水平大学建设奠定扎实的算力基础。
此外,学校还将充分利用上海教育城域网与各高校互联互通,搭建共享算力网和算力池,全面提升全市高校算力能力水平,赋能一流人才培养。
来源:文汇报