一站式AI研发云平台,一键拉起机器学习开发环境,将GPU资源利用率快速提升到极致
针对六家公有云厂商AWS、阿里云、Azure、GoogleCloud、华为云、腾讯云的四种资源类型,按最优区域、北京区域、上海区域、美国....
fastoneScheduler,简称Fsched,是速石科技所有产品的核心调度组件。Ta是面向HPC集群的操作系统,是HPC集群的“大脑”,用于对....
计算机/人工智能辅助新药研发不是什么新鲜事物,早在1981年10月5日,美国《财富》杂志就对计算机辅助的药物发现进行了专题报道....
超算发展了40年,终于遇到了一个像样的对手——云计算,天生互联网基因,为追逐商业利益而生。飞速发展的云计算,甚至让超算界....
国内企业在找CADD/AIDD人才方面现在是什么情况?我们在国内9个主流招聘平台,相隔半年先后调查了两次,一共覆盖134家公司....
场景说明
本地GPU管理平台
MLOps研发平台
集群化管理平台构建
PyTorch
AI计算
1单机训练,本地多台机器无法进行统一管理,资源利用率低
2GPU资源分散,只能单机使用,难以进行分布式训练
3缺乏资源使用管理流程,日常使用基本靠抢
4模型、数据集和镜像散落在单机上,没有统一的平台管理,维护工作繁琐
5训练任务环境配置复杂、费时费力,移植难度高
6难以对训练效果进行评估分析和调优
Pytorch、TensorFlow、MXNet
嵌入式环境模型开发
1不同开发团队之间共享GPU服务器,服务器的资源分配目前是手动完成,效率很低且管理复杂
2开发环境管理混乱,且由于网络限制,许多依赖安装流程繁琐,影响开发团队效率
3由于手动管理,所有GPU服务器的使用情况没有监控,无法得知资源的使用效率
4实验管理、超参数调优、分布式训练等需求无法满足
机器人控制
1本地资源有限,需要在研究员之间分配GPU资源
2使用工作站无法满足一些规模较大的模型训练的算力需求
3实验室没有专人管理基础架构,需要管理和基本的运维监控
4研究员希望保持GPU资源的接入方式不变
AlphaFold2
蛋白质三维结构的预测
1本地计算资源有限,多部门争抢,导致许多任务被推迟,效率不高
2AlphaFold2需要使用GPU来加速蛋白质结构的预测,在实际业务中最多一次需跑十几个任务,并发需求多,如果按峰值购买GPU卡,一次性投入较高