业务挑战
异构资源
计算虚拟化层面需要兼容 CPU、GPU、信创算力;在存储和网络方面,需要考虑多类型存储和网络资源,异构资源难以统一管理
调度瓶颈
每种算力都有其特定的应用场景和效率,如何高效的调度这些异构资源,使得合适任务分配到最合适的计算单元上,是一大挑战
多业务整合
面对训练推理模型的托管、多类型环境一键搭建管理以及分布式计算框架和任务管理的需求,需要构建一个高效、灵活且可扩展的AI平台来支撑这些复杂操作
存储瓶颈
AIGC 模型推理和训练过程中,需要频繁读取大量数据用于模型学习,还需要低延迟访问以及可拓展的存储解决方案,传统的存储架构无法满足需求
方案架构
方案特点
容器+虚拟机双引擎
虚拟机和安全容器双算力引擎且共用物理节点,统一调度管理,同时满足稳态业务和 AI 业务的快速交付
GPU 池化调度能力
支持 GPU 直通和 GPU 虚拟化,提高 AI 算力资源利用率;支持 MDEV GPU 硬件虚拟化,安全性和可靠性高
存算融合网络打平
共用 VPC 安全隔离网络和虚拟防火墙,实现 POD 和 VM 内网直通和网络流量控制;共用平台 LB ,提供服务发现和负载均衡
分片计算调度
基于 Ray 高性能分布式引擎、Kubernetes 云原生 Kueue 作业队列控制系统,实现大模型分片并分散到多 GPU 运行时进行计算
高性能并行存储
提供基于 UCloudStor 的高性能并行存储方案,可通过对象存储提供大规模数据存储能力,也可通过并行文件存储解决低延迟访问问题
方案价值
异构资源统一池化
兼容 x86、信创等多种 CPU 架构、GPU 卡,并可基于 K8S 云原生底座,软件定义 AI 算力、存储及网络,构建异构算力资源池
统一运营
面向多租户提供 AI 算力,同时实现统一计量计费、报表统计以及全面监控日志和自维护体系,构建一个成熟、可运营的 AI 服务平台
安全管控
安全容器防止恶意租户对内核攻击,降低其他租户业务风险;隔离故障域小,安全容器降 低不可信代码容器产生危害的可能性
模型托管服务
提供AI模型托管服务,内置安全容器镜像、版本管理、自动扩缩容等功能,极大简化模型的生命周期管理