业务挑战:
自动驾驶整个业务中,AI 学习作为基石环节,承担关键的数据加工和转化工作。其中涉及到数据导入、预处理、筛选、标注、清洗、模型开发、训练、调优等。这些步骤中,会涉及到海量数据的存储,数据在不同存储系统间的高速流转,第三方标注平台间的数据交互控制,以及大量算力集群的管理与调度。业务中存在以下难点:
海量数据存储,要在容量、成本、场景功能上取得平衡。
多数据源采集,需要满足CIFS、FTP、NFS、S3、HDFS等不同协议的数据源写入。
GPU 分布式训练,需存储平台满足海量小文件场景下的低时延、高吞吐的性能要求;
GPU 算力利用率低,异构算力无法统一纳管。
方案简介:
趋动科技和XSKY 星辰天合结合自身优势,针对自动驾驶 AI 深度学习场景,量身定制了相应的存储与计算解决方案,目的在于兼容用户当前主要基础平台架构,构建全流程的数据服务管道,同时提供强大的AI资源管理服务以及高效的算法开发和训练支持。该方案满足数据跨平台流动,应用无缝调用的需求,符合汽车和自动驾驶行业客户对一站式AI平台解决方案的诉求。
趋动科技GEMINI AI训练平台为客户打造了一站式自动驾驶AI开发、训练、运维的解决方案,提供CPU、物理GPU、OrionX vGPU、存储等多种资源,实现界面化统一申请、调度、监控和运维,同时实现AI开发和训练任务级别的界面化管理,提升车企或自动驾驶企业算法研发效率,兼顾算法工程师和运维工程师等不同人员对AI平台的多样化需求。
XSKY 星辰天合存储平台中,灵活的扩容能力、List 性能深度优化算法、开放的内容处理框架,XSpeed 访问加速等特性,帮助用户大幅提升数据处理效率。
方案价值:
实现 AI 开发、训练、运维的一体化管理解决方案,能够帮助客户完成 CPU、物理 GPU、OrionX vGPU 和存储资源的统一纳管。
提供完善的平台账户管理,权限管理,配额管理能力,方便运维工程师实现高效清晰运维管理工作。
支持GPU虚拟化,使用策略上更加灵活,能够在有限GPU资源情况下满足更多算法工程师使用。
平台实现AI任务所需数据、镜像、代码集中管理,方便数据复用和分享,同时兼顾企业信息安全保护和个人隐私保障。
支持AI分布式训练,能够让AI训练任务不受单节点GPU资源的限制,为AI训练加速。
海量数据统一管理,冷热数据分层,降低整体成本;软件定义,弹性扩展,EB级容量、千亿级文件轻松管理。
高性能客户端 & 计算端读缓存,提升数据访问效率;持久化容器 CSI Driver,为 AI 提供稳定训练环境;热点目录预读,提升训练准备阶段效率。
解决方案架构图