partner_logo

高性能数据湖一站式解决方案​

  • 业务挑战:

自动驾驶整个业务中,AI 学习作为基石环节,承担关键的数据加工和转化工作。其中涉及到数据导入、预处理、筛选、标注、清洗、模型开发、训练、调优等。这些步骤中,会涉及到海量数据的存储,数据在不同存储系统间的高速流转,第三方标注平台间的数据交互控制,以及大量算力集群的管理与调度。业务中存在以下难点:

  1. 海量数据存储,要在容量、成本、场景功能上取得平衡。

  2. 多数据源采集,需要满足CIFSFTPNFSS3HDFS等不同协议的数据源写入。

  3. GPU 分布式训练,需存储平台满足海量小文件场景下的低时延、高吞吐的性能要求;

  4. GPU 算力利用率低,异构算力无法统一纳管。

  • 方案简介:

趋动科技和XSKY 星辰天合结合自身优势,针对自动驾驶 AI 深度学习场景,量身定制了相应的存储与计算解决方案,目的在于兼容用户当前主要基础平台架构,构建全流程的数据服务管道,同时提供强大的AI资源管理服务以及高效的算法开发和训练支持。该方案满足数据跨平台流动,应用无缝调用的需求,符合汽车和自动驾驶行业客户对一站式AI平台解决方案的诉求。

趋动科技GEMINI AI训练平台为客户打造了一站式自动驾驶AI开发、训练、运维的解决方案,提供CPU、物理GPUOrionX vGPU、存储等多种资源,实现界面化统一申请、调度、监控和运维,同时实现AI开发和训练任务级别的界面化管理,提升车企或自动驾驶企业算法研发效率,兼顾算法工程师和运维工程师等不同人员对AI平台的多样化需求。

XSKY 星辰天合存储平台中,灵活的扩容能力、List 性能深度优化算法、开放的内容处理框架,XSpeed 访问加速等特性,帮助用户大幅提升数据处理效率。

  • 方案价值:

  1. 实现 AI 开发、训练、运维的一体化管理解决方案,能够帮助客户完成 CPU、物理 GPUOrionX vGPU 和存储资源的统一纳管。

  2. 提供完善的平台账户管理,权限管理,配额管理能力,方便运维工程师实现高效清晰运维管理工作。

  3. 支持GPU虚拟化,使用策略上更加灵活,能够在有限GPU资源情况下满足更多算法工程师使用。

  4. 平台实现AI任务所需数据、镜像、代码集中管理,方便数据复用和分享,同时兼顾企业信息安全保护和个人隐私保障。

  5. 支持AI分布式训练,能够让AI训练任务不受单节点GPU资源的限制,为AI训练加速。

  6. 海量数据统一管理,冷热数据分层,降低整体成本;软件定义,弹性扩展,EB级容量、千亿级文件轻松管理。

  7. 高性能客户端 & 计算端读缓存,提升数据访问效率;持久化容器 CSI Driver,为 AI 提供稳定训练环境;热点目录预读,提升训练准备阶段效率。

  • 解决方案架构图