1、人工智能开发平台软件必须为商用软件,软件包含异构计算集群调度、AI开发全流程管理、数据管理、集群监控和统计等功能,提供 ≥2个license授权满足节点使用。 ★2、用户通过前端在线填报系统,进行账号申请。申请内容可自定义,具备≥15 种以上控件,通过拖拽的方式搭建申请内容,预留可发布至教学平台或第三方移动端应用的接口,填报内容可导出。审批通过后方可使用人工智能平台。(提供功能截图) 人工智能开发平台主要功能:在线开发、训练分布式支持、弹性任务、模型管理、统一管理、模型测试、算法管理、工作流管理 . 在线开发: 1.交互式开发:支持用户通过平台内置AI镜像或用户自定义镜像进行环境创建交互式开发环境,环境实例可以使用CPU资源也可以使用GPU资源;开发环境支持Jupyter、web shell的在线交互开发,支持对接第三方开发工具(如VSCode、PyCharm); 2.开发过程评估:支持开发环境容器维度的资源监控,包括CPU、内存、加速卡(计算利用率、显存利用率、nvlink带宽)、网络IO、磁盘IO的实时监控,提供页面化的实时动态趋势图展示; 3.支持基于web的资源组管理,不同异构加速卡可以划为1个资源组。资源组可设置不同的任务使用策略、资源配额约束和任务超时控制策略。 4.GPU共享细粒度管理:支持调度挂载多张GPU共享卡的开发环境,例如单个开发环境可以挂载2张GPU卡,每张GPU卡显存大小不小于1G 训练分布式支持: 支持 AI模型的多机分布式训练,提供模板可以提交Tensorflow、Caffe、Deepspeed、megatron、pytorch、PaddlePaddle、MXNet框架的分布式训练作业,支持的分布式类型有:MPI、Master/Worker、PS/Worker、Server/Worker、Pytorch DDP等; 训练资源自定义配置:用户可通过页面的方式,指定任务使用的容器数量、加速卡数量、内存、指定不同的加速卡型号资源,并且可以实时查看训练日志,监控各容器内资源使用状况;同时提供服务端口开放功能,容器内服务端口自动映射至平台开放端口; 训练可视化:支持 tensorboard、Visdom、Netscope可视化框架,用户可以通过页面化方式发起可视化服务 训练过程评估:支持训练过程中训练日志;支持训练容器维度的资源监控,包括 CPU、内存、加速卡(计算利用率、显存利用率、nvlink带宽)、网络IO、磁盘IO的实时监控,提供页面化的实时动态趋势图展示; 弹性任务: 支持按照 worker的最大值弹性伸缩,按需动态分配计算资源;可以根据运行情况,动态调整训练任务资源,保障巨量规模训练的时效性和可靠性; 模型管理: 模型导入:将生产训练好的模型按照不同模型类别、版本有序进行存储和管理,管理的维度有:模型名称、版本、场景、训练数据、训练镜像和脚本、模型文件、模型描述、参数信息(如 batch size、learning rate、weight_decay、momentum等)和评估信息(如评估数据、评估镜像、召回率、准确率、精确率、F1值等);支持将符合技术标准的外部训练模型导入,在平台中进行统一管理 版本管理:支持模型版本化管理,提供模型多次迭代间的版本化组织功能; 模型测试: 模型测试:支持模型在线测试和离线测试两种方式,具体包括: 在线测试:用户可以页面化发起在线测试任务,通过开发服务端口的方式提供模型测试服务,支持常见的在线测试方式,如 tensorflow-serving、tensorRT-server、torch-server等,支持http、gRPC等多种调用方式; 离线测试:用户可以页面化发起离线测试任务,用户指定测试使用的资源规格( CPU、加速卡型号及个数)、离线测试脚本、离线测试数据等,发起任务后,平台自动将模型挂载至离线测试任务环境内,根据用户自定义脚本批处理式的进行模型测试 算法管理: 算法管理:平台可以规范模型训练的输入、训练使用镜像、训练资源规格、输出,提供算法的版本化管理。 算法创建:平台提供页面化的算法管理功能,算法包括名称、版本、运行时镜像、训练脚本 /命令、环境变量、模型、资源规格(CPU、加速卡种类及个数等)、单机或分布式运行模式、描述等; 工作流管理: 平台提供工作流调度功能;用户可以定义模型训练的数据处理、模型算法训练过程,支持自定义数据处理脚本、数据输入输出、数据处理任务资源规格,支持自定义选择模型算法、运行参数、环境变量、模型挂载、单机分布式运行模式,用户可自定义模型导出相关信息(如模型名及版本); 工作流自定义运行周期:工作流支持手动触发运行;支持周期性运行模式,间隔固定时间后由平台自动触发运行; 工作流定义子任务:支持创建多个子任务,每个子任务独立运行,多个任务以串行方式运行; 工作流模型导入:工作流产生的模型,可自动导入至模型管理模块; |