实验中心举办AIC云平台使用培训

2021年 9月24日下午14点,由北京师范大学人工智能学院和曙光联合举办的AIC云平台使用培训在电子楼206实验室顺利举办。

AIC云平台是人工智能学院为提升科研竞争力,提高科研实践能力,配置的一套高性能GPU集群,其中包括有24张具有先进算力的NIVIDA V100的GPU显卡,每块显卡具有32G显存,为人工智能深度学习等科研方法提供强有力的计算资源。

本次培训以GPU硬件平台为引导,以助力科研为主旨,目的是让新进入人工智能学院的研究生快速了解AIC云平台,并掌握使用最佳方法。对已经在平台使用的中高级用户提供最佳方案分享和问题需求答疑。

此次活动采用线上线下融合的方式,参加线下培训学生五十余人,线上学生四十余人,增进了人工智能学院进一步科研创新实力。

实验中心支持团中央青少年高中生夏令营活动

近年来,人工智能学院一直作为我校参与的团中央青少年高中生夏令营的课程活动支持单位,我院今年开设了机器人与人工智能、Python等课程。由于疫情,今年的学生均来自北京的各高中。实验中心主要开设了机器人体验课程,同学们了解了目前机器人的发展,体验了主流机器人的能力,并实际实践了四足机器人相关教学活动。同学们反应热烈,课堂气氛活跃。

实验中心支持“两地同上一门课”

北京师范大学已经形成“一体两翼”的办学格局,人工智能学院正在探索“一院两址”的人才培养模式。实践创新是新时代国家和社会对大学教育的重要期许,学院极为重视面向一年级学生的《专业实习一》实践实训课程。组织学院各方力量、整合阿里旗下海豚大数据及人工智能实验室企业能力,为本次实训课程打造了专有本地实训平台。并通过此次实践,探究两地同上一门课的关键问题,摸索切实可行的教学模式。

获奖同学合影

实验中心相关老师密切配合,在此次活动中完成了实训平台部署,张弘老师对北京校区实训场地进行了布置,樊亚春老师、赵世凤老师分别担任北京校区、珠海校区教学支持老师,王兵老师对核心网络等进行了升级。

本次专业实习理论与实践相结合,为同学们系统地介绍了AI体系和主要AI工具,并通过大量实验帮助同学们了解和掌握AI工具的应用方法。通过训练,同学们掌握了实践项目的创立、分析、设计、实现等流程,初步具备了应用AI工具解决实际问题的能力。在最后的项目实践环节,141名同学分为43个项目小组,分工配合,充分发挥创新创意精神,在短短一天时间里,以所学之识、团队之力,设计完成了人工智能+医疗、娱乐、生活、金融等多种场景的解决方案,并交付完整作品,出色地完成了训练任务。经过激烈角逐,其中10个项目作品获得了评委老师高度评价,共评选出2个冠军团队、3个亚军团队和5个季军团队。

珠海校区同学合影

教学云平台功能及资料

(一)基本功能

  1. 资源管理
     云平台是一套基础软硬件管理,能够兼容、支撑各种厂家的服务器、网络、
    存储设备
     实现对各类异构软件基础资源的兼容,实现资源的动态流转
     实现资源的整合管理,将静态、固定的硬件资源进行调度,形成计算资源池
     除硬件资源外,管理软件,包括单机OS,数据库,应用程序等
     可以根据业务需求,建立网络资源池,对网络接口进行虚拟机管理,并配置不同的虚拟化策略
     可以根据业务需求,建立存储资源池,对存储资源进行虚拟机管理,并配置不同的虚拟化策略
     监控物理层、虚拟曾、网络池、存储池的运行状态
  2. 调度管理
     将不同特征、不同需求的暑假分别存储在设备中,并对它们进行统一管理
     实现大规模基础软硬件资源监控
     完成长期的业务负载和资源情况的统计分析
     以一句负载情况实现业务、资源的动态调度,在满足客户需求的情况下,有
    效提高资源利用率
     通过模板化工具,按需分配、调度资源,实现快速响应和快速部署
     根据策略实现服务器与服务器之间的负载均衡等,并自动根据策略执行
     根据策略实现计算资源池、网络资源池、存储资源池的调动和分配工作
  3. 报表管理
     监控物理服务器、虚拟服务器、网络池、存储池的运行状态
     根据管理要求、运维需求提供各种报表
     完成长期的业务负载和资源情况的统计分析
     自动逸报表完成业务需求和运维需求
     结合网管系统、动环监控系统提供多种维度、多种展示方式的报表,展现运
    行状态

(二)增值功能

  1. 虚拟机模板定义
     创建虚拟机时可定义操作系统,设置CPU、内存、硬盘等多个维度的选择范

     各个维度的条目的展现形式,有进度条和单选框两种方式
     各个维度的条目的选择结果,可以保存为模板
     根据选择的内容,自动完成选择内容的安装
  2. 网络池模板
     统一管理网络资源池,集中管理和分配网络端口
     可创建模板定义不同的虚拟机网口,并配置不同的聚合虚拟化策略,在创建
    虚拟机时进行分配
  3. 存储池模板
     统一管理存储资源池,集中管理和分配存储端口、交换机、LUN 等资源
     支持底层LUN 扩展,或底层LUN 在云OS 层面的整合、分配
     支持虚拟机动态扩展文件系统或增加文件系统
  4. 虚拟机创建
     可以单次定义选择内容,单词执行创建过程
     可以调度一个或多个模板,批量执行,自动完成虚拟机的创建和相关软件的
    安装

下载教学云平台使用手册

实验中心岗位设置

为了更好助力学院战略目标的实现、教学科研和学生实践活动的开展,特梳理拟定如下实验岗位。后续根据实验中心发展,岗位职责及岗位设置将进行适当调整。

一、岗位列表

岗位名称岗位数量涉及实验室
1、实验中心主任1——
2、精密机房1200
3、人工智能实验室I1102、201
4、人工智能实验室II1300、302、313
5、软件实验室1204、205、206
6、网络运维1全院网络
7、本科生实践1207
8、教学云支持1教学云设备集群
9、计算集群2208、GPU服务器集群

二、岗位职责

(一)通用岗位职责

1、确保岗位所负责设备运行正常;

2、负责岗位相关实验室安全,制定实验室安全制度,包括应对突发事件、定期巡检、隐患排查;

3、负责制定本实验室师生使用制度/开放办法,并监督制度的落实与执行;

4、日常台账管理:进驻设备、设备维修、更换、异常情况处理等记录;

5、每学期岗位运行数据报告:包括教学科研使用统计、学院其他服务统计、设备运行情况和其他相关工作事项。

(二)岗位特有职责

岗位名称职责内容
实验中心主任1、全面负责实验中心建设、运行和管理工作;
2、带领团队服务学院建设;
3、统筹制定实验室规则制度;
4、拟定实验中心岗位需求、岗位职责;
5、负责岗位考核。
精密机房 1、掌握机房运行状态,及时处理告警、故障等,制订应急处理方案;
2、对精密空调进行每月、UPS进行每季度巡检;
3、根据业务需要提出基础设备升级、更新换代建议等;
4、对新入驻设备进行功率、网络资源等评估,并提供支持;
5、协助入驻设备管理人员进行异常处理等。
智能实验室 I1、根据教学等业务需要,及时与任课老师协作,确保实验室环境满足教学要求;
2、与科研团队协作,为科研活动提供支持;
3、结合学院发展需要,不断改进实验室环境和设备,紧跟学科发展前沿。
软件实验室 1、定期检查设备、线路等,排除安全隐患,确保安全标识等规范张贴;
2、及时对软件进行升级包括操作系统、安全软件等;
3、在满足已有实验教学计划之余,积极配合学校或学院对实验室的其它教学或科研需求。
网络运维  1、为服务器、计算机等设备接入网络提供支持,包括物理接入方式和IP分配方案等;
2、定期巡检,每月对学院网络做一次巡检,查看电源,设备,线缆是否有潜在风险;
3、突发事件,如遇突发事件,与学校相关部门配合,积极快速处理,尽快解决故障,恢复网络;
4、网络升级,与学校网络中心等部门配合,完成升级改造、服务器等重要设备迁移,保证全院网络运行正常;
5、网络安全,包含物理安全和信息安全,与网络中心等部门配合,优化网络结构和配置,防止无关人员接触重要网络设备;
6、宣传国家信息安全政策,避免师生在网络上发表不当言论,如有不当言论出现,配合网络中心查找相关人员,并批评教育。
智能实验室 II 1、确保实验室安全,包括人身安全、场地安全、用电安全和设备安全。在所有实验课程开始的第1-2节课,管理人必须当面授课,给实验室使用人(包括教师和学生)讲授实验室安全规范、实验室守则、仪器设备安全操作规程和意外情况应对办法。在实验室使用过程中,管理人应该查看或随机抽查的方式,检查使用人的安全规范执行情况,发现问题及时纠正,如发现同样的问题出现两次以上,须及时上报实验中心;
2、 对实验耗材进行全面管理,维护《实验室耗材登记表》,定期清点耗材使用情况,及时补充实验耗材。耗材使用后或损坏后做废弃处理,需要遵守垃圾分类原则和有毒有害垃圾的处理办法;
3、低值实验设备(未达到固定资产金额的设备)购置后,须贴实验室内部资产标签,列入《实验室低值资产登记表》。报废后须在《实验室低值资产登记表》中记录时间及理由。低值设备报废后无专人负责拉走,需要实验室管理人自行处理,处理方法同实验耗材。
本科生实践1、根据学院安排的业务,制定和更新具体的使用人员管理办法:涵盖安全、卫生等使用过程中的具体规定;
2、根据管理办法,负责入驻学生及团队业务相关事务以外的管理;
3、监督学生及团队按入驻目标使用实验室设备和环境。
教学云支持1、确保设备正常运行,定期检查平台运行状态,对关键数据进行备份,及时发现问题和处理;
2、现有条件下无法完成的维修,及时联系厂家处理;
3、及时与课程老师协商,确定课程所需资源,并分配相应的平台资源,设置各课程学生资源配置,并进行测试,确保课程师生可正常使用;
4、在虚拟机运行期间,积极处理师生遇到的各种问题;
5、学期末,依据课程情况,对学生所使用虚拟机进行当期或延期回收处理;
6、积极探索教学云设备的创新使用,发挥云集群的优势和价值。
计算集群 1、GPU服务器集群
(1)对集群用户进行培训,执行计算资源分配和用户管理;
(2)根据教学、研究、项目等具体需求,做好技术支持;
(3)做好数据安全工作,特别是数据备份;
(4)探索GPU在支持学院建设中的创新方案和典型的有展示度应用;
(5)拟定和维护GPU集群用户使用规则制度,积极提高设备利用率,对学院科研、教学发挥有效支撑作用;
(6)对接厂商,确保服务器环境保持最新状态。
2、208实验室
(1)面向科研,做好研究生使用方案、管理、资源调度和记录;
(2)面向教学,协助任课老师做好环境维护;
(3)定期排查工作站线路、发热等异常情况,确保实验室安全;
(4)拟定和维护GPU工作站用户使用规则制度。

教学云虚拟服务器开放办法

开放资源:虚拟服务器
主管老师:赵世凤

1、根据学院整体情况对服务器资源进行分配,原则上与已有机房资源配合使用。

2、教学云平台通过console.yun.bnu.edu.cn进行使用,登录方式与登录信息门户的方式一致,账号即工号/学号,校外登录需先登录VPN。

3、计算资源主要服务于本科生与研究生课程。使用时请维护好服务器,备份好数据,原则上在课程所在学期内24小时可用。

4、禁止将计算资源挪为他用,如发现将计算用于课程实验以外的行为,我们将收回相关计算资源。

5、我们对所有使用计算资源的情况进行统计,如果利用率低,我们将收回部分计算资源。

6、鼓励大家充分利用服务器资源,在不需要时及时释放计算资源。

7、欢迎大家对服务器资源的使用探寻最佳实践,互相交流分享,特别是有特色的应用案例,我们将对此作出计算资源奖励。

207计算机创新基地开放办法

开放资源:207计算机创新基地空间

主管老师:徐鹏飞

目前本创新基地主要开放给学院ACM队伍,为ACM-ICPC(国际大学生编程竞赛)及CCPC(中国大学生编程竞赛)服务,其主要用途包括用于CCPC/ICPC的线上比赛、日常的编程训练、相关教学资源的录制、相关软件系统的开发和维护等。

1、实验室内应保持整洁、安静、严肃、严禁吸烟,未经批准不得带无关人员进入实验室。

2、首次进入实验室的实验人员,应接受实验室安全教育,详细阅读实验中心应急预案,掌握相关应急办法。

3、实验室内任何设备不准私自拿出实验室。

4、实验室只能存放与业务相关的物品,不允许堆放私人物品。

5、实验室供电线路应由专业电工布设,切实执行安全用电规定,禁止私拉乱接电源,线路负载不得擅自放大或超载。

6、发现安全隐患或发生事故案件时,实验室人员均有义务及时采取有效措施防止事态发展,尽量避免或减少损失,需保护现场,并协助组织调查处理。同时应及时向实验室负责人或上级部门如实汇报、不得隐瞒。

7、实验室必须建立安全值班制度,离开时,必须进行安全检查,必须关闭电源和门窗。

学院GPU计算集群资料

在本文档中,您可以了解到普通用户在学院GPU计算集群(SothisAI深度学习平台)上进行深度学习网络训练的操作方法。用户通过深度学习框架“Caffe”、“TensorFlow”、“PyTorch”和“SSH|Jupyter”容器等进行训练和推理验证,并且可以管理自己的深度学习训练集、模型、网络和训练任务等,监控自己的任务运行情况,获取深度学习网络参数等。

目标读者:深度学习工程师和使用者。

共享资料:https://pan.bnu.edu.cn/l/lu8AXn,密码:fdry

包括:入门操作视频

下载1:曙光SothisAI人工智能管理平台_普通用户手册.pdf

下载2:WinSCP文件上传下载配置