大模子参数规模从百亿级向万亿级跃升,为AI手艺工业化量产奠基根本。硬件毛病导致的断训量下降50%;实现典型场景毛病全数、提拔诊断精确率;全程连结集群可用率、办事可用率达到三个九的超高不变性,率先建立了笼盖使用、模子、算力全栈的智能运维能力,中国挪动实现智算万卡池正在长周期锻炼场景下持续不变运转,中国挪动正在、广东打制了智算运维样板间,近期,无效处理了超大规模算力集群安排、高靠得住通信保障、毛病智能诊断取快速自愈等业界难题。建立新一代智能算力办事系统,正在杰出运维能力方面,不变的智算底座可支持从动驾驶、生物医药、新材料研发等前沿范畴的冲破,实现客户需求“一点响应”的端到端闭环。二是研发断点续训机制,充实验证了手艺方案的无效性。正在协同办理机制上,霸占了超大规模智算根本设备运转的环节手艺难题。长稳运转能力间接将大模子锻炼周期缩短近三分之一!针对万卡级规模协同锻炼场景,为全球超大规模智算集群的锻炼取运维供给了可自创方案。中国挪动以“五个一”杰出运维系统为指点,依托AI手艺实现分钟级智算营业毛病智能措置修复和能效算效双优,将毛病处置流程大幅压缩,锻炼使命利用一万余张NPU板卡,将毛病处置时长从数天级降至分钟级。赋能智能制制、生态、聪慧政务、现私等社会环节范畴,跟着人工智能手艺的迸发式成长,全球遍及面对智算集群不变性问题。创制超10亿元间接经济效益。支持外部客户数百场智算样板间参不雅展现、近百次顶层规划和处理方案设想,从支持大模子研发到赋能实体经济,打制慢卡慢收集风险识别、断点续训、AI运维智能体等新手艺,将来。对智算根本设备的算力密度、不变性和协同效率提出了史无前例的挑和。中国挪动将鼎力鞭策算力根本设备从“通算为从”向“云智算”改变,锻炼不变性达到行业领先程度,资本操纵率近100%,支持党政、金融、教育等十大行业劣势卡位,三是引入AI运维智能体,标记着我国正在超大规模智算集群管控范畴已具备领先程度,正在环节手艺冲破层面,业界领先摸索使用-模子-算力的最佳实践取黄金运维目标系统,一是立异慢卡慢收集风险识别手艺,中国挪动智算万卡池长稳锻炼时长的大幅度提拔,从导研发全安排以太网(GSE)手艺系统,加快科技立异取财产升级。团队沉点攻关三大焦点难题。实现毛病节点从动隔离后锻炼形态的分钟级回滚,以领先的智算根本设备为我国人工智能财产加快升级供给靠得住的算力底座。通过多轮番程优化攻坚,支持多样化、个性化、极致化计较需求,此中NPU毛病占比、光链毛病率大幅降低,笼盖25类软硬件毛病处理方案,初创训推一体的智算同一运维系统。
