DeepSeek4月24日发布了DeepSeek-V4-Pro旗舰模型及DeepSeek-V4-Flash高效模型。同日下午,由智源研究院牵头研发的众智FlagOS宣布已在第一时间对两个“巨无霸”模型进行全面适配,目前已完成DeepSeek-V4-Flash在8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数等国产芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,后续即将开源。
据了解,此次发布的DeepSeek-V4-Flash采用“FP4+FP8混合精度”,该精度目前仅英伟达Blackwell及之后的高端芯片支持,国内所有非英伟达AI芯片均未支持FP4。换句话说,如果按原有技术路径,这个新模型基本只“认”英伟达最新款显卡。
围绕这一难题,FlagOS研发团队进行了迅速攻坚,实现了FlagGems全算子替代、为o-group采用独立张量并行策略解锁更多低显存场景、FP4到BF16的精度路径转换等三项关键技术突破。以FP4到BF16的精度路径转换为例,研发人员通过权重反量化和计算路径重建,让DeepSeek-V4-Flash不再只是“最新款英伟达卡才能跑”的模型,而是能够在当前各种厂商的主流AI芯片上稳定运行。
据悉,此次FlagOS的适配成果,从算子层、编译层、框架层到工具层,为大模型跨芯片适配提供了全方面技术支撑,将原本数周的适配周期缩短至数天,真正实现顶尖国产大模型在国产芯片上的极速落地。
DeepSeek4月24日发布了DeepSeek-V4-Pro旗舰模型及DeepSeek-V4-Flash高效模型。同日下午,由智源研究院牵头研发的众智FlagOS宣布已在第一时间对两个“巨无霸”模型进行全面适配,目前已完成DeepSeek-V4-Flash在8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数等国产芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,后续即将开源。
据了解,此次发布的DeepSeek-V4-Flash采用“FP4+FP8混合精度”,该精度目前仅英伟达Blackwell及之后的高端芯片支持,国内所有非英伟达AI芯片均未支持FP4。换句话说,如果按原有技术路径,这个新模型基本只“认”英伟达最新款显卡。
围绕这一难题,FlagOS研发团队进行了迅速攻坚,实现了FlagGems全算子替代、为o-group采用独立张量并行策略解锁更多低显存场景、FP4到BF16的精度路径转换等三项关键技术突破。以FP4到BF16的精度路径转换为例,研发人员通过权重反量化和计算路径重建,让DeepSeek-V4-Flash不再只是“最新款英伟达卡才能跑”的模型,而是能够在当前各种厂商的主流AI芯片上稳定运行。
据悉,此次FlagOS的适配成果,从算子层、编译层、框架层到工具层,为大模型跨芯片适配提供了全方面技术支撑,将原本数周的适配周期缩短至数天,真正实现顶尖国产大模型在国产芯片上的极速落地。