轻量化模型数据集

轻量化模型数据集
公司拥有国内零成本训练模型库+算子编译运行引擎+时空复用的视觉处理加速技术等核心技术。
主要特点:基于自专用研算子库与轻量化模型架构,可按需灵活定制多种底层异构硬件(通用处理器、智能芯片、FGPA、DSP...),并将其融合于一体,提供人工智能推理和训练功能,面向多模态势复合领域的多种人工智能算法、框架,实现高速提升,提高武器装备AI效能。
产品详情
规格参数
系统软件配置
应用场景

(1)面向单算子:算子配置推荐

提出改进的搜索算法,使用局部优化搜索代替全局搜索,兼顾搜索效率和性能优化效果。首先,针对算子的异构算力配置,分析算子计算时间和线程数之间的变化趋势,设计了混合膨胀压缩的搜索算法;针对算子的计算编排配置,从典型深度学习框架提取关键配置,分析其局部特点,设计了蒙特卡洛-贝叶斯优化搜索算法;基于这两类配置和对应算法,可显著减少无效搜索。在CPU、GPU和FPGA异构算力环境中,对conv2d、matmul两类主要耗时算子进行了配置推荐验证,相较于当前黑盒方法,能最高减少超过一个数量级的搜索开销,同样搜索次数下可提升30%的算子性能;相较于其他硬件分析或手工调优方法,则有更强的适用性。

(2)面向单个算法任务:算子切分并行

提取主要耗时的少量关键算子,给出切分比例可动态设置的切分优化策略,以精确协同异构算力。首先,针对典型深度学习算子运行时间分布,分析少数关键算子主导推理时间的聚集性特征,设定阈值筛选少数几种主要耗时算子作为切分对象;然后,针对不同切分维度、比例下的算子运行时间变化规律,提取线性、阶梯和浮动三种切分模式,基于模式匹配来提升切分精确度;最后,依次使用单算子最优切分、多算子切分协同调整算法,自适应数据、模型两种并行模式以提升计算速度。在异构算力上对CNN、RNN和Transformers三类算法中的算子进行了切分优化验证,实验结果表明,相较于当前切分策略,能最多缩短近50%的计算时间。

(3)面向多个算法任务:算子全局放置

定义新的放置约束来减少算法任务间干扰,构造最小费用流模型表示算子放置约束,提出增量式放置求解算法,以较低复杂度缩短所有计算时间。首先,提出能直接反映全局优化效果的新放置约束:基于算子加权加速比的优先级,和基于加速比分布差异的算子间亲和性,满足约束放置算子可减少算法间间干扰;然后,通过最小费用流模型表达放置约束,并给出了最小费用流求解和放置优化之间的映射关系;最后,提出新的单源最短路径求解算法,和对应的节点合并、边搜索剪枝机制,能以较低复杂度得到全局优化的算子放置结果。对多种算法组合共享异构算力的情况,进行了放置优化验证,实验结果表明,在满足定义的优先级和亲和性时,以较低的算子放置求解复杂度,能最大提升200%的异构算力效率,并降低2整体算法处理时间。