此外,CPU灵活性和计算能力可扩展性也得到了提高。所谓CPU的灵活性是CoreX I AI加速芯片可以适应x86 CPU、ARM CPU和国内自主开发的CPU,如龙芯CPU。可扩展性是指与PCIE 4.0的完全集成。通过单卡、双卡和四卡的配置,可以有效地线性扩展计算能力,控制延时。据悉,在8卡配置中,单机可提供38TFLOPS以上的计算能力。
梁斌指出,通过对主流算法的优化,基于数据流的高能高效运行、高带宽和大容量的本地存储器,Iluvatar CoreX I进一步弥补了目前主流竞争对手计算能力不足的核心问题。根据梁斌给出的数据,目前市面上的15瓦AI芯片提供的计算能力为1.5TFLOPS,能效比约为0.1。天数智芯片Iluvatar CoreX I在功耗低于4.7W的情况下能提供4.8TFLOPS的计算能力,与主流竞争对手相比,提供了10倍以上的能效比。
用户场景应用受限
不过,客户对计算能力的需求是为过去、现在和未来的负载都能提供很好的支撑。用户并不关注峰值数据,他们更关心实际场景中的性能改进。因此,虽然Iluvatar CoreX I能效比数据让人眼前一亮,但在注重用户的使用上,上面提到的CPU灵活性和可扩展性,以及透明迁移必须落到实际应用场景才能见效。
人工智能应用通常包括几个方面,芯片、软件库、TensorFlow操作符、TensorFlow API函数。要实现多样的场景应用性,需通过与成熟的开发生态系统进行原生兼容,客户无需任何代码更改,以实现应用程序迁移。市面上大多数人工智能芯片产品都是基于底层软件库和自主开发的编译器SDK。通过耗时的代码转换,大多数客户的应用程序需要很长的时间才能适应,而这也对天数智芯造成了不少困难。
为了更好地满足客户的需求,天数智芯基于新的人工智能芯片提供了两大解决方案:边缘端计算系统板和PCIe加速卡。边缘计算系统板主要针对边缘端应用的嵌入式集成解决方案的应用场景,如智能垃圾分类、智能零售、智能监控等。同时,也可以在边缘服务器上直接配置PCIe边缘加速卡,单卡配置可以支持一颗芯片,或两到四颗芯片。
还需要注意的是,天数智芯必须进一步优化解决边缘端、边缘云和中心云三大系列芯片,因为这些芯片的设计是为了更好地满足人工智能和5G的需求。
天数智芯负责人也意识到:“我们下一个要发布的芯片是高端云训练GPGPU芯片。基于7nm工艺,采用自主研发的GPGPU芯片架构,提供混合计算能力和CUDA本机兼容性。第三款芯片是中端GPGPU芯片,该芯片还将采用先进工艺,提供混合精度计算能力和CUDA本机兼容性。它也是一个完全自主开发的GPGPU架构,专注于图形和图像的边缘云推理场景。”
文章TAG:芯片 系统 开发