我创建了一个项目,用来测量K1上使用IME加速GEMM能够得到的效率,并用Roofline Model来展示结果:RSPwFPGAs/roofline_model_spacemit_k1
当前在MxNxK为4x4x8, 16x16x16, 64x768x768三种尺寸的矩阵乘法上测得的性能如下图所示。其中算数强度(AI)的理想值被标注出来,实测值作为性能测试结果的横坐标值。
从图中可以看到,16x16x16与64x768x768内核的性能远未达到性能峰值。其中一个重要原因是它们实现的内核算数强度(Arithmetic Intensity)偏离理想值很远。
恳请社区和进迭时空的专家们给与指导。

