您好!
根据 您的文档、矩阵乘法加速器在1GHz 时可达到8TOPS (8b)。 我的问题是:卷积层是否有任何特定的配置来实现此性能? 您能否给出一个内核尺寸、特征图高度/宽度或输入/输出通道数的示例、以达到最高 MMA 性能?
让我解释一下我的想法、例如、我有一个用于512x256x64输入功能图的卷积层、以及一组用于生成输出功能图(512x256x64)的内核(3x64x64)。
当3x3卷积时、需要执行9个 OPS、因此我可以想象、多个输入/输出通道在一个周期内被处理(深度维度为并行化)、例如32个输入通道和32个输出通道、在本例中、一个周期中的3x3x32x32=9216 OPS 在1GHZ 时被执行、 因此、在我的示例中、我们可以达到9.216 TOPS。
那么、让我们以3x3 conv 示例为例、您能解释一下如何在 MMA 上宣布8TOPS?
此致、