工具/软件:
您好、
(如果此问题不在本论坛的主题中,请原谅!)
我们将使用“Linux SDK 适用于 AM62A 上的边缘 AI 应用“(版本 10.00.00.08)。 为了更好地了解 Tensorflow 的性能,我们希望使用“tidl_TFL_delege"比较“比较浮点和 int8 量化模型的推理,也就是说我们希望 Tensorflow 运行(多线程)浮点量化模型的 XNPack 委托,以及 INT8 量化模型的“Ruy"增强“增强计算。
通过使用“perf record“工具和运行时检查,我们发现这些假设是正确的:推理运行两种模型类型的相应运算,是多线程的,并利用 ARM+SIMD (Neon) 指令。 但是,int8 量化模型的推理速度要比其他类型的 XNPack 慢得多。
我们在 tensorflow 存储库(在 GitHub 上)中发现了一个看似相关的问题#21698(INT TFLITE 比浮动 TFLITE 问题#21698 tensorfollow/tensorflow 慢得多)··,提供的一个解释指出了一个不太优化的 ISA(在 x86 上),它没有涵盖我们的情况。
除了使用 TIDL 学员、是否还有其他想法可以提高 INT8 模型上的推理性能?
此致
Stefan Birkholz