最近刚刚接触C6748,目前主要测试C6748的运行速度问题,已决定是否取代现有的28335,应用时主频456M,L1作为Cache,程序放在L2中,优化o3,查看TI自带的Delay函数时,发现其汇编代码单步运行时,每步需要6个时钟周期,请问这种运行速度是否正常?
ps:之前一直在用28335,相同的程序在28335中运行大概需要2.4us,在C6748中需要1.5us,C6748的运行速度貌似并没有想象中的强大,有什么途径可以改善呢?
以下为Delay函数的汇编代码:
Delay:
118040c0: 07BF005A SUB.L2 SP,8,SP
118040c4: AC45 STW.D2T1 A4,*B15[1]
371 while(delay--);
118040c6: BC4D LDW.D2T2 *B15[1],B4
118040c8: FDA6 MVK.L1 -1,A3
118040ca: FEA7 MVK.L2 -1,B5
118040cc: 2C6E NOP 2
118040ce: EE41 ADD.L2 B4,-1,B4
118040d0: BC45 STW.D2T2 B4,*B15[1]
118040d2: BC4D LDW.D2T2 *B15[1],B4
118040d4: 6C6E NOP 4
118040d6: 86E9 CMPEQ.L2 B4,B5,B0
118040d8: 202CA121 [ B0] BNOP.S1 $C$DW$L$Delay$0$3$E (PC+88 = 0x11804118),5
118040dc: E7C00000 .fphead n, l, W, BU, nobr, nosat, 0111110
118040e0: 3000A35A || [!B0] MVK.L2 0,B0
