とりあえず MFC の使い方だけ直して、約束通り 1 割改善。
俺のテキトーな予想が当たってる。すげー。
- CELL 特有の処理を極力行わず、float 型を使い、最適化はコンパイラオプションに任せる。(870.21 ms)
- マルチコアに拡張する。(299.61 ms, 2.9 倍速くなった)
- いまここ→メモリフローを改善する。
- SIMD 化する。
- 大きくアンロールする。
- アセンブラでガリガリ。
SPU_4x4_C2.elf 735924440 clk, 0.69 clk/FP // 229.98 ms
次は根本的にメモリの使い方を変える。