« SPU をベンチマーク(その5) | メイン | CELL で時間計測 »

SPU をベンチマーク(その6)

 最後の仕上げにアンロール。

  1. CELL 特有の処理を極力行わず、float 型を使い、最適化はコンパイラオプションに任せる。(870.21 ms)
  2. マルチコアに拡張する。(299.61 ms, 2.9 倍速くなった)
  3. メモリフローを改善する。(138.30 ms, 2.2 倍速くなった)
  4. SIMD 化する。(86.62 ms, 1.6 倍速くなった)
  5. いまここ→大きくアンロールする。
  6. アセンブラでガリガリ。
SPU 1 個:

  SPU_4x4_C3.elf     1192952520 clk,  1.11 clk/FP // 372.80 ms
SPU 6 個:

  SPU_4x4_C3.elf      273248200 clk,  0.25 clk/FP // 85.39 ms

 こちらも元々 -funroll-loops が効いていため、全く効果が無い。

トラックバック

このエントリーのトラックバックURL:
http://yoffy.dyndns.org/cgi-bin/mt/mt-tb.cgi/545

コメントを投稿

About

2006年12月31日 20:40に投稿されたエントリーのページです。

ひとつ前の投稿は「SPU をベンチマーク(その5)」です。

次の投稿は「CELL で時間計測」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Powered by
Movable Type 3.37