Cで書くか、アセンブラで書くか

マンデルブロ集合や万有引力シミュレータなどを書くとき、
Cでちゃんと書けば速度は出るのだが、
そのCのコードを元にSSEなどを使ってアセンブラで書くと、
確実に倍は速くなる(計算対象が元々SIMD向きだし)。

それを思うと、Cで書いているときからアセンブラでの高速化がしたくてしょうがなくなる。
Cレベルでアルゴリズムをしっかり詰めて、欲しい機能も充実させてから、
効果的な場所だけアセンブラにするのがいいのに。