計算高速化セミナー

ご質問への回答集(Q&A)

2011/12/6 (火) 高速計算コンサルティングセミナー 神戸会場

1.市販のソルバーの高速化はお願いできますでしょうか?
1.ソースの提供を受けられないのであれば、弊社では高速化は不可能です。
ただし、ユーザサブルーチンなどを組み込むことが可能で、マトリクスソルバ部分を入れ替えることができるのであればSMSを組込んでの高速化が可能かもしれません。

2011/12/8 (木) 高速計算コンサルティングセミナー 東京会場

1.通信の最適化事例の結果から、ノード内のコア数を増やせば、速い通信ができるプロセスが増えて一番良いのではないかという印象を受けました。今のハードウェアが4コアx4ソケットというところに設定されているのは発熱が原因なのでしょうか?これ以上コア数を増やす方向に発展しないのでしょうか。
1.CPUチップの面積の制限があり、チップ(ソケット)外への通信に使えるピン数が非常に少ないため、ソケット数を増やす方向への発展は難しいものと思われます。また、チップ内のコア数を増やすと、コア数の増分に応じたメモリバンド幅を確保することが難しいことと、キャッシュのコヒーレンシ制御のオーバーヘッドが大きくなるため、こちらもコア数を増やすのは困難です。
2.通信の速度は距離が延びても変わらないのでしょうか?
2.一般的には、遠いところとの通信ではレイテンシが長くなることがありますが、バンド幅(通信速度)は距離に影響され ません。
3.レイテンシは距離に比例して伸びるのでしょうか?
3.距離に比例して伸びることはありません。しかし、多くのネットワーク構成では途中にスイッチ等の機器が挟まることによって段階的にレイテンシが長くなります。

2011/12/9 (金) 高速計算コンサルティングセミナー 東京会場

1.通信最適化事例のチューニングはマッピングを変えただけでしょうか?
1.hwlocを用いて取得したハードウェア階層情報にもとづいて近接プロセッサ間の通信がより多く、遠隔プロセッサ間の通信がより少なくなるようにプロセスマッピングの最適化を行ないました。
2.通信最適化事例のデータのマッピングに使用したソフトウェアは何でしょうか?
2.領域分割にも用いたScotchを使用しました。Scotchはフリーのグラフツールで、グラフの分割やオーダリングの他、2つのグラフの最適なマッピングを計算する機能を提供しています。
3.通信最適化事例のオリジナルのマッピングは最適なマッピングに比べてどの程度ランダムだったのでしょうか?
3.オリジナルの場合、JOBコントローラが隣接した領域をある程度同じノード内にマッピングしてくれていると考えられるので、並列数が小さいところでは、あまりチューン版と差が出ていません。ただし、並列数が大きくなると、その差が広がっています。これは、並列数が大きくなるとJOBコントローラが非効率なマッピングを行なうためと考えられ、大規模な並列計算になればなるほど本手法が有効に働くということを示しています。
4.通信最適化事例で使用しているhwlocを使って取得したハードウェア構成の図を取得することは可能でしょうか?
4.hwlocを使って取得したハードウェア構成は図として出力することができます。この図では、マルチコア構成や各レベルでのキャッシュ共有の度合いNUMA構成で同一のローカルメモリに接続されているコアの範囲などの情報を確認することができます。
5.通信最適化事例の測定を行なったコンピュータ環境は「京」でしょうか?
5.共同研究先の理化学研究所のスーパーコンピュータ(RICC)を使用しました。