Date: Thu, 15 Jul 2010 17:26:59 +0900
--------------------------------------------------
HPC系ですが、Resilienceについてのワークショップ 2件の講演資料です:
3rd Workshop on Resiliency in High Performance Computing (Resilience)
in Clusters, Clouds, and Grids, May 17, 2010
http://xcr.cenit.latech.edu/resilience2010/
1st Workshop on Fault-Tolerance for HPC at Extreme Scale (FTXS 2010)
June 28th, 2010
http://institute.lanl.gov/resilience/workshops/ftxs2010/
どちらも同じページから講演資料のダウンロードが可能です。
2018年の ExaFlopsに備えて、これから用語の定義等をしていくのでしょう
(一部内容が重なったりもしています)
概論は、例えば Resilience 2010の
Welcome/Introduction
Christian Engelmann, Workshop Program Chair
http://xcr.cenit.latech.edu/resilience2010/docs/introduction.pdf
Discussion:
"Towards Resilience Standardization"
Chokchai (Box) Leangsuksun, Workshop Co-Chair
http://xcr.cenit.latech.edu/resilience2010/docs/resilience_standardization.pdf
FTXS 2010
"Introduction / Welcome / Level-Setting"
Nathan DeBardeleben, Resilience Thrust Leader
DoD / Center for Exceptional Computing
http://institute.lanl.gov/resilience/workshops/ftxs2010/FTXS_Keynote.pdf
※スライドのバックは綺麗
"Using Cloud Constructs and Predictive Analysis to Enable Pre-Failure
Process Migration in HPC Systems", Resilience 2010
http://xcr.cenit.latech.edu/resilience2010/docs/pre-failure_process_migration_in_HPC_systems.ppt
は、[san-tech][02199] OVIS: A Tool for Intelligent, Scalable, Real-Time Monitoring of Large Computational Clusters
http://ovis.ca.sandia.gov
SLURM: A Highly Scalable Resource Manager
https://computing.llnl.gov/linux/slurm/
を組み合わせたプロトタイプを検討しています。
HPC Resilience Consortium Wiki!
http://resilience.latech.edu/mediawiki/index.php/Main_Page
※関連情報をここに集めるようにしています
0 件のコメント:
コメントを投稿