Reprints from my posting to SAN-Tech Mailing List and ...

2011/06/09

[san-tech][02199] OVIS: A Tool for Intelligent, Scalable, Real-Time Monitoring of Large Computational Clusters

Date: Fri, 09 Apr 2010 18:01:09 +0900
--------------------------------------------------
大規模システムのモニターリングソフトウエアプロジェクトの紹介です:

OVIS: A Tool for Intelligent, Scalable, Real-Time Monitoring of Large
      Computational Clusters
  https://ovis.ca.sandia.gov/mediawiki/index.php/Main_Page

  "Traditional cluster monitoring approaches consider nodes in singleton,
   using manufacturer-specified extreme limits as thresholds to avoid
   failure. The OVIS tool for monitoring and analysis of large computational
   platforms, instead, uses a statistical approach. Leveraging the fact
   that a cluster is comprised of a large number of similar components,
   OVIS statistically characterizes the behaviors of single components in
   the context of the behaviors of the entire set of components. Abnormal
   or outlier behaviors can be much earlier indicators of problems than
   threshold-crossing. "

普通の監視システムでは満足出来ない方々の環境です。



現行の OVIS 2.0では
※現在 (2011/06/09) 時点では OVIS 3にバージョンアップしています。
 申し訳ありませんが、ML投稿時のままで・・・
  "OVIS 2.0 includes a 3D visual display of deterministic information
   about state variables (e.g., temperature CPU utilization, fan speed)
   and their aggregate statistics. Visual consideration of the cluster
   as a comparative ensemble, rather than as singleton nodes, is a
   convenient and useful method for tuning cluster set-up and determining
   the effects of real-time changes in the cluster configuration and
   its environment."
xmlファイルに定義していくようです。

Sandia National Labsのプロジェクトとして始まったので、ターゲットは HPCと
してますが、監視対象は Cray XTに限定してないので、データセンター等でも
使えると思います。

画面:Image:OvisInterface.png
  https://ovis.ca.sandia.gov/mediawiki/index.php/Image:OvisInterface.png
  "OVIS display showing run-time conditions and configuration of the
   cluster. Nodes are shown in the physical layout of the cluster racks.
   Values of Raw and derived quantities are displayed by color-coding of
   the nodes. Patterns and outliers are easily spotted by the eye."
※よく見れば Cray XTですね。
頑張れば自分で 3D画面を作れるようです (VTKを使用)
データは MySQLか PostgreSQLに保存

Downloads and documentation
  https://ovis.ca.sandia.gov/mediawiki/index.php/Downloads_and_documentation
Example Dataも提供されているので、苦労してインストールして終わり、には
ならないと思います。提供マニュアルでは、Example Dataの解説に 15ページ
さいてくれています。Exampleは圧縮して 25MB、解凍して 102MBの SQLです。
Exampleは普通の 1Uクラスターのようです (でも 9ラック構成)
※ZABBIXでもそうでしたが、ゼロからの構築はかなり厳しいです。

Publications and Presentations
  https://ovis.ca.sandia.gov/mediawiki/index.php/Publications_and_presentations
"OVIS: Scalable Real-time Analysis of Very Large Datasets"
  https://ovis.ca.sandia.gov/mediawiki/images/7/7f/Handout-3-09v5.pdf
2ページパンフレット
関連研究は 2003年 (Distributed Intelligent RAS System for Large Computational
Clusters) からスタートしています。

ASC eNews 2010年 3月号によると、Louisiana Tech Universityの
 Extreme Computing Research Groupと研究提携したそうです
"Collaboration with University Explores HPC Resilience"
 March 2010, ASC eNews, NA-ASC-500-09-Issue 14
  http://www.sandia.gov/NNSA/ASC/enews/0310/0310-hpc_ovis.html

Extreme Computing Research Group, Louisiana Tech University
  http://xcr.cenit.latech.edu/blog/

0 件のコメント:

コメントを投稿