フォト

関連情報

X(旧Twitter)やってます!!

2024年10月
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
無料ブログはココログ

« Arcserve Replication/HA 18.0 で消えた昔の名残 | トップページ | 耳より情報: Arcserve UDP Cloud Hybridのコンピュート リソース提供を開始 ~ ついに登場!Cloud Hybridでいきなり事業継続!! »

2020年2月18日 (火)

Arcserve Replication/HA 18.0 で RPO 違反を通知できるようになりました。

発売からだいぶ間が空いてしまいましたが、今日は Arcserve Replication / High Availability(以下 Arcserve RHA)18.0 の新機能の「RPO モニタリング」を紹介します。

前段の RPO の説明が長いので、知っているよという人は飛ばして後半を読んでください……

 

■ そもそも RPO ってなに?

データ保護関連の用語に「RPO:Recovery Point Objective(目標復旧時点)」というものがあります。これは、システム復旧の際にどこまでのデータ消失を許容できるかというもの。バックアップやレプリケーションなどのデータ保護の仕組みを設計する際に指標として使われます。

例えば、1 日 1 回、24 時間おきにバックアップしているシステムに障害が起きたとします。リストアすれば直前のバックアップ時点にはデータを戻すことができますが、バックアップ以降にシステムに入力されたデータは失われます。バックアップは 1 日 1 回なので、最悪の場合直近 24 時間分(※1)のデータが失われるわけです。

システムによっては、ほとんどデータが更新されないので 24 時間前に戻っても大丈夫、という事もあるでしょう。逆に、頻繁にデータが更新されるシステムではできるだけ最新のデータに戻したい、という事もあります。このように、システム障害から復旧する際にどこまで新しいデータに戻したいのかを表すのが RPO である、とも言えます。

Arcserve RHA はほぼリアルタイムにデータを複製できるので、ファイル サーバや販売/生産管理システム、グループウェアなどなど、更新頻度が高く比較的高い RPO が求められるサーバでよくご利用いただいています。

 

■ RPO が実際に守られているか?

RPO が高い環境に向いているとは言え、Arcserve RHA は非同期型(※2)のレプリケーション ソフトなので、本番サーバに障害があれば若干のデータロスは起こり得ます。

非同期型のレプリケーションとは、本番(マスタ)サーバでデータの更新が行われた後に、複製先(レプリカ)サーバにも更新を反映するという仕組みです。マスタとレプリカへの書き込みに時間差があるので、これが実際の復旧時点(※3)に影響します。例えば、10 時ちょうどにマスタ サーバに障害が起きてレプリカに切り替えてみたら、データは 9 時 59 分の状態だったという事が起こり得るわけです。

01_replication
 

LAN 内でのレプリケーションであれば、この「時間差」は無視してよい程度なのですが、帯域幅が限られる WAN 環境や、帯域制御機能を使っている場合は RPO に達するほど大きくなることがあります。

この課題に対して、Arcserve RHA には「アセスメント レポート」という機能があり、「時間差」がどの程度になるのかを測定して視覚化することができます。

ただ、このアセスメント レポートはどちらかというと Arcserve RHA の導入前に使う事を想定した機能なので、RPO が本当に守られているのかを継続的にモニタリングするのは不向きでした。そこで、今回紹介する、RPO モニタリング の出番です!

 

■ 試しに RPO モニタリングを使ってみよう!

やり方は簡単です。いったんシナリオを止めて、[レプリカ プロパティ]-[レプリケーション]-[RPO しきい値]の値を入力します。デフォルトは「0」で、これは RPO モニタリングが無効になっているという事です。RPO のしきい値は秒単位で設定するので、例えば RPO が 1 時間であれば 「3600(秒)」と入力します。下の例ではこの後エラーを起こすのが待ちきれないので 60 秒で設定していますが、本番環境ではまねしない方が良いかも……

02_replicaproperty

 

以下の画像は、人為的に RPO 違反を起こした例です。レプリケーションが滞り、マスタとレプリカのデータの「時間差」が RPO しきい値を超えるとイベント欄で知らせてくれます(※4) 。このイベントは「クリティカル」という重要度なので、電子メールや Windows イベント ログでエラーとして通知させられます。

Error2

本番環境でこのエラーが頻繁に通知されるようだと、マスタ - レプリカ間のネットワークや帯域幅設定に問題があるのかもしれません。あまり厳密に RPO を守ろうとするのも堅苦しいですが、レプリケーション環境改善のきっかけとしてモニタリング機能を使ってみてはいかがでしょうか。

 

以上、ホテがお伝えしました。


※1 これはあくまで最悪の例で、逆に運良く(?)バックアップ直後に障害が起きれば、失われるデータはほとんどありません。

※2 世の中には RPO = 0 を達成する同期型のレプリケーション ソリューションもありますが、本番系の性能に影響しやすいというデメリットもあり、Arcserve RHA では 非同期型のレプリケーションの仕組みを採用しています。

※3 「実際の復旧時点」のことを Recovery Point Actual の略で RPAって言うらしいです。

※4 イベント欄に表示されている 2 つのクリティカル イベントのうち、メッセージ ID が「CR01522」の方が RPO 違反があった事を知らせるもので、「CR01523」は RPO 違反の状態が終わったよ、という事を知らせるものです。

« Arcserve Replication/HA 18.0 で消えた昔の名残 | トップページ | 耳より情報: Arcserve UDP Cloud Hybridのコンピュート リソース提供を開始 ~ ついに登場!Cloud Hybridでいきなり事業継続!! »

技術情報」カテゴリの記事

Arcserve Replication / High Availability」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

« Arcserve Replication/HA 18.0 で消えた昔の名残 | トップページ | 耳より情報: Arcserve UDP Cloud Hybridのコンピュート リソース提供を開始 ~ ついに登場!Cloud Hybridでいきなり事業継続!! »