Arcserve Replication/HA 18.0 で RPO 違反を通知できるようになりました。
発売からだいぶ間が空いてしまいましたが、今日は Arcserve Replication / High Availability(以下 Arcserve RHA)18.0 の新機能の「RPO モニタリング」を紹介します。
前段の RPO の説明が長いので、知っているよという人は飛ばして後半を読んでください……
■ そもそも RPO ってなに?
データ保護関連の用語に「RPO:Recovery Point Objective(目標復旧時点)」というものがあります。これは、システム復旧の際にどこまでのデータ消失を許容できるかというもの。バックアップやレプリケーションなどのデータ保護の仕組みを設計する際に指標として使われます。
例えば、1 日 1 回、24 時間おきにバックアップしているシステムに障害が起きたとします。リストアすれば直前のバックアップ時点にはデータを戻すことができますが、バックアップ以降にシステムに入力されたデータは失われます。バックアップは 1 日 1 回なので、最悪の場合直近 24 時間分(※1)のデータが失われるわけです。
システムによっては、ほとんどデータが更新されないので 24 時間前に戻っても大丈夫、という事もあるでしょう。逆に、頻繁にデータが更新されるシステムではできるだけ最新のデータに戻したい、という事もあります。このように、システム障害から復旧する際にどこまで新しいデータに戻したいのかを表すのが RPO である、とも言えます。
Arcserve RHA はほぼリアルタイムにデータを複製できるので、ファイル サーバや販売/生産管理システム、グループウェアなどなど、更新頻度が高く比較的高い RPO が求められるサーバでよくご利用いただいています。
■ RPO が実際に守られているか?
RPO が高い環境に向いているとは言え、Arcserve RHA は非同期型(※2)のレプリケーション ソフトなので、本番サーバに障害があれば若干のデータロスは起こり得ます。
非同期型のレプリケーションとは、本番(マスタ)サーバでデータの更新が行われた後に、複製先(レプリカ)サーバにも更新を反映するという仕組みです。マスタとレプリカへの書き込みに時間差があるので、これが実際の復旧時点(※3)に影響します。例えば、10 時ちょうどにマスタ サーバに障害が起きてレプリカに切り替えてみたら、データは 9 時 59 分の状態だったという事が起こり得るわけです。
LAN 内でのレプリケーションであれば、この「時間差」は無視してよい程度なのですが、帯域幅が限られる WAN 環境や、帯域制御機能を使っている場合は RPO に達するほど大きくなることがあります。
この課題に対して、Arcserve RHA には「アセスメント レポート」という機能があり、「時間差」がどの程度になるのかを測定して視覚化することができます。
ただ、このアセスメント レポートはどちらかというと Arcserve RHA の導入前に使う事を想定した機能なので、RPO が本当に守られているのかを継続的にモニタリングするのは不向きでした。そこで、今回紹介する、RPO モニタリング の出番です!
■ 試しに RPO モニタリングを使ってみよう!
やり方は簡単です。いったんシナリオを止めて、[レプリカ プロパティ]-[レプリケーション]-[RPO しきい値]の値を入力します。デフォルトは「0」で、これは RPO モニタリングが無効になっているという事です。RPO のしきい値は秒単位で設定するので、例えば RPO が 1 時間であれば 「3600(秒)」と入力します。下の例ではこの後エラーを起こすのが待ちきれないので 60 秒で設定していますが、本番環境ではまねしない方が良いかも……
以下の画像は、人為的に RPO 違反を起こした例です。レプリケーションが滞り、マスタとレプリカのデータの「時間差」が RPO しきい値を超えるとイベント欄で知らせてくれます(※4) 。このイベントは「クリティカル」という重要度なので、電子メールや Windows イベント ログでエラーとして通知させられます。
本番環境でこのエラーが頻繁に通知されるようだと、マスタ - レプリカ間のネットワークや帯域幅設定に問題があるのかもしれません。あまり厳密に RPO を守ろうとするのも堅苦しいですが、レプリケーション環境改善のきっかけとしてモニタリング機能を使ってみてはいかがでしょうか。
以上、ホテがお伝えしました。
※1 これはあくまで最悪の例で、逆に運良く(?)バックアップ直後に障害が起きれば、失われるデータはほとんどありません。
※2 世の中には RPO = 0 を達成する同期型のレプリケーション ソリューションもありますが、本番系の性能に影響しやすいというデメリットもあり、Arcserve RHA では 非同期型のレプリケーションの仕組みを採用しています。
※3 「実際の復旧時点」のことを Recovery Point Actual の略で RPAって言うらしいです。
※4 イベント欄に表示されている 2 つのクリティカル イベントのうち、メッセージ ID が「CR01522」の方が RPO 違反があった事を知らせるもので、「CR01523」は RPO 違反の状態が終わったよ、という事を知らせるものです。
« Arcserve Replication/HA 18.0 で消えた昔の名残 | トップページ | 耳より情報: Arcserve UDP Cloud Hybridのコンピュート リソース提供を開始 ~ ついに登場!Cloud Hybridでいきなり事業継続!! »
「技術情報」カテゴリの記事
- 実はランサムウェア対策にも有用?! 仮想スタンバイって凄い!(2024.09.06)
- Arcserve RHA での 「圧縮転送」 と 「圧縮属性のレプリケート」(2024.07.26)
- Arcserve RHA : XML 形式で取り出したレポート ファイルを Microsoft Edge で見る方法(2024.04.26)
- 超人気コンテンツの動画公開!! 「Arcserve UDP」と「Arcserve Backup」の違い(2024.01.12)
- Arcserve Backup チューンナップ/設定 シリーズ: テープバックアップのパフォーマンス向上(2023.10.27)
「Arcserve Replication / High Availability」カテゴリの記事
- WSFC環境でのArcserve Replication and High Availability利用(2024.10.04)
- 「Arcserve Replication / High Availability」カテゴリーを作りました。(2024.09.27)
- Arcserve RHA での 「圧縮転送」 と 「圧縮属性のレプリケート」(2024.07.26)
- Arcserve RHA : XML 形式で取り出したレポート ファイルを Microsoft Edge で見る方法(2024.04.26)
- もしもの災害時に業務を止めない!大企業から中小企業まで様々な業種・業態での災害対策事例をご紹介します。(2024.03.15)
« Arcserve Replication/HA 18.0 で消えた昔の名残 | トップページ | 耳より情報: Arcserve UDP Cloud Hybridのコンピュート リソース提供を開始 ~ ついに登場!Cloud Hybridでいきなり事業継続!! »
コメント