データが40分の1になる!? 重複排除の売り文句にご用心。
こんにちは、ホテです。
海外の Arcserve でもブログをやっているのですが、その中の記事の一つが勉強になったので頑張って翻訳してみました。(原文:Achieving 40:1 Dedupe Ratios)
日本でも「重複排除で 98% 削減!」みたいな言い方をする事がありますが、何に対しての削減率なのか確認し、ベンダーの都合の良い数字に振り回されないようにしようという事かと思います。2年前の記事ではありますが、こういう議論は今でも日々現場で起きていると感じています。
なお、記事中で妙にマーケティング批判がされているのは、ライターの Christophe Bertrand が プロダクト マーケティングの VP だからだと思われます。自虐ネタでもあるのかな、、、
40:1 の重複排除率を達成する
近年、重複排除テクノロジーを持つデータ バックアップ/リカバリ ソリューション プロバイダの多くは、自分たちの機器やソフトウェアの持つ高い重複排除率を強調しています。例えば、正式な数字ではありませんが、20:1 という比率は重複排除技術を使って 20TB のデータを 1TB にまで小さくできるという事を示しています。良い話に聞こえますが、でもこれってただのマーケティングではないのでしょうか。
あるターゲット重複排除※1プロバイダが使う理屈は以下の通りです。毎日のフル バックアップ データを 30 日分保存するのに 20TB のストレージが必要だとしましょう。ベンダー X のターゲット重複排除エンジンを適用すると、実際には 1TB しか(ストレージが)必要ありません。したがって、比率は 20:1 です。これはすごいですよね?重複排除がターゲットで行われるがために、このような理屈が成り立つわけです。
この計算方法は Arcserve にとっては素晴らしいニュースです。なぜだか説明させてください。我々のグローバル※2でソース側※3で実行される重複排除は継続的な増分バックアップ技術※4と組み合わさり、ものすごく効率的です。具体的には、Arcserve Unified Data Protection(UDP)は 30 日分の日次の復旧ポイントを重複排除と圧縮が有効なバックアップ データストアに保存する事ができます※5。Arcserve UDP では、一般的に標準的な事務データ(DB や Office ドキュメント)のソース サイズが 70% 削減されます。これは現実の例に基づいており、そして、控えめに言っている数字です。我々は実際のお客様の管理コンソールのスクリーン ショットを持っている※6ので、それを証明する事ができます!なので、これは単にマーケティングの担当者が言っているだけではないのです。
どのように具体的な数字を得る事が出来るのでしょうか。1日当りの変更率が 5% のソース データ 1TB を 30日間分保存するとすると、1TB + 29 x 50GB = 2.45TB のバックアップ データになります。そして、(重複排除と圧縮により)データ ストア内では 735GB まで小さくなります。これは、1TBの(合成)フル バックアップ 30回分が 735GB まで小さくなっているのと同じことです。(30 x 1024GB)/735GB = 41 なので、理論上の削減率は 41:1 です。
さらに、Arcserve UDP の重複排除はグローバルですので、バックアップするすべてのノードに適用されます。40:1 の重複排除率を謳っている他社のソリューションは 1 つの論理ボリューム内のデータのみを節約できるかもしれませんが、すべてのバックアップ ストレージ資産にまたがっているわけではありません!
私が言いたいのはこうです:昔からの重複排除ベンダーが使う伝統的な計算式を使って Arcserve を比較しても、Arcserve にとって素晴らしい結果になります。しかし、ある時あるお客様が私にこう言ったことがあります(私がターゲット重複排除システムを販売していた時の話です)。「あなたの言う重複排除率は車の燃費を宣伝みたいだ。理論的だけど現実的じゃない。」これは、マーケティングが現実から切り離された事で起こりました。
私の意見では、正確で証明された唯一の正しい測定方法は、単純にソース データの容量とターゲット バックアップ システム(アプライアンスやサーバ/ストレージ)の一定期間後の使用容量を、データの変更や増加も考慮に入れながら比較する事です。これだけが重複排除の効率を筋の通った形で測る本当の測定方法です。誰が何の役にも立たない理論上の重複排除率を気にするというのでしょうか?
あなた(=エンドユーザー)は組織のすべてのデータを守るため、必要なときに必要な形でタイムリーに復旧出来るようにしておくためにどれだけのお金をデータ保護に投資すれば良いのか気にしています。あなたが求めているのは自身のニーズに対して最も効率的で機能的な手法で、それ以外の事はマーケティング上の奇妙な声明にすぎません。
<訳注>
※1 この記事ではバックアップ先のストレージの事を「ターゲット」と呼び、そこで行われる重複排除の事を「ターゲット重複排除」と呼んでいます。
※2 複数のバックアップ対象ノードの間で重複排除が効く事を「グローバル デデュプリケーション」と言います。例えば、サーバ A とサーバ B に同じデータ ブロックが存在している場合、これらが二重にバックアップされる事はありません。
※3 ここではバックアップ対象の事を「ソース」と呼んでいます。バックアップ対象側で重複排除が実行されると、バックアップ サーバに送られるデータが重複排除済みの少量のデータで済むという利点があります。
※4 Arcserve UDP では増分バックアップだけを行う「継続的な増分バックアップ」という機能を持っています。フル バックアップの再取得が不要なのでバックアップ先ストレージを節約でき、バックアップ時間も短縮できるという利点があります。原文では「infinite incremental technology」と書いてありますが、省略して「I2テクノロジ」と呼ぶこともあります。
※6 海外のお客様から応募があった重複排除率のスクリーンショットを公開していたのですが、公開終了になってしまいました。なお、日本でのお客様事例は引き続きご覧いただけます。
Arcserve UDP の事例から分かる増分率と重複排除/圧縮率の傾向
関連記事を追記します。特に Arcserve UDP のキャパシティ プラニング ツールは、実際のデータを使って重複排除率を確認できるのでオススメです。
<関連記事>
Arcserve UDP v6 新機能紹介 ~ (5) キャパシティ プラニング ツールでバックアップ サーバのサイジングをより正確に ~
« Arcserve製品の「アクティブ化」を促すメッセージが出ていますが、どうしたらよいでしょうか? | トップページ | Arcserve RHA : 復旧訓練にレポート作成、色々役に立つアシュアード リカバリ »
「技術情報」カテゴリの記事
- 実はランサムウェア対策にも有用?! 仮想スタンバイって凄い!(2024.09.06)
- Arcserve RHA での 「圧縮転送」 と 「圧縮属性のレプリケート」(2024.07.26)
- Arcserve RHA : XML 形式で取り出したレポート ファイルを Microsoft Edge で見る方法(2024.04.26)
- 超人気コンテンツの動画公開!! 「Arcserve UDP」と「Arcserve Backup」の違い(2024.01.12)
- Arcserve Backup チューンナップ/設定 シリーズ: テープバックアップのパフォーマンス向上(2023.10.27)
「Arcserve UDP」カテゴリの記事
« Arcserve製品の「アクティブ化」を促すメッセージが出ていますが、どうしたらよいでしょうか? | トップページ | Arcserve RHA : 復旧訓練にレポート作成、色々役に立つアシュアード リカバリ »
コメント