« Arcserve UDP 機能紹介 ~ (9) イメージバックアップのテープ保管 ~ | トップページ | arcserve Japan合同会社、本社移転のご案内 »

2015年3月18日 (水)

Arcserve UDP 機能紹介 ~ (10) バックアップデータの重複排除 ~

こんにちは、ホテです。
引き続きArcserve UDPの機能紹介をしていきます。 

--------------------------------------------   
目次:    
1) 全体像とコンポーネントについて    
2) iSCSIボリュームのサポート    
3) 詳細スケジュール設定 (曜日指定)
4) 詳細スケジュール設定 (日・週・月次指定)
5) マージおよびカタログ作成の代行処理    
6) Windows / Linux、物理 / 仮想 を1つの画面で統合管理    
7) 仮想マシンのエージェントレス バックアップ (VMware編 / Hyper-V編)    
8) バックアップ設定のメニュー化    
9) イメージバックアップのテープ保管      
10) バックアップデータの重複排除 ←本日はここ    
11) バックアップデータの遠隔転送    
12) 仮想マシンへの自動復旧(仮想スタンバイ)    
--------------------------------------------

 

本日はバックアップデータの重複排除(デデュプリケーション)についてご紹介します。

 

Arcserve UDPのウリの一つに「継続的な増分バックアップ」があります。
これは、フルバックアップの取り直しを行わずに増分バックアップを繰り返すことで、
バックアップの時間を短縮し、ディスク容量を節約するための機能です。

Arcserve UDPでは、この継続的な増分バックアップに加えて、   
重複排除機能がサポートされるようになりました。

これは、特に次回でご紹介するような、
「WAN経由で遠隔地にバックアップデータを複製したい!」
という方に有効な機能です。

バックアップデータをこれまで以上に小さくすることで、
より安価なネットワークでも遠隔バックアップを実現する事ができるようになります。

 

Deduplication_1

 

Arcserve UDP の重複排除の仕組みはマニュアルに詳しく書いてありますが、
ここでは設定方法や実際の効果を簡単に紹介したいと思います。

   

【重複排除の設定をしてみる】

Arcserve UDPの重複排除機能を使うには、
復旧ポイントサーバに重複排除設定をしたデータストアを追加します。

さらっと書きましたが、この機能を使用するには復旧ポイントサーバ(RPS)が必要です。
また、設定を行うために管理コンソールを用意する必要があります。

    
image

 

↑が設定画面です。
通常のデータストアで設定する「バックアップ先フォルダ」以外にも   
「データ ディスティネーション」「インデックス ディスティネーション」「ハッシュ ディスティネーション」    
の3つを指定します。 

データ ディスティネーションは重複排除されたバックアップデータを、
インデックス ディスティネーションはポインタ情報を、   
ハッシュ ディスティネーションは重複を計算するための情報を
それぞれ保存する場所です。

RPS導入サーバにSSD(ソリッドステートドライブ)が入っている場合には、
ハッシュ ディスティネーションをSSDに指定する事もできます。
その際は、[ハッシュ デスティネーションはソリッド ステート ドライブ(SSD)上にあります。]にチェックを入れます。(詳細は後述)

また、[ハッシュ メモリの割り当て]のスライドバーを使って
ハッシュを展開してもよいメモリサイズの上限値を指定できます。
(ハッシュサイズが上限値に達した場合、バックアップを実行させないようにできます。)

 

【実際の効果はどれほどか?】

重複排除の効果がどれほどあるのか、というのが一番気になるところだと思います。
この辺りについては、2種類の実測値データを公開しています。

----------------

実録!霧島酒造がArcserve UDPを導入したバックアップ実測値を大公開

Arcserve Unified Data Protection v5 すぐに役立つバックアップ パフォーマンス実測値

----------------

霧島酒造様の資料はOracle Database のバックアップを、
もう一つの資料はArcserve社内で使っているファイルサーバのバックアップを
行った際のデータを掲載しています。 

重複排除率はバックアップ対象のデータによって差が出てくるものの、
いずれもかなりの効果が出ていると言えるのではないかと思います。

また、Arcserve社内のベンチマークでは、
バックアップ対象サーバとRPS間のネットワークがボトルネックになっており、
重複排除によってバックアップ時間が短縮される、という副次的な効果も出ています。

 

【RPSのメモリ使用量を抑える方法】

Arcserve UDPのデフォルト設定では重複排除済みデータを判別するためのハッシュをRPSのメインメモリに展開します。
読み込みを早くすることで、重複排除処理の高速化を図っています。    

ただ、デフォルトの設定ではハッシュを展開するために
重複排除済みバックアップデータ1TB当り8~10GBのメモリが必要になので、
あらかじめのサイジングがとっても重要になります。

使用できるメモリをもっと抑えたいという場合には、以下2つをご検討ください。

 

方法①: ブロックサイズを大きくする

デフォルトで設定されている[デデュプリケーション ブロック サイズ]は「4KB」に設定されていますが、
これを2倍(8KB)にすることで、理論上ハッシュサイズを1/2にすることができます。    
4倍(16KB)にすれば1/4、8倍(32KB)にすれば1/8まで抑えられます。

ただし、良い事ばかりではなく、デメリットとして重複排除率が若干落ちます。
実際にブロックサイズを変更する事でどの程度重複排除率の低下が落ちるか、
また、どれだけメモリ使用量を節約できるか、を検証した結果が
以下の資料のP8に掲載されています。

Arcserve Unified Data Protection v5 すぐに役立つバックアップ パフォーマンス実測値

 

方法②: ハッシュの保存先にSSDを利用する

重複排除率は下げたくないが、メモリも増設できない、という場合には   
SSDを利用するという方法があります。

途中でも記載したハッシュ ディスティネーションのオプションにチェックを入れることで    
指定した場所がSSDであるという前提で、モードが「SSDモード」に切り替わります。

SSDモードにすると、ハッシュをメインメモリに展開せず直接SSDから読み出すため、
メモリの使用量を大幅に抑えることができます。    
(目安としてはメモリを使っている場合に比べて1/20程度と言われています)

ただし、SSDはメインメモリよりも読み出し速度が劣るため、
SSDモードにするとバックアップの速度が遅くなります。 

なので、バックアップ時間にかなり余裕がある、という場合を除いて
まずは方法①で試すのが良いのではないかと個人的に思っています。

なお、Arcserve UDP v5 Update 2では、メモリを使うRAMモードとSSDモードを   
後から変更することもできるようになっていますので、    
最初はメモリを使用していたが、あとからSSDを使うように変更したい、    
という場合も簡単に切り替えができるようになっています。

 

注意事項ばかり書いてしまいましたが、
最近ではサーバに搭載するメモリがかなり安くなっている事もあり、
高価な専用ストレージを必要としないArcserve UDPの重複排除機能は
かなりお客様に注目いただいています。

遠隔バックアップの案件ではArcserve UDPを是非ご活用ください。

 

それでは、本日はここまで。

|

« Arcserve UDP 機能紹介 ~ (9) イメージバックアップのテープ保管 ~ | トップページ | arcserve Japan合同会社、本社移転のご案内 »

Arcserve UDP (旧製品名 Arcserve D2D)」カテゴリの記事

技術情報」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/553787/61058331

この記事へのトラックバック一覧です: Arcserve UDP 機能紹介 ~ (10) バックアップデータの重複排除 ~:

« Arcserve UDP 機能紹介 ~ (9) イメージバックアップのテープ保管 ~ | トップページ | arcserve Japan合同会社、本社移転のご案内 »