« Arcserve UDP 機能紹介 ~ (9) イメージバックアップのテープ保管 ~ | トップページ | arcserve Japan合同会社、本社移転のご案内 »

2015年3月18日 (水)

Arcserve UDP 機能紹介 ~ (10) バックアップデータの重複排除 ~

こんにちは、ホテです。
引き続き Arcserve UDP の機能紹介をしていきます。 

--------------------------------------------   
目次:    
1) 全体像とコンポーネントについて    
2) iSCSIボリュームのサポート    
3) 詳細スケジュール設定 (曜日指定)
4) 詳細スケジュール設定 (日・週・月次指定)
5) マージおよびカタログ作成の代行処理    
6) Windows / Linux、物理 / 仮想 を1つの画面で統合管理    
7) 仮想マシンのエージェントレス バックアップ (VMware編 / Hyper-V編)    
8) バックアップ設定のメニュー化    
9) イメージバックアップのテープ保管      
10) バックアップデータの重複排除 ←本日はここ    
11) バックアップデータの遠隔転送    
12) 仮想マシンへの自動復旧(仮想スタンバイ)    
--------------------------------------------

 

本日はバックアップデータの重複排除(デデュプリケーション)についてご紹介します。

 

Arcserve UDP のウリの一つに「継続的な増分バックアップ」があります。これは、フルバックアップの取り直しを行わずに増分バックアップを繰り返すことで、バックアップの時間を短縮し、ディスク容量を節約するための機能です。

Arcserve UDP では、この継続的な増分バックアップに加えて、重複排除機能がサポートされるようになりました。

これは、特に次回でご紹介するような、「WAN 経由で遠隔地にバックアップデータを複製したい!」という方に有効な機能です。

バックアップデータをこれまで以上に小さくすることで、より安価なネットワークでも遠隔バックアップを実現する事ができるようになります。

Deduplication_1

 

Arcserve UDP の重複排除の仕組みはマニュアルに詳しく書いてありますが、ここでは設定方法や実際の効果を簡単に紹介したいと思います。

   

【重複排除の設定をしてみる】

Arcserve UDP の重複排除機能を使うには、復旧ポイントサーバに重複排除設定をしたデータストアを追加します。

さらっと書きましたが、この機能を使用するには復旧ポイントサーバ(RPS)が必要です。また、設定を行うために管理コンソール(Arcserve UDP コンソール)を用意する必要があります。

Udp70_update2_datastore 

↑が設定画面です。(2020年11月9日:画像を最新のものに差し替えました)

[デデュプリケーションの有効化] にチェックを入れることで、重複排除が有効になります。この際、通常のデータストアで設定する [データ ストア フォルダ] 以外にも [データ デスティネーション]、[インデックス デスティネーション]、[ハッシュ デスティネーション] の3つを指定します。 

データ デスティネーションは重複排除されたバックアップデータを、インデックス デスティネーションはポインタ情報を、ハッシュ デスティネーションは重複を計算するための情報をそれぞれ保存する場所です。

RPS 導入サーバに SSD(ソリッドステートドライブ)が入っている場合には、ハッシュ デスティネーションを SSD 上のフォルダに指定する事もできます。その際は、[ハッシュ デスティネーションは SSD(Solid State Drive)上にあります。] にチェックを入れます。(詳細は後述)

また、[ハッシュ メモリの割り当て] でハッシュを展開してもよいメモリサイズの上限値を指定できます。(ハッシュサイズが上限値に達した場合、データストアを停止してバックアップを実行させないようにできます。)

 

【実際の効果はどれほどか?】

重複排除の効果がどれほどあるのか、というのが一番気になるところだと思います。この辺りについては、2種類の実測値データを公開しています。

実録!霧島酒造がArcserve UDPを導入したバックアップ実測値を大公開

Arcserve Unified Data Protection v5 すぐに役立つバックアップ パフォーマンス実測値

 

霧島酒造様の資料は Oracle Database のバックアップを、もう一つの資料は Arcserve 社内で使っているファイルサーバのバックアップを行った際のデータを掲載しています。 

重複排除率はバックアップ対象のデータによって差が出てくるものの、いずれもかなりの効果が出ていると言えるのではないかと思います。

また、Arcserve 社内のベンチマークでは、バックアップ対象サーバと RPS 間のネットワークがボトルネックになっており、重複排除によってバックアップ時間が短縮される、という副次的な効果も出ています。

 

この2点以外にも続々と重複排除機能を利用されている導入事例が出てきております。詳しくは以下の記事をご覧ください。(2020年11月9日追記)

Arcserve UDP の事例から分かる増分率と重複排除/圧縮率の傾向

 

【RPSのメモリ使用量を抑える方法】

Arcserve UDP のデフォルト設定では重複排除済みデータを判別するためのハッシュを RPS のメインメモリに展開します。読み込みを早くすることで、重複排除処理の高速化を図っています。    

ただ、[デデュプリケーション ブロック サイズ] が 「4 KB」 に設定されていると重複排除済みバックアップデータ 1 TB 当り 8~10 GB のメモリが必要になので、あらかじめのサイジングがとっても重要になります。

使用できるメモリをもっと抑えたいという場合には、以下2つをご検討ください。

 

方法①: ブロックサイズを大きくする

Arcserve UDP v5 では [デデュプリケーション ブロック サイズ] のデフォルト値は 「4 KB」 ですが(※1)、これを2倍(8 KB)にすることで、理論上ハッシュサイズを 1/2 にすることができます。4倍(16 KB)にすれば 1/4、8倍(32 KB)にすれば 1/8 まで抑えられます(※2)。

ただし、良い事ばかりではなく、デメリットとして重複排除率が若干落ちます。実際にブロックサイズを変更する事でどの程度重複排除率の低下が落ちるか、また、どれだけメモリ使用量を節約できるか、を検証した結果が以下の資料の P.8 に掲載されています。

Arcserve Unified Data Protection v5 すぐに役立つバックアップ パフォーマンス実測値

 

方法②: ハッシュの保存先に SSD を利用する

重複排除率は下げたくないが、メモリも増設できない、という場合には SSD を利用するという方法があります。

途中でも記載したハッシュ デスティネーションのオプションにチェックを入れることで指定した場所が SSD であるという前提で、モードが「SSD モード」に切り替わります。

SSD モードにすると、[ハッシュ メモリの割り当て] を超える量のハッシュは直接 SSD から読み出すため、メモリの使用量を大幅に抑えることができます。(目安としては RAM モードに比べて 1/20 程度と言われています)

ただし、SSD はメインメモリよりも読み出し速度が劣るため、SSD モードにするとバックアップの速度が遅くなります※3)。

なお、Arcserve UDP v5 Update 2 以降では、RAM モードと SSD モードを後から変更することもできるようになっていますので、最初はメモリを使用していたが、あとから SSD を使うように変更したい、という場合も簡単に切り替えができるようになっています。

 

注意事項ばかり書いてしまいましたが、最近ではサーバに搭載するメモリがかなり安くなっている事もあり、高価な専用ストレージを必要としない Arcserve UDP の重複排除機能はかなりお客様に注目いただいています。

遠隔バックアップの案件では Arcserve UDP を是非ご活用ください。

 

それでは、本日はここまで。

 

[2019年12月17日追記]
------------------------

重複排除を使う際に RPS に必要になるメモリや HDD の容量を簡単に見積もれるツールも公開しています。是非お試しください!

Arcserve UDP 復旧ポイント サーバ(RPS)の容量計算が簡単になります!

Arcserve UDP v6 新機能紹介 ~ (5) キャパシティ プラニング ツールでバックアップ サーバのサイジングをより正確に ~

------------------------

<関連記事>

Arcserve UDP : データ ストアは 1 つでだいたい十分

Arcserve UDP:RPS ジャンプスタートは RPS のメモリ容量に注意!

 


※1 Arcserve UDP v6 以降のデフォルト値は 「16 KB」 です。

※2 Arcserve UDP v6.5 Update4 から 「64 KB」 も選択できるようになりました。

※3 と、自信満々に書いておりましたが、SSD モードでも RAM モードと同等のスループットが出ているというベンチマーク結果もあります。
【続報】「USB 接続 SSD」をハッシュ領域に使った Arcserve UDP データストアへのレプリケートが速かった

« Arcserve UDP 機能紹介 ~ (9) イメージバックアップのテープ保管 ~ | トップページ | arcserve Japan合同会社、本社移転のご案内 »

技術情報」カテゴリの記事

Arcserve UDP」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック


この記事へのトラックバック一覧です: Arcserve UDP 機能紹介 ~ (10) バックアップデータの重複排除 ~:

« Arcserve UDP 機能紹介 ~ (9) イメージバックアップのテープ保管 ~ | トップページ | arcserve Japan合同会社、本社移転のご案内 »