NETWORK ENGINEER BLOG

Tips and Reviews for Engineers

NetApp の重複排除について(De-duplication)

重複排除とは

重複排除とは、バックアップの際に対象データを解析し、重複データを自動的に検出して排除する技術です。英語では De-duplication と表記され、「デデュプリケーション」「デデュープ」などと表現されることもあります。
大容量のデータをいかにして保管しておくか。これは多くの企業が抱える課題です。データの重複をなくすことで、バックアップする際のデータ転送量や格納容量を大幅に削減できます。
出典:FUJITSU

NetApp の重複排除について

NetApp の重複排除機能は、次のような点で優れていると言われています。

  • NetApp 製またはサードパーティ製のプライマリ、セカンダリ、アーカイブストレージ上で動作する。
  • アプリケーション、プロトコルに依存しない。
  • オーバーヘッドが最小限
  • バイト単位で検証を実行
  • ボリュームおよび LUN 内にある新しいデータと以前に格納されたデータに適用できる。
  • ピーク時以外の時間帯に実行可能(DR だけでなく、プライマリでも実行可能。
  • NetApp の他の Storage Efficiency テクノロジと統合できる。
  • 重複排除による削減効果を、SnapMirror® や Flash Cache の使用時にも継承できる。
  • 無償で提供

f:id:FriendsNow:20210131174037p:plain
出典:ネットワールド

重複排除のタイミング

重複排除には「インライン処理」と「ホストプロセス処理」があり、それぞれ以下のタイミングで実行されます。

インライン処理

インライン処理では、ストレージにデータが送信され、ディスクに書き込まれるまでの間に重複排除を実行します。ディスクに書き込まれる前に重複排除が完了しているため、ディスクへの書き込み I/O の低減、ディスク消費スペースやSnapshotの容量削減に対する効果を即座に発揮することができます。
AFF シリーズでは、書き込み処理による SSD の劣化を軽減するため、インライン処理による重複排除がデフォルトで有効になっています。
f:id:FriendsNow:20210131175513p:plain

ホストプロセス処理

ポストプロセス処理では、ストレージにデータが送信され、ディスクに書き込まれた後、設定されたスケジュールにより、定期的に重複排除を実行します。任意のタイミングで実行することができるため、運用のピーク時を避けて処理を実行することで、システムへの影響を最小限に抑えることができます。
f:id:FriendsNow:20210131175845p:plain
出典:ストレージチャンネル

重複排除の設定

ONTAP 9.4 で vol1 でホストプロセス処理の重複排除する場合、以下のコマンドを実行します。

volume efficiency on -vserver vs -volume vol1

スケジュールを設定する際は、ポリシーを使います。1時間毎に実行する場合は、以下のように設定します。

volume efficiency policy modify -vserver vs -policy policy -schedule hourly

確認は以下のコマンドを実行します。

volume show -vserver vs -volume vol1

以上