NETWORK ENGINEER BLOG

Tips and Reviews for Engineers

NetApp の重複排除(De-duplication)

重複排除機能とは

ストレージ内に、同じ内容のデータが複数保存されている場合、これを排除して、ストレージ利用の効率化を図る技術です。NetApp の重複排除機能は、次のような点で優れていると訴えています。

  • NetApp 製またはサードパーティ製のプライマリ、セカンダリ、アーカイブストレージ上で動作する。
  • アプリケーション、プロトコルに依存しない。
  • オーバーヘッドが最小限。
  • バイト単位で検証を実行。
  • ボリュームおよび LUN 内にある新しいデータと以前に格納されたデータに適用できる。
  • ピーク時以外の時間帯に実行可能。(DR だけでなく、プライマリでも実行可能。
  • NetApp の他の Storage Efficiency テクノロジと統合できる。
  • 重複排除による削減効果を、SnapMirror® や Flash Cache の使用時にも継承できる。
  • 無償で提供。

f:id:FriendsNow:20120310211750g:plain

重複データの特定

Data ONTAPは、ブロックごとに、フィンガープリント*1を計算し、同じフィンガープリントを持つ2つのブロックは、共有の候補とします。NetApp の重複排除機能を有効にすると、ボリューム内で使用されているすべてのブロックのフィンガープリント・データベースが作成*2され、この初期セットアップが完了すると、データの重複排除が可能となります。

重複排除を開始するきっかけは、以下のとおりです。

  • 重複排除の「start」コマンドを手動で実行。
  • 定期的な重複排除プロセスの開始。
  • ボリュームに新しいデータが 20% 書き込まれた場合。
  • SnapVault®転送が完了後。

重複排除プロセスが開始されると、フィンガープリント・データベースが検証され、同一ブロックが存在する場合は、一方のブロックを廃棄し、もう一方のブロックを参照するようにします。

  • NetApp 重複排除の要件
    • ハードウェア
      • NearStore® R200, FAS2000シリーズ, FAS3000シリーズ, FAS3100シリーズ, FAS3200シリーズ, FAS6000シリーズ, FAS6200シリーズ等。詳細についてはこちらをご参照ください。
    • Data ONTAP のバージョン要件
      • Data ONTAP 7.2.5.1以上*3
    • 必要なライセンス
      • De-dup
      • NearStore ライセンス*4
    • サポートされるボリュームの種類
      • FlexVol®のみ、トラディショナル・ボリュームはサポートされません。
    • 最大ボリュームサイズ
      • Data ONTAP 8.0.1の場合、最大16TB です。他バージョン等、詳細についてはこちら
    • サポート対象のプロトコル
      • すべて。

設定方法

出力結果は、実際に検証環境で得た数値になります。pocvol1, pocvol2 の各ボリュームのそれぞれに、VM(CentOS-6.0)x2 配置*5し、pocvol1 でのみ重複排除を実行した結果、約59% 削減できました。

指定したフレキシブル・ボリュームで重複排除機能を有効にします。

ontap> sis on /vol/pocvol1
SIS for "/vol/pocvol1" is enabled.
Already existing data could be processed by running "sis start -s /vol/pocvol1".

指定したフレキシブル・ボリュームで重複排除プロセスを開始し既存のデータを処理します。*6

ontap> sis start -s /vol/pocvol1
The file system will be scanned to process existing data in /vol/pocvol1.
This operation may initialize related existing metafiles.
Are you sure you want to proceed (y/n)? y
The SIS operation for "/vol/pocvol1" is started.

指定したフレキシブル・ボリュームで重複排除プロセスを開始します。

ontap> sis start /vol/pocvol1
The SIS operation for "/vol/pocvol1" is started.

重複排除について現在のステータスを返します。-lオプションを使用すると、詳細が表示されます。

ontap> sis status -l /vol/pocvol1

Path:                            /vol/pocvol1
State:                           Disabled
Compression:                     Disabled
Inline Compression:              Disabled
Status:                          Idle
Progress:                        Idle for 00:04:34
Type:                            Regular
Schedule:                        sun-sat@0
Minimum Blocks Shared:           1
Blocks Skipped Sharing:          0
Last Operation State:            Success
Last Successful Operation Begin: Sun Mar 11 09:27:49 JST 2012
Last Successful Operation End:   Sun Mar 11 09:27:50 JST 2012
Last Operation Begin:            Sun Mar 11 09:27:49 JST 2012
Last Operation End:              Sun Mar 11 09:27:50 JST 2012
Last Operation Size:             0 KB
Last Operation Error:            -
Change Log Usage:                0%
Logical Data:                    2661 MB/15 TB (0%)
Queued Job:                      -
Stale Fingerprints:              8%

重複排除機能によるスペース節約の値が返されます。

ontap> df -s
Filesystem                used      saved       %saved
/vol/vol0/              262456          0           0%
/vol/pocvol2/          2318708          0           0%
/vol/pocvol1/          1109452    1615872          59%
/vol/pocvol3/          2106068          0           0%

実際のディスクの使用量を確認します。

ontap> df -h pocvol1
Filesystem               total       used      avail capacity  Mounted on
/vol/pocvol1/           9728MB     1083MB     8644MB      11%  /vol/pocvol1/
/vol/pocvol1/.snapshot   512MB        0TB      512MB       0%  /vol/pocvol1/.snapshot

ontap> df -h pocvol2
Filesystem               total       used      avail capacity  Mounted on
/vol/pocvol2/           9728MB     2264MB     7463MB      23%  /vol/pocvol2/
/vol/pocvol2/.snapshot   512MB        0TB      512MB       0%  /vol/pocvol2/.snapshot

自動重複排除スケジュールが作成されます。デフォルトは、各曜日の午前0時です。

ontap> sis config
                                              Inline
Path                 Schedule     Compression Compression
-------------------- ------------ ----------- -----------
/vol/pocvol2         sun-sat@0    Disabled    Disabled
/vol/pocvol1         sun-sat@0    Disabled    Disabled

指定したフレキシブル・ボリュームで、アクティブな重複排除プロセスを中断します。

ontap> sis stop /vol/pocvol2
The operation on "/vol/pocvol2" is being stopped.

(参考)
http://www.netapp.com/jp/communities/tech-ontap/tot-dedupe-0807-ja.html
http://www.netapp.com/jp/communities/tech-ontap/tot-back-to-basics-deduplication-1104-ja.html
http://media.netapp.com/documents/tr-3505-ja.pdf

*1:ブロックデータのハッシュ

*2:このプロセスは「収集」と呼ばれるようです。

*3:8.0.X の場合は 7-Mode のみ

*4:バージョン8.0より前の Data ONTAP の場合に必要

*5:VM はクローンで作成しています。

*6:このオプションを使用するのは一般に、初期設定時と、重複排除されていないデータを含んだ既存のフレキシブル・ボリュームで重複排除を実行する場合です。