ストレージの容量削減に効く!インライン重複排除とインライン圧縮とは?

 2020.01.23  ストレージチャンネル編集部

昨今、ストレージの容量圧迫を回避するための技術として実用化が進んでいる、インライン重複排除とインライン圧縮について解説していきます。

IoTやモバイル活用の発展により企業を取り巻くデータは年々増え続けています。データは企業の未来を正しい方向へ導く重要な燃料であり、それらをうまく活用する企業こそが生き残りを図れるといっても過言ではありません。

その一方で問題は、増え続けるデータを目の前にして、ストレージの容量圧迫が避けられなくなっていることです。かといってデータを破棄したり頻繁にアーカイブしたりすれば正しい経営判断ができなくなるため、企業は持続的に大量のデータを保管しなければいけません。

そこで活用されているのがインライン重複排除とインライン圧縮です。2つの技術は、ストレージ容量にどう効くのでしょうか?

de-duplication-and-compression

重複排除とは?

まず重複排除について説明しますと、これはデータをストレージに保管するタイミングでデータを解析し、重複したデータを自動的に検出して排除する、という技術です。英語では「De-duplication(デ・デュプリケーション)」といいます。

企業のデータ量が増加した背景には、幅広い範囲でシステム化が進んだこと、内部統制の重要性が増したこと、多くの情報でデジタル化が進んだことなどが挙げられます。さらに、近年では動画データや画像データなど、非構造化データと呼ばれる種類のデータも重要性が増しています。

こうしたデータ量の増加に合わせてストレージを買い足していけば、次第にIT予算を圧迫するのは明白です。

そこで必要とされるようになった技術が重複排除です。日々生成され、ストレージに蓄積されていくデータには重複しているものが多く、特にドキュメントの世代管理を実施していたり、社内メールでドキュメント・ファイルを添付して複数関係者と共有したりすることが多いような環境、そしてIoTデータでは、重複データが大量に生まれます。これはストレージを圧迫する原因の1つです。

重複排除はそうした、重複したデータを自動的に検出し、データ保管時に不要なデータを排除してストレージを保存するのです。

dedup

NVMeによる最新SAN入門
ネットアップストレージシステムズ&ソフトウェア

インライン重複排除とは?

重複排除は、実行するタイミングで3つの方式があります。それが①インライン重複排除、②プリ・プロセス方式、③ポスト・プロセス方式です。

①インライン重複排除

サーバーからストレージにデータを転送する過程において重複を検出し、ストレージにデータを保存する前に重複データを排除します。

②プリ・プロセス方式

サーバー側で重複したデータを検出し、排除した後にデータをストレージに転送します。

③ポスト・プロセス方式

サーバーからストレージにすべてのデータを保存した後に、ストレージ上で重複データを検出し、排除します。

それぞれのメリットとデメリットは、次のようになります。

 

メリット

デメリット

インライン方式

  • データ転送量を削減し、転送性能を向上する
  • 遠隔地転送においては回線費用を削減できる
  • サーバー側に負荷がかかり、システムパフォーマンスが低下する恐れがある

プリ・プロセス方式

  • サーバー側に負荷がかからないため、システムパフォーマンスを維持しながらバックアップが実行できる
  • データ転送中に重複排除を実施するため、転送性能が低くなる
  • ストレージ側に負荷がかかる

ポスト・プロセス方式

  • サーバー側に負荷がかからないため、システムパフォーマンスを維持できる
  • データ転送性能を維持できる
  • 一時的にすべてのデータをストレージに格納するため、そのための容量が必要になりコストがかかる

どの方式を採用するかは、企業が構築しているシステム環境や重複排除を実施する目的によって異なります。まずはシステム環境のアセスメントを行い、最適な方式を採用することがポイントです。

重複排除の仕組み

人間は本人確認を実施するのに、指紋認証や音声認証など身体的特徴を使用します。これと同等の機能を持つのがデータに与えられたデジタルシグネチャ(電子署名)です。これはID番号のようなもので、たとえばデータAには「123456789」というIDを、データBには「987654321」というIDを付与します。

これらのデジタルシグネチャは、データの中身に応じて付与されるものなので、類似したデータには類似したデジタルシグネチャが付与されます。データをサーバーからストレージへ転送する際に、任意のタイミングで重複排除を実施することで、類似したデータを検出し、必要に応じて排除することでストレージへの負担を軽減します。

ネットアップでは増え続けるデータ量を極小化して管理 するための高度なストレージ効率化機能を提供しています。NetAppの重複排除機能では、ストレージ内部に複数存在する 「同じデータブロック」を削除することでデータサイズを 最小化します。また、アグリゲート重複排除により、これらは複数のボリューム間においても動作します。

圧縮とは?

ストレージにおける圧縮技術も重複排除と同様に、増え続けるデータ量を少なくし、ストレージコストの圧迫を避けるためのものです。圧縮は、サーバーからデータを書き込む際に、小さなデータに分割してブロック単位で圧縮し、ストレージに保存するデータを小さくすることで、容量効率化を実現できる機能です。重複排除と合わせて使用することで、より高い効果が見込めます。

compress

インライン圧縮とは?

圧縮は重複排除と同様に、実行するタイミングによって①インライン圧縮、②ポスト・プロセス圧縮があります。

①インライン圧縮

サーバーからデータをストレージへ転送する際に、リアルタイムに圧縮する方法です。データの圧縮に伴うハードウェアへの入出力回数が減少するため、ストレージ寿命を延ばすことも期待できます。

②ポスト・プロセス圧縮

データがストレージの保存された後に、別のプロセスとして圧縮を実行する方法です。定常的なストレージへの負荷が少ない反面、いったんすべてのデータをストレージに保存するためコストが高額になります。

それぞれのメリットとデメリットは、次のようになります。

 

メリット

デメリット

インライン方式

  • データ転送量を削減し、転送性能を向上する
  • 遠隔地転送においては回線費用を削減できる
  • サーバー側に負荷がかかり、システムパフォーマンスが低下する恐れがある

ポスト・プロセス方式

  • サーバー側に負荷がかからないため、システムパフォーマンスを維持できる
  • データ転送性能を維持できる
  • 一時的にすべてのデータをストレージに格納するため、そのための容量が必要になりコストがかかる

ちなみにネットアップのデータ圧縮機能を用いれば異なるブロックデータをまとめて圧縮できます。小さなデータや圧縮されたデータを 一つのブロックにまとめるインラインデータコンパクショ ンにより約2倍の圧縮効率を実現します。

以下はNetAppの圧縮技術を使った際の大まかな圧縮効果を示しています。記載された情報はあくまで参考情報であり、実際の削減後のデータ容量割合がこの範囲に収まることを保証するものではありませんが参考になるのではないでしょうか。

NetApp-COmpaction

TR-4476 < class="s1">「Deduplication, Compression and Compaction」 より抜粋

 

インライン重複排除と、インライン圧縮を同時に!

NetAppが提供するストレージソリューションは、データをストレージへ保存する際やバックアップする際に重複排除と圧縮を同時に実施することで、ストレージ容量を大幅に削減します。NetAppのストレージをご利用の際にはぜひこの機能をご活用ください。

New call-to-action

RECENT POST「ストレージ」の最新記事


ストレージの容量削減に効く!インライン重複排除とインライン圧縮とは?
ネットアップクラウドデータサービス
ハイパーコンバージドインフラも新たな世代へ NetApp HCI
NetApp All Flash FAS

RANKING人気資料ランキング

FlexPodクラウドアプライアンス
ブログ購読のお申込み