ストレージの重複排除ってなに?その効果も基礎から解説!

 2017.09.28  ストレージチャンネル編集部

大容量のデータを圧縮したり、高度なキャッシュ機能があったり、現代のストレージ技術には様々なものがあります。それらによりストレージ容量を最小化できたり、パフォーマンスを大幅に向上します。今回紹介するのは、そんなストレージ技術の一つである「重複排除(ちょうふくはいじょ)」です。例えば、NetAppでは、重複排除技術を2007年に導入しています。このことからもわかる通り10年近い歳月を経て進化している技術でもあります。

[RELATED_POSTS]

知っているようで知らない、でも今更人にきけない。そんな重複排除について詳しく説明していきます。

重複排除ってなに?

重複排除とは簡単に言えば、「プログラム(ストレージOS)が、重複したデータを自動検出して、重複した部分だけを排除する」という技術です。

企業の中で日々蓄積されていくデータの中には、重複したものも少なくありません。例えば個人情報を考えて見てください。性別には「男」と「女」の2種類しか存在しません。しかし、100万人分の個人情報をストレージで管理している場合には100万個の「男」もしくは「女」というデータを保存する必要があるわけです。

重複した部分は本来必要のない、ストレージを圧迫するだけの無駄なデータなので、これを放置しておく手はないでしょう。そこで、多くのストレージ製品には、この無駄を効率的に管理するための重複排除機能があります。

少々難しい話になりますが、NetAppの最も一般的な重複排除機能は、同一のデータブロックを特定し、バイト単位の照合を行った後、データブロックではなく単一の共有ブロックを参照するようにして効率を改善します。同じボリュームまたはLUNに存在するデータの重複ブロックが排除されるため、ストレージ所要量が削減されルわけです。

重複排除機能でどれだけ容量を削減できるの?

重複排除を使うとどれだけの容量を削減できるのかという疑問を抱くのではないでしょうか?

実はこの質問に対する回答は難しく、一律で50%削減できます!と言えるほど単純なものではありません。なぜなら企業のデータは、実に様々な種類が存在し一様ではないからです。

一般的には、データの種類と、その中に含まれる重複の量に左右されます。重複するデータが多ければ多いほど容量が削減できるのです。

例えば、CADファイルとMicrosoft Officeドキュメントを大量に抱えるアトランタに本社を置くPolysius Corporation社では、NetAppの重複排除技術を活用し70%削減できたボリュームもあったと事例で報告しています。

なぜ重複排除が必要なのか?

企業のデータ増加量が年間どれくらいあるかを一度確認して見ましょう。

ストレージに関するお役立ち資料

一つ例を挙げると、以前総務省が発表した資料では、2005年から2014年の9年間で、日本のデータ流通量はなんと約9.3倍に増加しています。年間平均増加率は27.1%で、こうしたデータ流通量の増加は今後も続く見込みです。

引用:総務省「ビッグデータの流通量の推計及びビッグデータの活用実態に関する調査研究

この情報を企業に当てはめると、今あるデータ量も3年後には2倍、5年後には3.3倍にも膨れ上がっていきます。ビッグデータ解析やIoTといった情報化の波がさらに重要性を増す将来、こうしたデータ量の増加はさらに加速していきます。

そうした中で問題になるのが「ストレージコスト」です。企業は日々蓄積していくデータを保管するので、その分のストレージが必要です。増加していくデータに対して愚直に対応していくと、ストレージコストもあっという間に肥大化します。

従って、重複排除といった機能を大いに活用し、無駄なデータを排除することでストレージを有効活用します。

もう一つ、重複排除が必要な理由は「業務アプリケーションのパフォーマンス」です。今では、どの業界でも「生産性を高めること」に精を尽くしています。生産性を高めなければ、深刻化する人材不足や、急速に変化していくビジネス社会に対応できないからです。

しかし、業務アプリケーションのパフォーマンスを高め、維持するためにはストレージの余裕は絶対必要です。業務アプリケーションがクライアントからの様々な要求を処理するための、自由領域はストレージによって提供されます。そのストレージに余裕が無ければ、相対的に業務アプリケーションのパフォーマンスは低下します。

このため、重複排除によってストレージを出来るだけ節制し、常に業務アプリケーションのパフォーマンスを最大限引き出せるようにする必要があるのです。

他にも長期的なデータ保存義務など、データが増加したり業務アプリケーションのパフォーマンスに影響を及ぼす要因は多く存在します。重複排除は、そうした問題を多く解消するための機能なのです。

[SMART_CONTENT]

「重複したデータ」はどうやって探すのか?

人間であれば、指紋認証や音声認証、もっと簡単な方法なら署名や印鑑によって本人かどうかを照合できます。しかし、データに指紋はありませんし、もちろん署名もできません。では、どのように「重複したデータ」を照合しているのでしょう?

ここでは一般的な重複排除の仕組みをご紹介します。

その方法の一つが「デジタルシグネチャ(電子署名)」を付与するものです。デジタルシグネチャとはID番号のようなもので、たとえばデータAには123456789というID番号を、データBには987654321というID番号を付与します。

数々のデータを保存していく中で、データAとID番号が同じな、データA´が出現したとしましょう。この重複を、サーバからストレージへのデータ転送前・転送中・転送後のいずれかのタイミングで検出し、自動的に重複したデータA´を排除してくれるのです。

ちなみに、重複データを検出するタイミングというのはストレージ製品によって違います。この仕組みやアーキテクチャーも様々です。それぞれのストレージ製品が重複排除の機能を提供しているからと言って決してその性能は同じではありませんので導入前には必ず確認するようにしましょう。

重複排除を利用するメリット

一番のメリットはやはり「コスト削減」です。先述のように、企業のデータ量というのは年々増加の一途を辿っています。今でこそ数TB(テラバイト:GBの約1,000倍)のデータ量で済んでいる企業でも、数年後には数十TBや数百TBに膨れ上がっている可能性は大いにあります。

その時必ず問題になるのがストレージコストです。ビッグデータ解析やコンプライアンスによってデータ管理の重要さが高まった今では、データはおいそれと削除できるものではありません。このため、企業は常に大量のデータを保管することになります。

データが増えるほどストレージは必要になるので、そこにかかるコストは肥大化していくでしょう。重複排除を利用することで、データを従来の5分の1~50分の1まで削減できたというケースもあります。その結果、余分なストレージが必要無くなり、コスト削減になるのです。

実際にどれくらいのコスト削減効果があるかというと、次の表が参考になります。NetAppが提供する重複排除機能に加えて圧縮技術を加えた指標になります。圧縮技術に関しては、またの機会にご紹介します。

表:さまざまな種類のデータで最大のスペース削減効果を得る組み合わせ

データセットの種類 アプリケーション 最大の削減
効果を得る
組み合わせ
標準的な
スペース削減量
ホームディレクトリ 圧縮と重複排除の両方 65%
仮想サーバとデスクトップ 重複排除のみ 70%
データベース 圧縮のみ 65%
Eメール Exchange 2003 / 2007 圧縮のみ 35%
Exchange 2010 圧縮と重複排除の両方 40%
エンジニアリング
データ
ソフトウェア開発 圧縮と重複排除の両方 75%
地震データ 圧縮のみ 75%

参考情報:NetAppストレージのデータ圧縮機能

もちろん、この表は標準的な場合を表しており、全てがこのような結果になるわけではありません。導入前に実際のデータで試すことをお勧めします。

まとめ

重複排除は現代のデータ事情を考慮すれば、企業は確実に採用するべきストレージ技術の一つと言えます。そのため、重複排除もストレージ選定のポイントとして盛り込んでおけば、より導入効果の高いストレージ活用が実現するでしょう。

New call-to-action

RELATED POST関連記事


RECENT POST「入門」の最新記事


ストレージの重複排除ってなに?その効果も基礎から解説!
ネットアップクラウドデータサービス
ハイパーコンバージドインフラも新たな世代へ NetApp HCI
NetApp All Flash FAS

RANKING人気資料ランキング

FlexPodクラウドアプライアンス
ブログ購読のお申込み