非構造化データとは?その管理と課題解決策

 2019.03.19  ストレージチャンネル編集部

企業には膨大な情報資産があり、それらは大きく「構造化データ」と「非構造化データ」に分けられます。

ここ数年、企業にとって大きなトレンドになっている「ビッグデータ」、誰もが聞いたことがあるでしょうが、非構造化データはそのビッグデータと深いかかわりがあります。

経営活動の中で生まれるデータのうち、非構造化データは特に増加が著しく、データ分析による価値創出の可能性が高まっている一方で、急速な大容量化と多様化によってさまざまな管理問題を生んでいるのが現実です。

本稿では、そんな非構造化データの基本について解説し、よくある管理課題やそれを解決するためのアプローチについてご紹介します。

非構造化データとは?

ERP(Enterprise Resource Planning:統合基幹システム)など業務アプリケーションで利用されるリレーショナルデータベース(RDBMS)で生み出されるデータは、特定の構造を持つ「構造化データ」と呼ばれます。たとえば売上データは、「いつ発生したのか?どのくらい発生したのか?どの商品から発生したのか?どの店舗で発生したのか?」というデータ内容を構造的に整理して、すべての売上データを1つまたは複数のテーブル(表)にまとめることができます。そのため、特定の製品や店舗だけの売上データを抽出し、それを分析するのはさほど難しい作業ではありません。また、社員感システムなども男性なのか女性なのか、住所は?生年月日は?など構造化されています。

これに対し、非構造化データは特定の構造を持たないデータ群を指し、電子メール、ドキュメント、画像、動画、音声などの他にもWebサイトログやバックアップ/アーカイブなども含まれます。非構造化データは一般的なリレーショナルデータベースで管理することはできず、特定の構造を持たないことからデータの整理も、活用も構造化データに比べるとその扱いは格段に難しくなります。

非構造化データの現状

現時点で非構造化データがどういった影響を及ぼしているのか?それを知るために、まずは非構造化データの現状を具体的な数値から読み解いていきましょう。

ストレージに関するお役立ち資料

情報管理を中心としてIT企業のVeritas Technologiesが昨年に発表した、非構造化データの構成を正確にとらえるための調査報告「Data Genomics Index 2017」によると、企業で作成されるファイルの数は2年ごとに倍になるペースへと少しずつ増加しているとしています。2017年は、データが2016年に対して48.7%増加し、平均ファイルサイズは前年比23%増加しています。

Veritas Technologiesが分析した全データの50%以上が開発者ファイル、データファイル(.datなど)、画像ファイル、不明なファイル形式で構成されており、不明なファイルは前年に比べて51%も増加していたそうです。これは、顧客データから価値を引き出し、顧客価値を創造するためのカスタムアプリケーションの開発/利用が増加した結果だとされています。つまり、非構造化データは引き続き加速度的なスピードで増加しており、今後も急速に増加していくことでしょう。

非構造化データの管理課題

非構造化データを管理するにあたり、多くの企業が課題だと感じているのが「データやコンテンツ量増大への対応」「データやコンテンツの種類の多様化」「セキュリティ対策の強化」です。特に「データやコンテンツの種類の多様化」は構造化データには無かった課題であり、多種多様なデータに対しどのように対応すればよいのか苦慮している企業が増えています。これらの課題によって生じる問題とは何でしょうか?

1.ストレージコストの増加

データやコンテンツの量が多くなれば、当然ながらそれを管理するためのストレージが必要になります。従来の構造化データであれば増加量が一定であり、データのライフサイクルを管理したりそれに応じてストレージ増設計画を立てたりするのは簡単でしたが、非構造化データに関しては増加量が不規則であり、かつデータごとにライフサイクルが異なるため管理すべきデータ量が必然的に多くなります。ストレージを増設するには当然コストがかかりますし、増設のたびに作業が必要になるためIT部門の業務効率も下がります。

2.管理項目増加に伴う負担増加

ストレージを増設することで発生する新しい問題が、ハードウェアが増えることで管理項目も増え、IT部門の負担が増え、システムパフォーマンスやネットワークパフォーマンスが低下するリスクも生じることです。当然ながら、ストレージは増えても管理項目はそのままに維持するのが理想であり、しかしその理想を実現するための選択肢が未だ少ない状況です。

3.第三者による不正アクセスのリスク

非構造化データは、構造化データに比べて重要なデータが含まれていることがよくあります。多種多様な顧客データなどはその代表例であり、価値のあるデータには常に情報漏えいのリスクが付きまといます。サイバー攻撃を実行する人間は、企業の中で非構造化データが増加していることをすでに理解しており、より高度な攻撃方法を編み出してネットワークへの侵入を試みています。しかし企業側の対応は、セキュリティ技術者を確保できていなかったり、セキュリティ意識が甘かったりすることで対応が後手に回っているというのが現実です。

非構造化データの管理課題を解決するアプローチ

非構造化データによって発生する管理課題をそれが抱える問題は、企業にとって想像以上に深刻なものです。日々増加を続ける非構造化データを適切に管理し、有効的に活用するためには以下5つのアプローチを検討する必要があります。

1.NASの統合

ネットワークでは接続されていても、物理的には切り離されたNASを仮想化技術によって統合し、1つのストレージプールとして活用することでストレージにかかる管理項目を減らすことができます。さらに、ストレージ管理を拠点内から拠点間へと広げていくことで、統合的なストレージ管理を実現できます。

2.パブリッククラウドサービスの利用

インターネット経由で提供されるパブリッククラウドサービスは、必要に応じてストレージを拡張、あるいは収縮できるため常にストレージコストを適正に保ち、かつ管理項目を減らすことも可能です。

3.HCI(Hyper Converged Storage)の採用

HCIとは仮想化インフラに必要な多くの項目を排除し、サーバーと仮想化ソフトウェアのみで構成され、事前検証済みで出荷される集約型インフラ製品です。HCIを採用することでハードウェアコストと管理項目を大幅に削減することができ、かつ省スペースなのでデータセンターコストも削減できます。柔軟なリソース拡張によってIT部門の作業負担も軽減されるでしょう。

4.オブジェクトストレージ活用

オブジェクトストレージとは階層構造を持たず、データに対してIDとメタデータを付与することで管理するため、非構造化データの管理にも利用できるストレージ製品です。OSやファイルシステムの制約を受けないため、管理上のデータ容量制限は無く、急速に増加する非構造化データを効率的に管理できます。

企業は年々増加の一途をたどる非構造化データの管理に対し、これらのアプローチから最適な一策を選択したり、複数のアプローチで非構造化データを効率良く管理したり、活用するための基盤を整えることが大切です。この機会に、非構造化データに対する理解をさらに深めていただきたいと思います。

StorageGRID Webscale

RECENT POST「データ管理」の最新記事


この記事が気に入ったらいいねしよう!
ハイパーコンバージドインフラも新たな世代へ NetApp HCI
NetApp All Flash FAS

RANKING人気資料ランキング

FlexPodクラウドアプライアンス
ブログ購読のお申込み