非構造化データの課題と管理

 2018.07.19  2022.01.26

すべてのビジネスがデジタル化されてゆき、データ量が急激に増加する中、特に大きく増加しているデータの種類が非構造化データです。

非構造化データというのは、基幹システムのデータベースに蓄積されるテーブル構造を持ったデータ(構造化データ)ではなく、テキスト・音声・画像・映像などのファイルやWebサイトログなど構造化が難しいデータの種類を指します。

今回のテーマは、そんな構造化データの課題と管理についてです。

非構造化データが重要視されている理由とは

そもそもなぜ、非構造化データ管理が重要視され出したのでしょうか?その答えとなるキーワードが皆さんもご存知の「ビッグデータ」です。

ビッグデータとはシステム無しでは扱いきれない多種多量なデータ群を指し、さらにはそのデータを分析し、ビジネスに活用することを意味します。2014年ごろからビッグデータ分析によってビジネスチャンスを掴んだ事例が出始めたことから、経済界全体でビッグデータを活用しようという動きが活発化してきました。

こうしたビッグデータ活用の中心になっているのが非構造化データです。

例えばiPhoneを製造販売するApple社では、iPhoneユーザーの音声認識ガイダンス機能を使用する際の音声データを継続的に収集し、機能改善に活用しています。

日本企業の活用事例で言えば、清涼飲料メーカーであるダイドードリンコが、同社が設置する自動販売機にアイトラッキングと呼ばれるユーザーの視線を感知するセンサーを取り付け、そのデータ分析によって売り上げを伸ばしたという事例が斬新なものとして知られています。

参考:ビッグデータマガジン「これまでの常識をくつがえすビッグデータ分析シリーズ ~第一回:常識にとらわれない発見で売り上げ増加~

このように、ビッグデータ分析によってビジネスチャンスを生み出すデータの多くは非構造化データであるため、管理への注目度が必然的に高まりました。

もう一つの大きな理由は、IoT(モノのインターネット)市場が拡大したことです。

IoTとは様々なモノとインターネットを接続して、その利便性を高めたり新たなサービスを提供しようという思想または技術です。最近ではウェアラブルウォッチやスマート家電など、IoT技術を活用した製品を多くに目にするようになりました。

こうしたIoT製品から生成されるデータのほとんどは非構造化データであり、IoT提供事業者はそうしたデータのすべてを管理する必要があります。

今後、非構造化データ管理への注目度はさらに高まっていくことでしょう。それは、ビッグデータ分析やIoTといった先進的技術への重要度が高まっていくことに比例します。

ITの非常事態対策とこれから
ハイブリッドITでクラウドのメリットを データセンターに拡張

非構造化データ管理の課題とは

様々な活用方法によって注目が高まっている非構造化データですが、その管理には様々な課題があります。

多くの企業が最も懸念している課題がデータ量増加に伴う課題です。例えばIoTのサービスを提供している企業では、非構造化データが無制限に増加していきます。ユーザーが製品を使用する限りそこにデータが生まれるので、提供企業はそれを収集し管理しなければなりません。

では、データ量が増加することで起こる課題とは何でしょうか?

まず一つはデータ管理にかかるストレージコストが増加するという課題です。データを管理するためにはストレージが必要であり、ストレージを確保するためには追加のストレージの購入が必要です。そのためストレージを拡張するごとに多くのコストがかかります。

二つ目の課題は、管理項目が多くなることです。ストレージを増設するごとに、管理すべきハードウェアが増加します。つまりデータ量が多くなるほど管理項目が増え、ハードウェア更新の際も管理者に多大な負荷がかかることになります。

三つ目の課題はセキュリティ対策が不十分ということです。管理すべきデータ量が増加する中、十分なセキュリティ対策が取れているでしょうか。ここで扱われるデータは場合によっては個人情報に近いものもありえますが、セキュリティ対策への意識が低かったり、セキュリティ技術者を確保できないなど様々な問題があります。

このように、有効活用することで様々な効果のある非構造化データも、その管理に様々な課題が隠れているのです。

[RELATED_POSTS]

非構造化データ管理の課題を解決するには

以上のように様々な課題を含んでいる非構造化データの管理ですが、ビッグデータやIoTを活用している企業では、どのようにして課題を解決しているのでしょうか?

ストレージ仮想化によって管理項目を少なくする

非構造化データ管理の課題解決として有効な策の一つがストレージの統合です。物理的に切り離されたストレージを仮想化技術を用いて、一つの大きなストレージプールとして統合します。

こうすることで、複数あった管理項目を一つに集約でき、管理負担を大幅に軽減できます。ただし、そのために仮想化技術への知識をスキルを持つ人材が必要です。

クラウドストレージを採用する

クラウドストレージとは、インターネット経由で利用するストレージサービスです。従量課金制のため必要な分だけのストレージを確保でき、データ量の増加に応じた拡張も可能です。多くの企業は、こうしたクラウドストレージの従来のストレージ環境を併用することで、急激なデータ量増加に対応しています。

クラウドストレージは運用管理が必要なく、最低限のコストで利用できるためコスト削減効果も期待できる解決策ですが、データは増加の一途なので、コストも比例して増大していきます。

ハイパーコンバージドインフラを採用する

ハイパーコンバージドインフラ(HCI)とは、従来ならば別々に用意する必要があったサーバ、ストレージ、仮想化ソフトウェア、ネットワークといったそれぞれの機能を集約したハードウェア製品です。

HCIを導入することでのメリットはハードウェアコストの最適化柔軟なリソース拡張です。HCIでは一つのハードウェアにデータ管理やシステム稼働に必要な機能が備わっているため、事前検証の時間を大幅に短縮して導入できます。それに伴い導入コストが削減され、かつ運用管理にかかるコストも削減されます。

さらにHCIではスケールアウト環境を簡単に構築できるので、リソースの拡張も容易に行えるという特徴があります。

企業が持つストレージ課題の中でも特にリソース拡張は大きな問題なので、HCIによって得られるメリットは大きいと言えましょう。

重複排除機能や圧縮機能を備えたストレージを採用する

重複排除機能も圧縮機能も、ストレージにあるデータの無駄を排除するための技術です。2つ以上の重複しているデータを排除したり、データ全体を圧縮することで、既存データ量を半分以上削減したというケースもあります。

関連記事:ストレージの重複排除ってなに?その効果も基礎から解説!

オブジェクトストレージを活用する

多様な種類のデータを管理するために今注目されているのがオブジェクトストレージです。構造化されたデータが中心であった時代には、これまでの階層構造によるデータ管理が適していましたが、オブジェクトストレージでは階層構造を持たず、データに対してIDとメタデータを付与することでデータの管理を行います。

そのため、IoTやビッグデータの普及に伴う大量の非構造化データの管理に非常に向いている仕組みなのです。データを一つのプールという単位で管理し、OSやファイルシステムの制約を受けないため管理上のデータ容量の制限もありません。

今後急速にデータ量が増えていくと予想されている非構造化データの管理には最適なソリューションと言えるでしょう。

まとめ

まだビッグデータ活用もIoT活用も行っていない企業でも、従来に比べて非構造化データが圧倒的に増加した、ということを実感している方が多いのではないでしょうか。今後、それらのデータを活用するニーズが出現する可能性が高く、それを前提とした新たなストレージ環境を検討しておくことは、将来のリスク管理に繋がります。

NetAppはハイパーコンバージドインフラや、データ削減機能を持つストレージ製品に加え、非構造化データの管理に最適な最適なオブジェクトストレージ「StorageGRID Webscale」も提供しています。拡張性やマルチプロトコル対応など多様化する要件にも対応するオブジェクトストレージについてぜひご確認ください。

Cloud Volumes ONTAP : クラウドベースのデータ管理サービス

RECENT POST「トレンド」の最新記事


トレンド

アプリケーション開発に求められるマイクロサービスとは?

トレンド

ランサムウェアの脅威とは 感染経路や対策方法など基礎まとめ

トレンド

ランサムウェア防災訓練@京都府舞鶴市 Non-Tech編

トレンド

データストレージとは?種類別のメリット・デメリットとデータファブリックの活用

非構造化データの課題と管理
クラウドへの移行の計画と実行
ブログ購読のお申込み

RECENT POST 最新記事

RANKING人気記事ランキング