リアルワールドデータもビッグデータと同様の文脈で語られることが多いので、今回はビッグデータについて考えてみます。
そもそもビッグデータという言葉は聞いたことがあるけれども、一体なんだそれは、でかいデータとは大量データのことなのか?とよく分からない方がほとんどではないでしょうか。
3Vとして、「はやい (velocity)、でかい (volume)、多彩 (variety)」というように、まるで牛丼屋のような「はやい、やすい、うまい」の三拍子そろっているようにまとめられても、結局今までのデータと本質は変わらないだろう、と斜に構えられるだけかもしれませんね。
ですが、それは現状から目を背けて過去にすがる懐古厨とすら言えるでしょう。
まずはビッグデータとはどんなものなのか、いままでのデータとはどう違うのか知ることが第一歩です。
Table of Contents
3V - Velocity, Volume, Variety
さきほど「はやい (velocity)、でかい (volume)、多彩 (variety)」とあえて皮肉交じりに表現しましたが、ビッグデータの3つの特徴ともいえる3つのVについて1つずつ見て行きます。
はやい (velocity)
速い、あるいは早いというのは、「データの更新頻度が高い」ことのように語られがちですが、それでは今までのデータとの違いが分かりません。
更新頻度の早いデータもあれば、更新頻度の遅いデータもあるのは当然で、それは以前も今後も変わらないでしょう。
ビッグデータのVelocityの本質は「動的な状態である」という点に尽きます。要するに、常にデータが動き更新され続けている状態こそがビッグデータだということです。
データが固定されずに動き続けるわけですね。
当然ながら人は日々生きて活動しており、一瞬として全く同じ状態ではありません。
今までのデータは、ある一時点を切り取って固定し、それを「データ」として動かないものとして扱っていました。
データベースロックなどもその典型例ですね。
一度データを固定して動きを止めてからでないと、解析できないというのが既存のデータ処理です。
これからのビッグデータ時代はそうではありません。
常にデータは更新され続け、解析も更新され続ける状態に追い付きながら常にアウトプットし続けるということになります。
既存の解析業務に慣れている方ほど「そんなことは不可能だ」と考えがちですが、動き続ける情報を瞬時に解析してアウトプットに移すということは様々な分野で実用化が進められています(自動運転然り)。
もちろん、試験や研究として実施する解析においては、その結果の再現性を確保する必要があるので、解析時に用いたデータセットと、解析のログを残す必要があるのは当然です。
いままではデータ処理の制約や煩雑さ、手間や負荷もありそうした記録を残すことが大変だという悩みもありましたが、全てを記録に残すということが出来るようになれば解決します。
むしろ、ヘルスケア分野で「更新され続ける状態に追い付きながら常にアウトプットし続ける」ことが普及していないのは、計測に大きなハードルがあるためでしょう。
侵襲性のある計測の場合、例えば健常人に常に針を刺しながら採血し続けるようなことは現状、行われていません。
この計測の部分で侵襲性の低い技術が発展して瞬時にデータ収集がなされるようになるか、あるいは、何らかの法律あるいは倫理的観念の大きな転換が起きて軽微な侵襲の受け入れの幅が広がったとき、ヘルスケア分野におけるvelocityは各段に向上するでしょう。
Velocity についてもう少し深堀り
Velocity(ベロシティ)は、ビッグデータの3Vの要素の一つで、データが生成される速度を指します。この要素はビッグデータの特徴的な側面であり、今日のデジタル環境ではますます重要性を増しています。
データの生成速度が急速に増加していることは、我々の日常生活において容易に確認できます。例えば、ソーシャルメディアプラットフォームでは数秒ごとに何百万ものツイートや投稿が行われ、センサーデータはリアルタイムで環境情報を提供します。ビジネス分野でも、ウェブトラフィック、顧客の行動、在庫の動向など、リアルタイムのデータが不可欠となっています。
2-2. リアルタイムデータ処理の例
ビッグデータのVelocityを理解するために、リアルタイムデータ処理のいくつかの例を考えてみましょう。
- ウェブアプリケーションのモニタリング: ウェブサイトやアプリケーションの運用者は、ユーザーがサイトを利用する瞬間におけるデータをリアルタイムで監視し、障害の早期発見やパフォーマンスの最適化に活用します。
- 金融取引の監視: 金融業界では、取引の監視や不正行為の検出にリアルタイムデータ処理が欠かせません。急激な株価変動や不正アクセスを素早く検知し、対策を講じることが必要です。
- 交通管理と自動運転: 自動車や交通システムはリアルタイムデータに頼っており、信号制御、渋滞検出、自動運転などの技術がVelocityに依存しています。
2-3. リアルタイム分析の利点
リアルタイムデータ処理と分析の利点は多岐にわたります。ビジネスにおいて、Velocityの重要性は以下のような側面で現れます。
- 即時的な対応: リアルタイムデータを活用することで、問題や機会に迅速に対応できます。障害が発生したらすぐに修復し、需要の増加に対応してサービスを調整できます。
- 顧客満足度向上: リアルタイム分析を活用して、顧客のニーズや嗜好を把握し、パーソナライズされたサービスを提供することが可能です。
- 競争優位性: ビジネス競争が激化している中、リアルタイムデータに基づいた迅速な意思決定は競争優位性を確保する要因となります。
でかい (volume)
ビッグデータの名の通り、大きな、ボリュームのあるデータという側面があるのは当然でしょう。
では、ここでいうボリュームとはいったい何なのでしょうか?
よくここで引き合いに出されるのは、悉皆性のような、いわゆる N = all という考え方です。
ある意味でそれは正しく、いままでの標本抽出と統計モデルを駆使するような考えとは隔絶した世界とも言えます。
標本調査では、仮説設定と仮説検定から逃れられないのですが、N = all の世界では標本と母集団が完全に一致しているので仮説の設定や検定も不要になります。
ただしそれだけでは不十分で、N = all としてデータ収集対象となっている人達の最新情報が常に入ってきていることでビッグデータは完成となります。
すなわち、ボリュームという視点で見た時に、単に N = all と対象数の広がりだけではなくて、時間軸の広がりも加味しておくことが重要になって来ます。
現状はまだまだですが、いずれ、生まれてからこの世を去るまでの全ての生きた証がデータとして蓄積されるのが一般的な時代も来るでしょう。
サブスクリプションビジネスの発展形の1つとして十分にあり得ます。すでにあるかもしれませんね。
多彩 (variety)
3つめのvarietyは、velocityやvolumeとはやや質を異にしています。
ビッグデータは、”目的を一つに定めず、将来色々な目的で使えるように手当たり次第に集められたデータ”と表現しても、おおかた間違っていないでしょう。
目的が一つに定まっていないということは、データ構造が未定義であるか、あるいは自由度の高い集められ方をしていることを意味します。
それゆえ、ビッグデータはその大部分が非構造化データとなります。
構造化データの扱いにはSQLが使えますが、非構造化データの場合はSQLでは対応できずNoSQL系データベース管理システムが開発されることになったわけですね。
動画、画像、あるいは自由に書き綴られたテキストなどのデータも、非構造化データですから、私たちが日々の生活で生み出しているデータのほとんどは構造化されていません。
普通に生きていたら、吐き出される情報は当然ながら混沌としているのが普通ですから。
構造化されたデータしか集めないというのが従来のデータ収集であり、日々生成される非構造化データをそっくりそのままとりあえず集めるのがビッグデータ、という違いですね。
目的は定めないか、定めるにしてもゆるくしか定めずにとりあえず集めて、使い道はおいおい考えるということです。
無目的とは言わないまでも、データ収集後の利用の自由度を広くしておくというのが従来のデータとの根本的な違いともいえるでしょう。