リアルワールドデータもビッグデータと同様の文脈で語られることが多いので、今回はビッグデータについて考えてみます。
そもそもビッグデータという言葉は聞いたことがあるけれども、一体なんだそれは、でかいデータとは大量データのことなのか?とよく分からない方がほとんどではないでしょうか。
3Vとして、「はやい (velocity)、でかい (volume)、多彩 (variety)」というように、まるで牛丼屋のような「はやい、やすい、うまい」の三拍子そろっているようにまとめられても、結局今までのデータと本質は変わらないだろう、と斜に構えられるだけかもしれませんね。
ですが、それは現状から目を背けて過去にすがる懐古厨とすら言えるでしょう。
まずはビッグデータとはどんなものなのか、いままでのデータとはどう違うのか知ることが第一歩です。
目次
3V - Velocity, Volume, Variety
さきほど「はやい (velocity)、でかい (volume)、多彩 (variety)」とあえて皮肉交じりに表現しましたが、ビッグデータの3つの特徴ともいえる3つのVについて1つずつ見て行きます。
はやい (velocity)
速い、あるいは早いというのは、「データの更新頻度が高い」ことのように語られがちですが、それでは今までのデータとの違いが分かりません。
更新頻度の早いデータもあれば、更新頻度の遅いデータもあるのは当然で、それは以前も今後も変わらないでしょう。
ビッグデータのVelocityの本質は「動的な状態である」という点に尽きます。要するに、常にデータが動き更新され続けている状態こそがビッグデータだということです。
データが固定されずに動き続けるわけですね。
当然ながら人は日々生きて活動しており、一瞬として全く同じ状態ではありません。
今までのデータは、ある一時点を切り取って固定し、それを「データ」として動かないものとして扱っていました。
データベースロックなどもその典型例ですね。
一度データを固定して動きを止めてからでないと、解析できないというのが既存のデータ処理です。
これからのビッグデータ時代はそうではありません。
常にデータは更新され続け、解析も更新され続ける状態に追い付きながら常にアウトプットし続けるということになります。
既存の解析業務に慣れている方ほど「そんなことは不可能だ」と考えがちですが、動き続ける情報を瞬時に解析してアウトプットに移すということは様々な分野で実用化が進められています(自動運転然り)。
もちろん、試験や研究として実施する解析においては、その結果の再現性を確保する必要があるので、解析時に用いたデータセットと、解析のログを残す必要があるのは当然です。
いままではデータ処理の制約や煩雑さ、手間や負荷もありそうした記録を残すことが大変だという悩みもありましたが、全てを記録に残すということが出来るようになれば解決します。
むしろ、ヘルスケア分野で「更新され続ける状態に追い付きながら常にアウトプットし続ける」ことが普及していないのは、計測に大きなハードルがあるためでしょう。
侵襲性のある計測の場合、例えば健常人に常に針を刺しながら採血し続けるようなことは現状、行われていません。
この計測の部分で侵襲性の低い技術が発展して瞬時にデータ収集がなされるようになるか、あるいは、何らかの法律あるいは倫理的観念の大きな転換が起きて軽微な侵襲の受け入れの幅が広がったとき、ヘルスケア分野におけるvelocityは各段に向上するでしょう。
でかい (volume)
ビッグデータの名の通り、大きな、ボリュームのあるデータという側面があるのは当然でしょう。
では、ここでいうボリュームとはいったい何なのでしょうか?
よくここで引き合いに出されるのは、悉皆性のような、いわゆる N = all という考え方です。
ある意味でそれは正しく、いままでの標本抽出と統計モデルを駆使するような考えとは隔絶した世界とも言えます。
標本調査では、仮説設定と仮説検定から逃れられないのですが、N = all の世界では標本と母集団が完全に一致しているので仮説の設定や検定も不要になります。
ただしそれだけでは不十分で、N = all としてデータ収集対象となっている人達の最新情報が常に入ってきていることでビッグデータは完成となります。
すなわち、ボリュームという視点で見た時に、単に N = all と対象数の広がりだけではなくて、時間軸の広がりも加味しておくことが重要になって来ます。
現状はまだまだですが、いずれ、生まれてからこの世を去るまでの全ての生きた証がデータとして蓄積されるのが一般的な時代も来るでしょう。
サブスクリプションビジネスの発展形の1つとして十分にあり得ます。すでにあるかもしれませんね。
多彩 (variety)
3つめのvarietyは、velocityやvolumeとはやや質を異にしています。
ビッグデータは、”目的を一つに定めず、将来色々な目的で使えるように手当たり次第に集められたデータ”と表現しても、おおかた間違っていないでしょう。
目的が一つに定まっていないということは、データ構造が未定義であるか、あるいは自由度の高い集められ方をしていることを意味します。
それゆえ、ビッグデータはその大部分が非構造化データとなります。
構造化データの扱いにはSQLが使えますが、非構造化データの場合はSQLでは対応できずNoSQL系データベース管理システムが開発されることになったわけですね。
動画、画像、あるいは自由に書き綴られたテキストなどのデータも、非構造化データですから、私たちが日々の生活で生み出しているデータのほとんどは構造化されていません。
普通に生きていたら、吐き出される情報は当然ながら混沌としているのが普通ですから。
構造化されたデータしか集めないというのが従来のデータ収集であり、日々生成される非構造化データをそっくりそのままとりあえず集めるのがビッグデータ、という違いですね。
目的は定めないか、定めるにしてもゆるくしか定めずにとりあえず集めて、使い道はおいおい考えるということです。
無目的とは言わないまでも、データ収集後の利用の自由度を広くしておくというのが従来のデータとの根本的な違いともいえるでしょう。
結び
ビッグデータについてはまだまだ書き足りないので、おいおい書いてみます。