p.28より
今、挙げた二つの変化は、さらに重要な第三の大きな変化をもたらす。因果関係、すなわち「原因と結果」を求める古い体質からの脱却だ。
(中略)
相関関係は、正確な「理由」を教えてくれないが、ある現象が見られるという「事実」に気付かせてくれる。基本的にはそれで十分なのだ。
安く手に入るようになったコンピュータリソースによってゴリゴリ計算を行い、相関関係をガシガシ見つけていくことがまず役に立つ、ということか。とりあえずは実際に手を動かして、データから相関関係を見つけるスキルを身につけねば。
p.29より
映画『マネーボール』では野球のスカウトマンが統計データの活用で注目を浴びたが、あれはまさに高度なデータ分析に、職人的な直感が敗北を喫した例だ。
自分は現在、まさに「職人的な直感」で喰っているので、まったくもって寒気がするとしか言いようがない状況。この後マネーボール観ました(;´Д`)
p.40より
意外かもしれないが、ある母集団が、「はい・いいえ」のような二者択一問題にどのように回答するかを調べたい場合、無作為抽出した1100人の標本があれば、なんと97%以上の精度で全体の動向を言い当てることができる。
最近ちょうど統計学の勉強を始めた。目的としては上記のようなことを理解すること。とりあえず1100という数字と97という数字を結びつけるために頑張ってみたが、よくわからなかったw まだまだ修行が足りないらしい。「全体の動向を言い当てることができる」っていうのが何を指しているのかよくわからない。「はい・いいえ」をそれぞれ1と0とした場合の平均値(例えば、偏りがなく0.5なのか、「はい」が非常に多く0.9なのか)に左右される気もする。
統計に詳しい人、是非上記を解説していただきたく…m(_ _)m
p.130より
原作者不明とされた書物も、文章の書き方を比較することで原作者を突き止めるヒントが得られるかもしれない。
文章の「指紋」のようなものについての話。すごい発想だと感じた。データあるところにパターンあり、か?
p.166より
結果としては、携帯電話利用に伴う癌リスクの増加は見られなかった。
デンマークでの携帯電話と癌の関係に関する大規模な調査の話。携帯電話は関係なさそう、という結果だったからか、あまり話題にならなかったらしい。個人的に電磁波の健康への影響の有無に非常に興味がある。
p.180より
その結果、連邦政府の公開情報を集めた「data.gov」と呼ばれるウェブサイトが開設された。
(中略)
欧州連合(EU)もデータ公開構想を発表した。
恥ずかしながら上記のような動きがあったとは、ちっとも知らなかった。ちょっと系統は異なるけど、個人的に政府(?)に期待したいのは、例えばIPAなどが税金で作らせているアプリケーション(iLogScannerのようなもの)をオープンソース化すること。そうすれば報酬を求めない開発者も参加して、よりよい形に改善できると思う。
p.186より
現在、データの値付け実験の場として、数々の取引市場が立ち上がっている。
(中略)
外部企業はこうした場に参加して、自社のデータを他社に有償あるいは無償で提供する。オークションサイトで不要品を売るのと同様に、社内のデータベースにしまい込んであるデータを販売できるのだ。
純粋にデータをインターネット上で売買するという動きができているとのこと。これも知らなかったので、驚いた。Scutumのようなサービスも、しばらくやっていると「素性の悪いIPアドレス」のデータなどが溜まるが、そういうものを売るというアプローチも考えられるのだろう。
p.205より
現在、データベース管理、データサイエンス、分析、機械学習アルゴリズムなどの専門知識やノウハウは引っ張りだこだ。しかし、今後、ビッグデータが日常生活に深く入り込み、ツールは使いやすく性能も向上し、さらに多くの人々がノウハウを持つようになると、スキルの価値は相対的に低下する。コンピュータプログラミング能力もそうだった。1960年代から1980年代にかけて普及し、今では海外のアウトソーシング先の存在もあって、プログラミングの価値はさらに下がった。かつては技術力の代表格のように言われたものが、今では貧困国の発展の原動力になっている。とはいえ、ビッグデータのスキルが重要でないといっているわけではない。こうしたノウハウや専門知識は、価値を生み出す厳選としてみると、最重要ではないのだ。その気になれば外部から調達できるからである。
ビッグデータのスキルが将来的にはありふれたものになるだろうという予想。現時点でそこまで考えられる視点は見習いたい。スタートアップ的な動きをするエンジニアにとってはプログラミングもビッグデータのスキルも外注してどうにかなるものではないので、しっかりと身につけるという選択肢以外はあり得ないと思う。「プログラミングできること」自体も大事だが、それより「プログラミングできること」によって得ることができる「より高い視点の位置」「発想の柔軟さ」が大事だ。エンジニア出身の社長が優秀なのは、まさにこの点であると思う。
p.215より
これからは数学や統計学、それにプログラミングとネットワークのちょっとした知識が、”現代の読み書きそろばん”になる。
さっき「外注できる」って言ってたくせに…というのはいいとして、まさにその通りだと思う。
p.232より
やはり個人特定可能なデータは丁寧に削除されていたのだが、それでもユーザが特定されてしまったのだ
ネットフリックスの話。インターネット上の他のデータと組み合わせることで、ちょっとした手がかりから個人が特定されてしまうケースは多数ある。日本でもかつてのWinnyでの個人情報漏洩や、2ちゃんねるによる「特定」など、個人情報がさまざまな情報の断片から特定される例はよく見られる。
p.275より
まず手をつけたのが、市内に90万軒ある住宅リストの作成だ。次に、19の機関から入手したデータを住宅リストに加えていく。具体的には、建物オーナーの固定資産税滞納、抵当権執行手続きの有無、電力使用量の異常や料金滞納による電力供給停止といったデータだ。また、建物のタイプ、竣工時期、救急車出動回数、犯罪率、ネズミの苦情などのデータも入力された。
不正改造住宅を見つけるためのアプローチの第一歩として、上記のようなデータが使用されたとのこと。相関関係を調べる具体的な例として興味深い。
p.289
ところが発明のひらめきは、データには語れない。まだ存在していないのだから、いくらデータ量を増やしたからといって、裏付けや確証が得られるものではないのだ。
ジョブズが市場調査をしなかった(「消費者は欲しいものを知らない」)のに似ている。当たり前だが、ビッグデータがすべてを解決するわけではない。ただ、遺伝的アルゴリズムのように「突然変異」という現象をコンピュータでの計算に取り入れることだって可能なのだから、一概に「コンピュータはひらめかない」と決めつけることもできないだろう。
この本を読めば「ビッグデータ」が単なるバズワードではないことはすぐにわかる。文句なく、「買い」の本。ビッグデータの具体例はもちろん、上記で紹介したようなやや抽象化した見方もできるのが、この著者の凄いところだ。
インターネットの台頭に続き、このような大きな動きが現れる時代を生きることができる幸運に感謝したい。
One thought on “読書メモ「ビッグデータの正体」”