読書メモ「その数学が戦略を決める」文庫版

原題は「Super Crunchers」。本書では「絶対計算者たち」と訳されている。こちらにあるように「Number crunching」はコンピュータなどで高度な計算を行うという意味のスラングらしい。邦題の「その数学が」の「数学」は、ここでは統計学のことである。

2008年に出版された本書(邦訳版は2010年?)は「ビッグデータ」ブームの到来前に書かれたものである。内容は古くなく、かえってビッグデータ本にありがちな事例が載っていないために新鮮であったりする。著者はこの分野の専門家で、ジャーナリストが書いたビッグデータ本とはまた異なる良さがある。全体を通じて飽きることなく、一気に読み終えた。

p.61より

絶対計算の一部は企業内で行われているが、本当に巨大なデータ集合は外のデータウェアハウスにおくられて、テラデータのような専門企業が分析している。この会社はまさに何テラバイトものデータを扱っている。世界的な小売業者上位の65%(ウォルマートやJCペニーなど)はテラデータを使っている。また航空会社の七割、銀行の四割も同社の顧客だ。

日本国内でテラデータに位置する企業はどのへんなのか興味がある。

p.98より

偶然にまかせたテストは、銀行や貸金業にかぎられてはいない。Offermatica.comはインターネット上の無作為化をまさに芸術技まで高めた。
(中略)
オファマティカのソフトは、人々がクリックするごとに、その2つのウェブページのどちらかを、無作為に送る。そしてどっちのページが「クリックスルー」が多いか、つまりは購買につながるかを、リアルタイムで教えてくれる。

ウェブページでの無作為化テストは低コストで行うことができるが、ノウハウが必要になる。オファマティカはそのノウハウを誰でも使える形にしたサービスである。その後オムニチュアに買収されたらしい。

p.103より

ユーザビリティ専門家は、実験室で確立されたいくつかの原則に大いに自身を持っている–たとえば、「人々はまず左上の隅を見る」とか「人は青より赤に注目する」とか。ロシュは反論する。「現実の世界では、広告はものすごい数のその他の入力と競合しています。対照実験なんてものは存在しません。ユーザビリティ専門家は、他の情報の津波が押し寄せているのに砂で出来た真実の城にしがみついているんです。」

まさに本書らしい記述の一つ。専門家 vs データ。この例のインターネット上の広告のようにデータが取りやすい場面では、専門家の化けの皮はすぐにはがれてしまう。

p.114より

自分たちの大切な方針をきちんとした試験にかけたくはないのだ。下手をすると、自分がまちがっていることが示されてしまうかもしれない。

企業文化に無作為抽出テストが浸透しない理由について。いかにもありそうな理由だが、長い目でみればそういった立場を取る専門家は駆逐されていくしかないだろう。

p.164より

個々の医師がまともに吸収しきれるのを遙かに上回る、根拠に基づく情報がありすぎるのだ。
(中略)
明らかに、医師たちにそこまでの時間をかけて統計調査の山を漁れというのは、まったく現実的ではない。

「きちんとデータに基づいて仕事をしよう」と考える専門家に立ちはだかる問題。これは、僕のやっているウェブやネットワーク侵入検知の分野でも同じことが言える。興味を引くタイトルの論文や記事はいくらでもあるんだけど、ひとつひとつ吟味している時間を取ることは難しい。本書ではこの後、それぞれの情報の品質に基づいた検索を可能とするデータベースが必要だ、としている。セキュリティとは外れるけれど、僕がよく使う中では、StackOverflowがそのような役目を果たしてくれているかもしれない。

p.169より

ついに教授は、その研修医に診断を尋ねた。そして彼女は、診断を下しましたと述べ、症状に見事にあてはまる珍しいIPEXという症候群を報告した。どうやってその診断に達したのか訪ねられると、彼女はこう答えた。
「主要な特徴をグーグルに入れたら、すぐに出てきましたよ」

本書に登場する数多くの例の中でも、最も印象深いエピソードのひとつ。自分の専門分野でこれ(Googleに自分の知識が負ける)が起こったときにどうするか。あるいは、起こることが当然と考えるか。自分はグーグルに勝てるのか。あるいは勝ち負けではない別の方向を模索するのか。

p.199より

「人間の判断は、最高の回帰分析に劣るというだけではない。ほとんどどんな回帰分析にも劣るのだ」

ちなみに本書の著者は回帰分析とランダム化を(統計が専門家に勝つ理由である)大きな武器として紹介していて、機械学習系にはあまり積極的ではない。基本的には統計学に惚れ込んでおり、回帰分析の肩を持つきらいがある。上記は、単にある心理学者が言った言葉というだけであり、さすがに真実ではないと思いたい。

p.216より

だがどこかの時点で、絶対計算の優位性というのは他人事ではない、ということを受け入れるべきだ。野球のスカウトだのワイン批評家だの放射線医学だの等々、一覧は果てしなく続き、やがては自分のところにもくる。

これは、まさに今の僕を突き動かしていることである。ウェブやネットワーク侵入検知の現場には膨大なデータが存在していて、それらを活かせば、より高品質な侵入検知サービスを構築することができるだろう。データサイエンスの知識を持たないままでいれば、いつかは砂の城にしがみつく権威的な存在になってしまうことは確実だ。

p.331より

最高のデータマイニング屋は、統計分析がもっともらしいかどうかについて直感や経験的な技法を使う。直感から大きくはずれた統計結果は、慎重に調べ直す必要がある。
(中略)
それぞれの意志決定は、お互いの最大の弱点を実用的に補い合ってくれるわけだ。

理想的な形は「絶対計算 vs 専門家」という構図ではなく、絶対計算を使う専門家という形だろう、という話。当然だろう。

本書は基本的に「絶対計算が最強である」という意見を強く持つ著者によって書かれていて、他の中立的なジャーナリストが書いていることが多いビッグデータ本よりも、やや偏った内容となっている。しかしそこが魅力でもあり、ITエンジニアであれば、自分も絶対計算ができるようになりたい、と思うに違いない。

さて、本書を読んで、あらためて自分の立ち位置について振り返ってみた。

最初は、自分は完全に、本書で書かれている「野球のスカウト」だと考えた。つまり絶対計算を使わず、経験、直感、勘といった要素で仕事をする専門家だ。そのためこのままではビッグデータ、データサイエンス、絶対計算の波に完全に飲み込まれるだろうと恐怖を感じていた。

しかし、実際にデータサイエンスの勉強を始め、あらためて自分が行ってきた仕事を振り返ってみると、そこまでひどいことにはなっていないことに気付いた。僕は自分の直感を(ネットワーク侵入検知の)コードに落とし込むわけだが、そこで終わらず、きちんと実際に集められたデータを使ってそのコードの質を検証する、というサイクルを繰り返していたのだ。その過程に機械学習や回帰分析などのデータサイエンスの技術は(知らなかったので当然だが)まったく存在していないが、それなりに自分の直感に依存しない、客観的なテストデータを取り込んでいたので、これは方向としては非常に正しいものであると思う。

野球のスカウトも、自分がスカウトしてきた選手がその後本当に期待通りの成果を上げたかきちんと評価し、間違っていれば自分の勘を修正する、というサイクルを回せば、それほどひどいことにはならなかったろう。しかし、そこまで自分を追い込まなくても、仕事が舞い込んでくるという環境だったのかもしれない。

僕は最近本格的に統計解析やデータマイニング、機械学習の勉強を始めたが、こんなに面白いものがあったのか、という新鮮な驚きで満ちている。これらの技術を自分の専門分野にフィードバックする段階に到達するのが楽しみだ。

One thought on “読書メモ「その数学が戦略を決める」文庫版

Leave a comment