書評

書評
誰が棒グラフを発明したのか? グラフをつくる前に読む本を一部先行公開!
今回は、前回に引き続き9月23日に出版される「グラフをつくる前に読む本 一瞬で伝わる表現はどのように生まれたのか」を先行特別公開します。 グラフをつくる前に読む本 一瞬で伝わる表現はどのように生まれたのか 松本 健太郎 技術評論社 2017-09-23 今回も第2章「棒グラフ」からの紹介です。 調査に半年ほどの時間を費やした「棒グラフの成り立ち」について紹介します。 統計データのグラフ化に挑んだ男:ウィリアム・プレイフェア 棒グラフを考え出したその人物の名前はウィリアム・プレイフェアです。 1759年にスコットランドで生まれたプレイフェアが1786年に出版した「The Commercial and Political Atlas」(商業と政治の図解)の文中に、はじめて棒グラフが採用されました。 この本は、現代風に表現すると「図解でわかる!統計データ」とでも言いましょうか。今まさに手にしている本書と同じように、ウィリアム・プレイフェアは統計データを用いたグラフ表現に挑みました。 それまで貿易や財政に関する統計データは表に記載されるだけでしたが、ウィリアム・プレイフェアは数字を棒の長さで表現する方法を世界ではじめて公開しました。 「見慣れないかもしれないけど、こっちのほうがパッと見てわかりやすいじゃん?(意訳)」というコメントを付けて発表された40個のグラフのうちの1つが本章で解説する棒グラフでした。 つまり、まだ棒グラフが誕生して200年程度しか経っていないのです。 大変な読書家でもあったフランスの国王ルイ16世は、この本を読んで「これいいじゃん、すげーわかりやすいじゃん」と言ったそうです。ただし、ウィリアム・プレイフェア自身が書き残した記録に残っているだけで、自作自演説が濃厚だと言われています。 現在でこそウィリアム・プレイフェアは政治経済学者であり近代的なグラフの創案者と紹介されていますが、彼の生涯は「バクチ」に負けた敗者の歴史と言っても過言ではありません。 何より彼の死は「地元新聞社の元編集長の死」として取り上げられたに過ぎず、多大すぎる功績が評価されるのは死後でした。 プレイフェアの人生について、そして棒グラフが誕生する背景について追ってみましょう。 ウィリアム・プレイフェアの波乱万丈な生涯 プレイフェアは、牧師の家の四男として生まれ、13歳で父親を亡くします。以降はプレイフェア家の長男であるジョン・プレイフェアの手によって育てられました。 11歳年上のジョンはかなり優秀で、数学の教授を務めるだけでなく、教会でも仕事をこなし、後年はロンドン王立協会の会員にも選ばれています。ちなみに次男のジェームス・プレイフェアは建築家として成功しており、「華麗なるプレイフェア一族」と表現しても言い過ぎではありません。 そんな環境のもとで育ったウィリアム・プレイフェアは、自分が「何者」であるかを証明するかのように、さまざまな職業に就きます。しかし、どれも大成したと言えないまま逃げるように次の職を求めています。 19歳になるとイングランド・バーミンガムへ行き、もともと機械いじりが好きだった影響もあってか、蒸気機関を改良したジェームズ・ワットの会社で製図師として働きはじめます。 しかし安い給料に嫌気がさして23歳で独立します。20歳の頃に結婚した妻と子供を養えないからだと言われていますが、どこまで本当かは怪しいです。 独立してからは、イギリス・ロンドンで銀細工の店を開きます。「The Commercial and...
2017.09.06

書評
マーケターもクエリ言語をやりましょう!2017初夏 「ビッグデータ分析・活用のためのSQLレシピ」
今回は以下の本の紹介をいたします。 加嵜 長門 田宮 直人 丸山 弘詩 マイナビ出版 2017-03-27 「ビッグデータ分析・活用のための」と描かれている通り、文中は大規模データを想定したSQL文が並びます。このビッグデータな時代、色んなSQL本が出版されていますが、ここまで実用的で、かつサンプル例が揃った本に初めて出会いました。 著者はDMM.comラボに勤められているエンジニアの方だそうですが、この書籍の元ネタは現場で実際に使っているSQL文か著者の個人的なメモなのではないでしょうか。それくらい「痒い所に手が届く」「困った時に知っておきたい」サンプル例ばかりです。 今回は、この本で着目すべき3つの注目点を簡単に纏めてみました。 その1:非エンジニア向けの易しい解説書スタンス そもそもビッグデータと一口に申しても、データを管理しているエンジニア、データを分析するデータサイエンティスト、データからインサイトを得たいマーケターや営業や経営者、立場によって「データ」は違って見えるはずです。 エンジニアにとっては「記録」。データサイエンティストにとっては読み解いた先に何かあるかもしれない「数字」。そしてマーケターや営業や経営者にとっては「宝の地図」か「隠したい不都合な真実」。 少し極端に表現していますが、同じ「データ」なのに役割が違うだけでここまで違う顔を持っていいのかという疑問もあります。 大企業であれば役割が分かれることのメリットがデメリットを上回る場合もあるでしょうが、中小企業・ベンチャーだと役割を分けようにも人手不足で分けられないのが現状ではないでしょうか。 しかし、役割が分断しているのは理由があって、お互いが使っている「言語」が分からないという(個人的には結構切実な)問題が隠されています。 エンジニアはSQL書けるし、データサイエンティストはSPSSやSASやRやPythonで統計解析ができるし、マーケターは消費者心理が分かるし、営業はモノを売れます。 しかし、どうにも役割間には「見えない壁」のようなものがあって、fluentdでS3に格納しているアクセスログをRedshiftなりBigQueryなりに食わせて集計・集約するとなるとデータサイエンティストは「それ、僕できるかな…」と不安げな表情を浮かべます。 データサイエンティストが欲しいデータを、エンジニアが必ずしも一発で用意してくれるとは限らないんですけどね。 見えないガラスの壁。 その壁を壊そう!というのがこの本の趣旨だと私は解釈しました。文中にも、上記に近しいイメージ図が紹介されています。 壁はぶっ壊そう! ちなみに、私は開発部出身でして、SQLを書くのが結構好きです。というかデータを格納するテーブル設計の思想を読み解くのが好きなのです。鄙びた温泉旅館に置かれた積み木パズルを解くような楽しさがあります。 過去に、ER図すら無い2TBあるデータベースを渡されて「分析して何か発見してください」というマゾの極地に立った経験があるのですが、その時も少しずつ全体像が浮かんで行く感覚にワクワクしたのを覚えています。 データサイエンティスト協会もこの「壁」については認識されておられて、公開されているスキルチェックリストにはデータサイエンス力以外にデータエンジニアリング力、ビジネス力なども含まれています。 私が思うに、SQL書ければもっと仕事捗るだろうに!と思う役割はマーケターさんです。 というか、個人的には「SQL書けないマーケターもうgood night」ではないでしょうか。 消費者心理を読めるマーケターさんが自分で勝手にデータの抽出までやれたら最強です。全てがマーケターさんで完結するからです。 デジタルマーケティングの世界ではあそこまでエクセルに塗れているのに、RDBに向き合ってSQL書けない理由が全く理解できません。最近は営業でも強制的にTreasureDataでクエリを書かせる企業もあるそうですけど。 元USJの森岡さんが「数字マーケティング」という造語を生んでまで市場啓蒙されていますが、あまり反応も無いようです。 計量マーケティングとでも言えばいいのに。英語にするとMarketingMetrics…あっ。 ...
2017.05.16

書評
分析したら何か分かるでしょ?という人にこそ読んで欲しい「データ分析プロジェクトの手引」
今回は以下の本の紹介をいたします。 David Nettleton 共立出版 2017-02-24 原著は「Commercial Data Mining: Processing, Analysis and Modeling for Predictive Analytics Projects」という題で、直訳すると「商用データマイニング:予測分析プロジェクトの処理、分析、モデリング」となります。 著者のDavid Nettleton氏は、訳者の紹介によると「人工知能の分野で博士号を取得しており、IBMでビジネスインテリジェンス関連の業務に従事した後、自身の会社を立ち上げ、様々な分析プロジェクトに関与してきた」そうです。 分析一辺倒の先生というよりは、現場も客先も知っているバランス型なのだと思います。だからこその「Commercial Data Mining」なのでしょう。自信の表れですよね。 今回は、この本で着目すべき3つの注目点を簡単に纏めてみました。 その1:とにかく分厚い この本とにかく分厚いです。400ページ超あります。 そこに注目なの?という声も聞こえてきそうですが、この本の分厚さこそ真っ先に注目すべき点だと訴えたい。 本を読み終えた後に、そもそもこの本は誰に向けて書かれた本なのか?とふと考えたのです。 もちろん私のような分析者のために書かれていると最初は思いました。 ですが、もしかしたら、David Nettleton氏は私たちの声を代弁してくれているのではないか?という仮説が浮かびました。 再現性はあるのか?疑似相関ではないのか?こんなに変数多くてマルチコ起きないか?この結果を受けてどんなアクションが考えられるか?等々、様々な前提条件と制約条件に知恵を絞らせている中で「人口知能で何か分かんないんすか?」と言う人が結構おられます。 そのこと自体の是非はともかく、「いや、そんな簡単に言うけどデータの準備するだけでも、これぐらいの労力かかるんやで!」と言える1冊になると感じたのです。 この本では、データソースの確認(第3章)、データの表現方法・格納方法(第4章)、データの登録方法と質の担保(第5章)、データの選定と推定(第6章)と、なかなか分析まで進んでくれません。 しかし、私たちデータサイエンティストも同様に、自分のリソースの100%を「分析」に当てていません。 どんなデータがあるのか?そのデータは数値型なのか文字型なのか?どこに保存されているのか?欠落していないか?どのデータを使って説明すべきか?…分析する前からやることはいっぱいです。 まるで私たちの仕事の段取りをDavid...
2017.03.22

書評
機械学習や人工知能を今年こそしっかり勉強したいと決意するエンジニアにオススメな10冊
昨年は「今年こそデータサイエンティストになると決意したあなたが読むべき10冊」と題して、年末年始に読んで欲しい本を紹介しました。 今年はバズワードだった人工知能と機械学習を、いよいよ実装しなければならなくなったエンジニアを対象に、これ読んだらいいと思いますよという本を紹介します。 そもそも「人工知能」って何やねん? いま最も人気の学会は人工知能学会らしいですが、そもそも「人工知能」って学術的にはどう定義されているの?と思われている方向けに、まずは読んで欲しい1冊です。 人工知能学会誌での連載解説が大幅に加筆修正された、とあります。 人工知能とは (監修:人工知能学会) 松尾 豊 中島 秀之 西田 豊明 溝口 理一郎 長尾 真 堀 浩一 浅田 稔 松原 仁 武田 英明 池上 高志 山口 高平 山川 宏 栗原 聡 近代科学社 2016-05-30 人工知能分野で最先端の研究を行う研究者13人による「人工知能とは何か?」という基本的な解説と、各研究者の研究内容が網羅されているので、大学のリレー講義を受けているような感覚を受けます。 面白いのは「”人工知能”に学術的な定義が無い」ことだと思うのです。そもそも先生の間で「知能」の定義が違うのです。その辺の詳細もこの本を読めば分かります。...
2016.12.20

書評
今年こそデータサイエンティストになると決意したあなたが読むべき10冊
今回は、今年こそデータサイエンティストになる!と決意したあなたにこそ読んで欲しい10冊の本を紹介します。 決意目標が揺るがない間に、真っ先にamazonでポチって欲しいと思います。 まずは基本統計量をしっかり理解する 統計学を記述統計学と推測統計学に分け、まずは前者をしっかり理解するなら、お勧めする本はこの2冊です。 菅 民郎 オーム社 2013-09-04 by G-Tools , 2015/12/21 東京大学教養学部統計学教室 東京大学出版会 1991-07-09 by G-Tools , 2015/12/21 東大本で理論をしっかり学びながら、菅さんの本でExcelを使って実際に操作してみるのが良いかもしれません。 最初は、東大本については第1章「統計学の基礎」、第2章「1次元のデータ」、第3章「2次元のデータ」を学ぶだけで良いと思います。 以降で紹介する本についても消化した後に、第4章以降について改めて読み進めると、より理解度が進むのではないでしょうか。(松本はそうでした) とりあえずRを触ってみよう データサイエンティストと言えばやっぱRでしょ!と私は勝手に思っているのですが、プログラム言語と聞いて顔を顰める人も多い様です。 そこで、そんな拒否反応を和らげてくれる本はこの3冊です。 Jared P. Lander Tokyo.R(協力) 高柳慎一 マイナビ 2015-06-30 by G-Tools , 2015/12/21 豊澤 栄治 翔泳社 2015-02-10 by G-Tools , 2015/12/21...
2015.12.22

書評
統計は嘘をつく~その数字は信用できるのか?
今回はある本を紹介したいと思います。経済史家であるモルテン・イェルウェン著「統計はウソをつく」です。 モルテン・イェルウェン 渡辺景子 青土社 2015-07-24 本の帯になかなかエキサイティングな一文が記載されたいます。 数字やデータは客観的なものであって、決して主観的なものではないはずだ。ましてや国際機関が使用する数字であれば…。世界銀行やIMFが使用するデータが経済の実態をまったく反映していなかったという衝撃の事実があきらかにされる迫真のドキュメント! ね、興味をそそられませんか? いま、あなたが分析している「数字」は正しいのか? いつの時代も、数字の偽装は簡単に行われています。 2015年10月で言えば、マンション建設における杭偽装です。杭が支持層まで到達したかを表すデータが偽装されていたことが発覚しました。その他にもセメント量偽装、地盤調査データ偽装と、あらゆる偽装問題が噴き出しています。 建築業界では、10年前にも耐震偽装問題が発覚しており、業界としての姿勢が疑われかねない事態です。 この他にも、一昨年までの10年間にまとめた千葉県警の交通死亡事故統計に、165件の事故が計上されていなかったことが発覚しました。 交通事故による死亡事故を統計データとして報告する際に、数字が計上されないような工夫(交通死亡事故は24時間以内に死亡した人数を計上するが、あえて24時間以降に死亡したことにしていた)を施していたのです。 いずれの問題も、今回紹介する本に通ずるものがあります。客観的なはずの数字が意図的に操作され、真実を反映していない「数」に仕上がり、それを関係者以外が真実として受け止めているという点です。 この本の序文は、ロジャー・C・リデル氏のある言葉が引用されています。 「入手可能なアフリカのデータをめぐる最も根本的な問題はおそらく、データが不正確であることは広く知られているが、どこまで不正確かは簡単に判断できないということだろう」 この言葉には2つの問題が含まれていることがわかります。 1つは統計局が公表するパブリックなデータであっても信用されていないこと、もう1つは信用されていないために判断材料として適していないがそれ以外のデータが存在しないことです。 もし、いま日常的に使っている「数字」が客観的ではなく操作されていたら? 客観的な数字は測りようがなかったら? この本では、そうした問題を丹念に解き明かしていきます。 著書はアフリカ大陸に足を運び、統計局で働く公務員に対して「どうやってそれを知ったんですか?」「あなたの方法はどんなものですか?」と聞いていったそうです。嫌な顔をされたこともあったでしょう。その丹念な質的調査に脱帽です。 「統計がウソをつく」ことの何が問題なのか? さて、統計データがウソだったとして、いったい何が問題でしょうか。この本では、国連国民経済計算体系を使って説明します。 聞き馴染みのない言葉ですが、この体系を使って国内総生産(GNP)と国民総所得(GNI)が計算されます。つまり、アフリカなどの開発援助が行われる国において、重要な開発進行指標となる所得と経済成長は、この計算体系が絶対に必要です。 そもそも経済成長とは、年間を通じて経済上行われたすべての付加価値ある活動の価値を合算し、その国のその年の人口で割り、さらに価格変動の補佐が入ることで算出されます。そのためには、すべての活動が測定できて、かつ人口が数値化されている前提に立ちます。 ここまでの精緻さは先進諸国でも達成が難しく、例えば(本格的な)国勢調査は10年に1回しか行われません。 では、果たしてこのような現状において、ミレニアム開発目標(詳細はコチラ)を達成せんと取り組んでいる様々な人たちの活動は、本当に現状に即しているのか?と著者は粗族な疑問を投げかけます。 すべての問題は、先進国に比べて活動の質に問題がある統計局の存在にあります。 文中、ザンビアではこうした計算がたった一人の人間の手によって作成されていることを明らかにしています。 「私がいなくなったら、どうなるんでしょう」と言ったそうですが、それは使命感ではなく、現実としての問題提起でもあり、いかに統計局が虐げられているかもわかります。 すなわち活動の質は、国内の政治体制・機構の問題でもあるわけです。 ...
2015.11.02