DATA ANALYTICS MEDIA

データで読み解く、
マーケティングの未来。

統計学・データサイエンス・マーケティング分析の最新情報をわかりやすくお届けします。

統計学の記事を読む
STATISTICS

統計学

すべて見る →
統計学
「ちゃんと分析するための分析」は運動の前の準備体操みたいなものである
今回は「課題発見のためのデータ分析手法」を紹介します。 「(ビッグ)データがあるから分析して下さい。何か分かるでしょ?」 と偉い人から言われて、泣く泣く分析作業に取り掛かった戦士たちの血と汗と涙の記録です。   ”発見”のための分析は必要だ 準備運動もせず、いきなり100kmマラソン走ってくださいと言われたら、誰だって「えっ?」と仰け反りますよね。 しかし、これが多くのデータ分析の現場で起きていることだと考えていただければ幸いです。 どういうデータなのか、どういう課題があるのか、何を解決して欲しいのか、まったく説明もないままに「データ渡すから何かわかるでしょ?」と言われて「えっ?」と仰け反っている人は多いです。 筋肉が目覚めていないのに急に身体を動かしたら、悲鳴をあげるに決まっています。したがって、まずは筋肉を目覚めさせるストレッチをする。 これを私は「ちゃんと分析するための分析」だと呼んでいます。   通常、データ分析は課題を発見し、課題の原因となる仮説を構築し、仮説を立証して課題を解決します。 重要なのは「どんな課題があるか?」だと考えています。言い換えると「何を解決したいのか?」を決めることです。 これだけはデータ分析だろうが人工知能だろうが何だろうが自動的に導き出されるものではなく、誰かの意思決定の元で「それが課題です」「それを解決したいです」という議論が必要です。   しかし、ある程度なら「これが課題じゃないですか?」と提案することはできます。貰ったデータを読みほぐしていけば「こういう傾向が出ているな」「こういう可能性があるな」と、様々な仮説を発見できます。 こうした「ちゃんと分析するための分析」は意外と不人気だし、高名なデータサイエンティストともなると「それぐらいは下処理してから暖簾くぐれや!」と言っているとか言っていないとか。 とはいえ、データ分析業界の深夜食堂を自称したいマメ研としては、こうした下処理もコツコツ励んでおります。 今回紹介する手法が全てではないですが、こういう下処理もあることを知って頂ければ幸いです。   横断面データの場合その1 データが横断面データだった場合を考えます。 横断面データって何?という方は、以下のコンテンツを参照してください。 「1+リンゴ」は足せない!質的データと量的データの違いを知ろう https://www.mm-lab.jp/report/correct-understanding-as-type-and-form-of-data/   対象のデータが定性的データ(名義尺度や順序尺度など整理するために数値を使っているデータ)の場合、まずはクロス集計の作成に取り掛かります。層別集計とも言います。 「層別」はQC7つ道具に取り入れられており、傾向や特徴を明らかにするためのメジャーな手法の1つです。 例えばアンケートデータの場合、ユーザー属性という「層」と属性の行動結果(アンケート回答)の二軸に分かれます。 そこで、まずは一方のユーザー属性(性別、年齢別など)で、もう一方の行動結果(例:品質に満足いただけましたか?)を集計します。つまりデータをまず分けるのです。   次に、分けて集計したデータに対して、差が現れているか確認します。そのためにデータを分けたと言ってもいいでしょう。 差が現れているなら「なぜ差は生まれたのか?」を考えます。これが、1つの課題発見に繋がります。 もちろん、白銀号事件よろしく「犬が吠えなかったことがおかしい!」と同様に「なぜ差は生まれなかったのか?」を考えても良いかもしれません。 差をキチンと見る場合、カイ二乗検定やフィッシャーの直接確率検定を用います。 分割表のセルの期待値に10未満のものがある場合や、表中の数値の偏りが大きい場合はフィッシャーの直接確率検定を用いましょう。   > q=matrix(c(67,41,21,3,1, +...
2017.08.09
統計学
NHKスペシャル「どうすんのよ!?ニッポン」AIに聞く前のデータ処理間違ってた!?
文責:松本 健太郎 マーケティングメトリックス研究所所長   2017年7月22日(土)に放映された、NHKスペシャル「AIに聞いてみた どうすんのよ!?ニッポン」が各所で波紋を呼んでいます。 その理由の1つとして「AIひろしは相関関係があるデータ項目を線で紐付けただけなのに、人間が勝手に因果関係だと解釈しているのではないか?」という声が多い点を挙げます。   しかし、放送を見ると、言うほど悪くなかったと思うのです。 近藤正臣さんが「因果関係は分からないけれど」と前提条件を説明したり、映像のテロップで「時系列の変化も分析」「『健康になった⇒病床数が減った』の順ではなく、『病床数が減った⇒健康になった』を導き出した」と注意書きが出たり。 一般市民としては「意外とちゃんとしてんちゃう?」感を抱きました。 そもそも時系列なデータのみで因果関係を証明するのは非常に難しく、統計的因果推論などの手法を用いて統計的に因果性を推論するしかありません。もし世間一般の皆さんが「その結果すら実際の意味での因果関係とは言えないだろ!」とご指摘されるのであれば、困ってしまう研究者の方は多くおられるのではないでしょうか。 そこで後追いですが、私も検証してみることにしました。以下、検証結果が続きますが、最初にまとめを掲載しておきます。 ・病床数(人口10万人対)とがん年齢調整死亡率(人口10万人対)のデータで検証。 ・前処理せずに都道府県別の相関係数を求めるとそこそこ高い結果が多い。 ・単位根過程のデータが多いので前処理すると、使えないデータが多い(要意見求む)。 ・前処理後、グレンジャー因果性検定を行った結果、3県だけ因果性を発見した。 ・これでは「健康になりたければ病院を減らせ」とは言えないのではないか。もしかして「見せかけの回帰」に引っ掛かっているのではないか。   どのデータを検証するか? NHKの今回の放送をまとめたWEBページに「AIの分析結果から読み解いた提言」が掲載されております。画像を引用するのは憚られるので、気になる方はリンク先をご参照ください。 http://www.nhk.or.jp/special/askai/otsuge2017_01.html   この中で「病院数が減ればがん死亡者が減る」に着目しました。元々の提言が「健康になりたければ病院を減らせ」だったので、一番それに近しそうな関係に注目しています。   「病院数」と書かれていますが、番組が進行する過程で「病床数」だと分かっています。また「病床数(人口対)」と記載されていましたので、そのデータを探します。 データ元は厚生労働省医療施設調査・病院報告だと思われます。こちらについては、WEB上で1995年~2015年の21年分都道府県別のデータが公開されていました。残り9年分は入手できませんでした。 厚生労働省 医療施設調査・病院報告 http://www.mhlw.go.jp/toukei/list/79-1a.html   続いて「がん死亡者数」ですが、それに該当すると考えられるデータは2つあります。いずれもデータ元は国立がん研究センターがん情報サービスが公開しています。 国立がん研究センターがん情報サービス がん統計 年次推移 http://ganjoho.jp/reg_stat/statistics/stat/annual.html   1つは単純な「がん死亡者数」、もう1つは「がん年齢調整死亡率(人口10万人対)」です。 年齢調整死亡率とは、簡単に言えば高齢化による影響を取り除いた値です。高齢になるほどがんによる死亡率が高くなるため、高齢者が多い集団は高齢者が少ない集団よりがんの粗死亡率が高く現れるようになります。そこで、元データを加工してその影響を取り除いているわけですね。 病床数を人口10万人対で作成したのであれば、「がん年齢調整死亡率(人口10万人対)」を採択したのではないか?と考えます。そもそも単純な「がん死亡者数」であれば、高齢化という大きなトレンドがあるので除去は必須であり、すでに調整済みのデータを使うべきかとも考えます。 ちなみに、いずれもWEB上で1995年~2015年の21年分のデータが公開されていました。残り9年分は入手できませんでした。   何も考えずに散布図と相関係数を出してみる...
2017.07.26
統計学
因果関係を見つけ出すQCA(質的比較分析)で考えるアトリビューションモデル
今回は、QCA(質的比較分析)という手法を用いた新しいアトリビューション分析モデルの開発経過を報告します。 あまり聞き馴染みの無い単語だと思いますが、Rでのサンプルプログラムも記載しているので皆さんの環境でも再現可能です。 「R触れないよ!」という方のためにも概念や考え方も軽く紹介するので「へぇ~、こういう考え方もあるのね」と思って頂ければ幸いです。   アトリビューションとは何か? ご存知かもしれませんが、簡単にアトリビューション分析およびモデルの説明をします。 アトリビューション分析とは、ユーザーが最後に接触した媒体のみ評価するのではなく、それまで接触してきた媒体も含めて評価する分析手法を指します。 デジタルな環境ではユーザーを一意に認識できるようトラッキングできるので、どの媒体に接触したかという「過程」を把握できます。このあたりの技術の進化がアトリビューション分析を後押ししたのだと思います。 過程を評価するアトリビューション分析のモデルについては、様々なアプローチが提案されています。仔細は以下のサイトを見て下さい。 アトリビューション分析5つのモデル|デキるマーケターは知っている? http://blog.ebis.ne.jp/marketing/attribution-analysis-of-five-models/   接触した媒体を均等に評価するか、最初を評価するか。様々なモデルが提案されています。   QCAとは何か? 質的比較分析(Qualitative Comparative Analysis)とは、簡単に表現すると「ブール代数や集合論を用いて、データに潜む因果関係を見つけ出そうとする手法」です。 要は、組み合わせから因果性を明らかにしていこうとするのです。 この手法はカリフォルニア大学で社会学を教えるチャールズ・レイガン(※1)によって提唱されました。 最近では森大輔先生(※2)、田村正紀先生(※3)、豊田裕貴先生(※4)他多くの先生方が研究されておられ(巻末に参考文献として掲載しています)、定性的手法と定量的手法の架け橋として注目を集めています。   考え方を簡単に紹介します。 広告A、B、Cを「原因」、商品の購入を「結果」と定義して、ある2人が広告を見たかどうかで承認の購入に影響を与えたか考えます。 ある組み合わせ 違いを比べてみて下さい。 「原因」がこの3つの広告施策のみなら、広告Bが原因で商品が買われたという結果になることが想定されます。 …が、世の中こんなシンプルな世界でまとまっていません。世の中はいつだって複雑に入り組んだ現代社会であり、そこにメスを入れるのが探偵ナイトスクープです。 先ほどとは異なるある組み合わせ もしも上記の結果だった場合、違いを比べる方法だと、「原因」がこの3つの広告施策のみだったとしても想定される原因が分かりません。 例えば、広告Eと広告Fの両方を見たという「相乗効果」があってこそ商品が買われたという仮説、広告Dを「見ていない」から買ったという仮説…色々思い浮かびます。 つまり、実際の世の中は「原因が1つのみ」の条件であるという前提には立てないということです。 そこで手法として用いるのがQCAです。 先図のような限られた原因の列挙という点に変わりはないのですが、十分条件と必要条件を考慮したうえで、考えられる原因の組み合わせと結果の関係を導き出します。 先ほど挙げたような「広告Eと広告Fの両方を見た相乗効果」をQCAは示してくれます。   現在のアトリビューション分析の多くは、過去に接触した広告の評価はできても、接触した広告の組み合わせの評価(オウンドメディア⇒GoogleならCVはあるけど、メルマガ⇒GoogleならCVは起きにくい等)はされていない場合が多いのではないでしょうか。 またデータ的には「CVした人」と「CVしていない人」の両方を対象に、「原因」と考えられる接触媒体との接触度と「結果」との組み合わせを見ることになります。多くのアトリビューション分析が「CVした履歴」に限られる中でQCAは「CVしていない履歴」も含めて評価します。 この2点がQCAをアトリビューション分析に応用すると新しいと感じました。  ...
2017.03.28
統計学
2017年こそリアルガチで\横浜優勝/するのか分析してみた
昨年、広島カープの優勝を予想して見事に的中したマメ研所長。 2016年プロ野球順位予想!監督の選手時代から勝利数は予測できる!? https://www.mm-lab.jp/statistical/professional_baseball_standings_expected_2016/   今年は、躍進を遂げている横浜DeNAベイスターズが優勝するか検証します。   2016年の成績をピタゴラス勝率の観点で振り返る 2016年の結果を振り返ります。広島の圧倒的な優勝で終わったセ・リーグでした。   2016年のセ・リーグ成績 得失点が多い横浜DeNAと、得失点が少ない巨人がほぼ同じ勝率という点に違和感を抱くかもしれません。 しかしピタゴラス勝率を求めると、だいたい似た勝率に落ち着きます。 P勝率列を参照ください。   チームの傾向は、打力の横浜DeNAと投手力の巨人という位置付けで良いかと考えます。 ちなみに、打撃系指標を比べるとOPSは巨人と横浜DeNAで同率なのに、得点は巨人が60点も下回っています。 WBSでも4番を務める筒香という傑出した存在がいることの証左ですね。 もし筒香が怪我で長期離脱でもしたら…ゾッとします。   さて、これを交流戦と公式戦の2つに分けてみましょう。   交流戦とそれ以外のセ・リーグ成績 巨人と横浜DeNAの命運を分けたのは、交流戦だったことが分かります。 交流戦以外は、全く同じ勝敗数でした。   山口の抜けた穴は埋まるのか? 去年の成績を基準に新戦力面では「抜けた人」と「加わった人」、そして既存戦力面では「成長した人」と「衰えた人」を足し算・引き算すれば今年のおおよその成績が出せます。 しかし何れも非常に予想が難しい。 例えば、2014年、2015年と2年連続最多ホールドを獲得した福原選手が、急に衰えて2016年にプロ野球選手を引退するとは思ってもいませんでした。 逆に2014年に阪神を自由契約になった新井選手が2016年に101打点でリーグMVPを受賞するとも思っていませんでした。   そんな中で抜けた戦力がどれくらい痛手なのか、これはまだ予想しやすいです。 例えば去年の優勝を広島だと断言した時に、周囲は「マエケンの抜けた広島は無い!」といった反応を示した。 恐らく「2015年は前田健太で15勝したから、彼が抜けることで15勝分無くなる」という思い込みによるものです。2013年に24勝をあげた田中将大が抜けた楽天が、翌年に最下位に落ち込んだことも拍車をかけているかもしれません。 しかし投手がいくら0点に抑えても、打線が1点以上取らなければ勝つことはありません。つまり3点取られようが5点取られようが、それを上回る得点をあげれば勝つことができます。 これをRS(援護点)と言います。 去年の広島の場合は、前田健太の抜けた穴を野村祐輔が埋めました。防御率、WHIPともに2015年の前田健太に及びませんでしたが、ほぼ同じ16勝をあげました。 RS/9(9イニングあたりの援護率)で見てみると2016年の野村祐輔が5.66に対して、2015年の前田健太が3.40です。野村の能力は前田に劣りますが、援護点が多かったので勝利数はほぼ同数だったのです。 このあたりが投手の能力を勝利数で図ることが間違っていると言われる証拠なのだと感じています。  ...
2017.03.14
📊
データは嘘をつかない。
しかし、正しく読み解く力が必要だ。
— データ分析ラボ

データ分析ラボは、マーケティング・統計学・データサイエンスの知見をわかりやすく届ける情報メディアです。データドリブンな意思決定に役立つ情報を発信しています。

サイトについて