重回帰分析を使って有馬記念の1位馬を予想する!

マーケティングメトリックス研究所をご覧の皆様、はじめまして。

電通ダイレクトフォース・戦略コンサルティング部の小松と申します。

 

前回記事(ピザvsチキン!12月パーティ需要はどちらが高いか指数で明らかにする)を寄稿した小川より紹介を受け、マメ研に参加することとなりました。

よろしくお願い致します。

 

主な業務はダイレクトマーケティングの戦略プランナー、といったところですが、今回はもう一つの顔である「日本一競馬が好きな広告マン」として記事を書きたいと思います。

 

統計学で馬券は当たるのか?

昨今は統計学という学問がバズワードのように広がり、この業界でも学習する人が増えてきました。私も、広告やサイトの分析を行っているうちに自然と興味を持ち、勉強し始めました。

その成果をお見せしたいものの、こちらに寄稿されている方たちからみたらまだまだ若輩者。ということで、広告よりも得意な競馬をネタにして、何とか恰好を付けたいと思います。

 

折しも季節は冬。競馬ファンでない方でも馬券を買うことが多い有馬記念の時期ですね。

今年の有馬記念の結末を、統計学で占ってみましょう。

アプローチの仕方は、

  1. レースの走破タイムを予測する
  2. そのタイムで走破できそうな馬を炙り出す

と、しました。果たして、満足のいく結果は出るでしょうか?

 

今年の有馬記念の走破タイムを算出してみよう

まずは有馬記念の走破タイムの予測からです。

有馬記念は、中山競馬場の内回り2,500mというコースで行われます。

その年のグランプリを決めるレースをこんなトリッキーなコースでやるなんてウンヌンカンヌン…と言い出すと、毎週連載をいただいたとしても来年の有馬記念までかかりそうなので割愛します。

算出は、エクセルで「重回帰分析」を行います。過去に同じコースで行われた337レースをサンプルとします。

元データ。実績のリストです。

 

目的変数を「タイム(秒)」、説明変数を「馬場」「頭数」「前半3ハロン(600m)のタイム」「上がり3ハロンのタイム」の4つとしました。

馬場については、良・稍重・重・不良の4つそれぞれの平均タイムを出し、その差異を指数としています。

 

こういった表から、特定条件にあてはまる項目の平均値を出したい場合はAverageifという関数が便利です。他にも合計値を出すsumif、個数を出すcountif等の関数もありますので、覚えておくと作業が捗ります。

イメージ例。

 

また、中山2,500mはラップタイムの公式計測を「前半500m」としています。ですので、前半3ハロンのタイムは「前半500mのタイム×1.2」で算出しました。

当然、騎手の腕やレース途中の展開・アクシデントによりタイムが左右されることは重々承知ですが、数値化できないものは一旦除外します。

このデータを使って重回帰分析をしてみましょう。

分析までの流れ。

 

結果は以下の通りです。

まずは決定係数を確認。

 

決定係数0.644となっており、特別良い数値とは言えません。数値には表れない要素の多い「競馬」というものを統計のみで明らかにすることは難しいようです。

が、「馬の力7割・人の力3割」と言われる競馬の世界。とりあえずはこれで良しとします。

 

各メトリクスの結果は…?

 

各係数は上記のようになっております。頭数以外はP値も良いですのでこのまま進めます。

これで、頭数、前半3ハロンのタイム、上がり3ハロンのタイム、当日の馬場、の4つがわかれば、今年の有馬記念のタイムが予測できそうです。

 

まずは前半3ハロンのタイムを出しましょう。今年の出走予定馬から、逃げそうな馬を探し出します。

 

今年の出走馬を確認。

 

いません(泣)

今年はこれといった逃げ馬がいません。

ですので「逃げるとしたらこいつかなぁ」という馬・リアファルが逃げると仮定しましょう。

そして、有馬記念と距離が近い神戸新聞杯を勝った時の前半3ハロンのタイム、36秒5を参考値として使うことにします。

上がり3ハロンのタイムは、先ほどの337レースのデータから、前半3ハロンが36秒5の時の平均値を使うこととします。算出したところ36秒5でした。

頭数はフルゲート16頭、当日の馬場は願いを込めて良馬場と仮定します。

これと先ほどの係数を掛け合わせると・・・

 

予想レースタイム 02:33.9

今年の有馬記念のレースタイムは2分33秒9と出ました。あとは、このタイムを上回りそうな馬を探すのみです。

 

出走予定各馬の予想走破タイムを算出する

出走予定各馬の予想走破タイムも重回帰分析で算出します。

レースではなく各馬ですので、先ほどの説明変数に「斤量」「距離」の2つを加えます。タイムと距離に相関関係があるのは当たり前なので、「距離」を説明変数に入れることで、決定係数はとんでもなく高い数値が出るはずです。

ただ、距離を事前に絞り込んでしまうとデータ数が少なくなってしまうので、やむを得ずこの手段を選択しました。

 

上記方法を、出走登録している全20頭に対して行うことで、各馬の各係数が出てきます。

その係数に必要な情報を掛け合わせると各馬の走破タイムの予測が出ます。出してみると…

各馬の走破タイムの予測。

 

それなりに人気の出そうなショウナンパンドラやキタサンブラックは、かなりタイムが悪いです。これは収穫ですが、それでもなおクリアしそうな馬が11頭もいます。

これでは予想になりません。もっと他の要素・・・特にジョッキーの腕は考慮に入れるべきですね。

とはいえ、それを数値化するのは今の私では非常に難しい・・・。

 

というわけで、予想走破タイム上位5頭のBOX買い!というのを本記事の予想としたいと思います。

◎ゴールドアクター
○サウンズオブアース
▲マイネルフロスト
△ワンアンドオンリー
△ラストインパクト

う~ん、見事なまでに伏兵・穴馬ばかり。

これで当たったら良い年末年始を迎えられそうです。

甘々な分析ですが、最後まで閲覧いただきありがとうございました。

Written by