マーケティングメトリックス研究所をご覧の皆様、1年ぶりの登場です。
電通ダイレクトフォース・戦略コンサルティング部の小松と申します。
昨年記事(重回帰分析を使って有馬記念の1位馬を予想する!)にて有馬記念の予想をしたところ、日頃の行いが良いせいか見事的中。本年もオファーを受けた次第でございます。
正直、ギャンブルの鉄則である勝ち逃げをしてやろうかとも思っていましたが…笑。
重回帰分析で馬券は当たるのか?
正直、重回帰分析で馬券を当てるのはなかなか難しいかと思います。
ますは、昨年の分析を振り返ってみたいと思います。
1、2着は的中しましたが他はどうだったでしょうか?
黄色く塗りつぶしている馬は、予想と着順が大きく外れた馬です。
16分の10の的中率。これは低いと見るか、高いと見るか…。
3着に来たキタサンブラック、4着に来たマリアライトの予想は大きく外しています。
3歳でデータの少なかったキタサンブラック、上り馬(急に強くなった馬)で数字が悪く出たマリアライト、といった感じですか。
1番人気ゴールドシップ、2番人気ラブリーデイ、3番人気リアファルあたりを切れたのは良かったです。
まずは今年も同じようにやってみる
今年も同様に重回帰分析しました。
例によって、各馬の実績表から必要項目を抜出します。
そして、決まった手順に基づいて重回帰分析を行います。
これを出走全16頭分実施します。出てきた係数をまとめたものがこれ。
この数値に、斤量・距離・前半600mのタイム、ラスト600mのタイムの4つを掛け合わせれば、各馬の予想タイムが出てきます。
今年は去年と違い、マルターズアポジーという逃げ馬がおりますので、前半600mとラスト600mはその馬が逃げたときの平均タイムを使ってみます。
前半が35秒5、ラストが35秒2と出ました。
これを、先ほどの係数に掛け合わせます。どん!
なな、なんと、大穴ヤマカツエースが、従来のレコードタイム2分29秒5を大きく上回るタイムで走る、と出てしまいました。
なんとな~く、こんなことになるのではないかと思っていたことが現実になってしまいました。
どういうことか?説明します。
重回帰分析の問題点
この算出法は、簡単に言ってしまえば過去の実績から斤量・距離・前半/後半のタイムの係数を割り出すというもの。
この方法の穴は、短距離レースを多く走っている馬に良い数字が出やすいということ。
例えると、ウサイン・ボルトの100m走のタイムからフルマラソン42.195kmのタイムを割り出そうとしているようなもの。
試しに、稀代の短距離王・サクラバクシンオーのタイムで同じことをやってみると「2分26秒8」という結果になりました。
従来のレコードタイムよりも3秒近く早いタイムが出てしまいます。
これはうまくありません。
この状況を解消するため、各馬のデータからいわゆる「短距離」と定義される1,600m以下のレースを除外します。
中距離以上のレースのみで係数を出すことで、より現実的な数字が出そうです。
ただしデータの数が減る分、信頼度が落ちることは避けられません。それでもまずはやってみましょう。
出ました。
これが、短距離レースのデータを除外した時の係数です。
先ほどと同様、マルターズアポジーの前半/ラストの平均タイムを出します。
これも短距離レースのデータは除外します。
前半が35秒7、ラストが35秒4と出ました。
距離が長くなるにつれ、ペースも遅くなるということが見て取れます。
これを、新しく出した係数に掛け合わせます。どん!
※昨年出走馬は、昨年の予測データも入れております。
1番人気濃厚のキタサンブラックが堂々の1位!
昨年よりもタイムを2秒以上も縮めています。今年の活躍を見ればさもありなん。
先ほど驚愕タイムを叩き出したヤマカツエースは一気にタイムを落としました。
やはり短距離レースのデータの影響は大きかったようです。
トーセンバジルは、中距離の中でも短い距離を中心に走ったことが影響していそうです。
恐らく2番人気になるだろう、サトノダイヤモンドの評価が低いことが気になりますが…。
ちなみに、キタサンブラックの詳細データは以下の通りです。
単純に統計としてみたら満足のいくものではないでしょう。P値だけを見れば微妙な結果かもしれません。
限られたデータで予測を立てる。これがギャンブルの難しさ、というところだと思います。
予想としては、走破タイム上位5頭のBOX買いにしたいと思います。
◎キタサンブラック
○トーセンバジル
▲サトノノブレス
△サウンズオブアース
△デニムアンドルビー
個人的にはサトノダイヤモンドを切ってしまってドキドキしています。
これはこれで当たればいい正月を迎えられそうですね。
時にはデータを削除する勇気を
今回は短距離レースのデータを捨てました。
その分、計算上の信頼度は下がっています。
この手の分析をしていると、ありえないデータが出ることがよくあります。
副業本業である広告業でいえば、広告を出せば出すほど売上が下がる、とか。
せっかく集計したのだからもったいない、って気持ちはあるものの、そういう時には、思い切ってデータを除外する、ということも必要だと思います。
そう、人気馬をバッサリと切ってしまうように。