野球データをいじってみる / 順位・勝率と相関が高いものは? セ・リーグ打撃編
データをいじってみよう。
NPBのデータはネット上にたくさん存在している。
MBLもあるんだろうけど、英語で探すのが面倒なので日本のでやる。
データはヌルデータからお借りします。
ヌルデータには各球団の順位・勝率・安打数といった基本的なところから二塁打打点敬遠盗塁などなど、たくさんのデータがある。
もっと見たらたくさんあるんだろうけど、最初なのでここでやってみる。
※この解析(?)に何の意味があるのか?
楽にゲットできる細かくないデータをおおざっぱに見ているだけである。
BABIPとかWARとかよくわからない細かいセイバーメトリクスもたくさんあるけど、それは時間かかるし、何より細かいことは苦手なのでやらないことにする。
作用機序よりは入力と出力に興味がある。
順位・勝率と相関が高いものは?
結果。
※順位は良いほど小さく勝率は良いほど高いというのがややこしいので、順位にはすべてマイナスをつけた。
関数は CORREL を使い6つと6つの相関係数を算出。
順位と勝率の相関は0.957、そりゃそうだという感じ。
勝率とゲーム差の相関にしたらもっと高くなる気がする。
打撃
すべての中で一番相関が高いのはHR。さすが野球の華。
塁打と打率も0.8に近い、とにかくベースに人間がいることが大事ということか。
併殺も負の相関で0.8ほどある、わかりやすい!
二塁打は負の相関がある、ホームランの入り損ないが二塁打になるからな気がするけど、どうだろう?
内野安打・内野安打率も負の相関だ、広島と巨人が低いだけかな。ここらへんもパ・リーグをみていきたい。
犠打・犠飛は特に相関が大きくはない、スタイルの問題ということかな?
走塁
盗塁と盗塁死はどちらも0.6ぐらいの相関。そして盗塁成功率はあまり関係がなさそう。
これは首位の広島が盗塁が多いということの表れであって、盗塁が多いチームが強いという方向ではないのかな。
パ・リーグも見てみたらわかるかも。
その他
打席と打数は特に相関がない、当たり前か。
三振・四球もないというのは謎である。打率の他に出塁率のデータも欲しいなあ。
捕逸が正の相関があるのはちょっと面白い。