ななれんの戦闘勝率を区間推定（95%信頼区間）する

PPP記事のとき、「勝率がよくなるようにパーティや%を調整する」みたいなことを何回かブログに書いていると思うのですが、そもそも真の勝率というのはプレイヤーにはわかりませんよね。

勝率は試行から推定するしかなく、推定した勝率によって周回する%を判断するしかないのですが、推定勝率が間違っていたら当然判断も間違います。正確な判断をするには推定した勝率にどのくらいの信頼がおけるのかを知る必要があります。

ななれんの戦闘は途中に一切操作を挟みませんので、パーティを決めてしまえば勝敗は確率的に決まります。ですので、自分の中の整理もかねて、今回は数字をこねくり回して推定した勝率にどのくらい信頼がおけるかを計算してみたいと思います。

なお、シミュレータは優秀な勝率推定の道具ですが、統計的な推定とは別の信頼度の問題があるので今回は登場しません。実機のみで検証します。

戦闘数・勝利数集計のやり方
二項分布の点推定
二項分布の区間推定（95%信頼区間）
- まとめると
おまけ1　その他の信頼区間
おまけ2　必要データ数
- おまけのおまけ　転生の実のドロップ率
その他参考にしたサイト

戦闘数・勝利数集計のやり方

$\displaystyle \frac{勝利数}{戦闘数}=勝率$

です。なにはともあれ勝利数と戦闘数のデータが必要でしょう。

やり方は何でもいいですが、自分はパーティと%を固定して30分周回し、前後のスクショから求めることが多いです。

以下は五連の勇兎85%を周回した時のスクショです

例①

ビスケットが381枚から24枚になって357枚消費していますので、戦闘数は $357÷3=119$ です。 rinは56,863,375から59,132,543に2,269,168rin増えています。85%の勝利報酬は25,786rinなので、勝利回数は $2269168÷25786=88$ です。例①の勝率は $88÷119=0.739496$ 約74%となります。

例②

戦闘数112勝利数92で、例②の勝率約82%です。

例①＋②合計

表にまとめるとこうなります。

	戦闘数	勝利数	勝率
例①	119	88	74%
例②	112	92	82%
例①＋②	231	180	78%

この結果はいろいろ解釈ができると思います。74%が下振れだと捉えれば実は勝率80%あるかもしれませんし、82%が上振れで実は勝率70%強しかないかもしれません。正直よくわかりません。

いろいろ集計した結果特にばらつきが多かった例を選定していますので、普通はもっと安定した結果が出ると思いますが、こうなってしまうことも珍しくはないかと思います。しかし、こういう数字を見て続行したり%やパーティを変更したりしなければならない……もう少し詳しく数字を見ていきます。

二項分布の点推定

本題の前にちょっと高校数学の復習です。

コイントスのような結果が二種類しかない確率分布を二項分布といいます。コイントスの場合は表が出る確率 $p=0.5$ の二項分布です。

ななれんの勝敗も勝つか負けるかなので、勝率 $p$ の二項分布と言うことができます。*1ただし、真の勝率である $p$ は不明です。

上の例①では試行回数 $n=119$ 、勝利回数 $X_1=88$ で、勝率は $\hat{p}_1=\frac{88}{119}=0.739496$ と表記できます。このように試行（標本）から勝率 $\hat{p}$ （標本比率）を求めて真の勝率 $p$ （母比率）を推定することを点推定といいます。

点推定だけを計算した時点では、求めた確率 $\hat{p}_1$ がどの程度信頼できるのかは全く分っていません。真の勝率 $p$ の性質に従う結果が出たのか、奇跡的な確率で偏った結果が出たのか知る術がないからです。

一方で、どの程度信頼がおけるデータなのかは皆さん感覚的に理解しているのではないかと思います。勝率の期待値が真の勝率と同じこと、試行回数が多ければ多いほど真の勝率に近づく（大数の法則）ことを知識や経験から知っているからです。*2

ここがややこしいところで、感覚は人によって違いが生じます。この後計算しますが、たいていの人が思っているよりもずっと偏りやすいと考えてよいと思います。

二項分布の区間推定（95%信頼区間）

どのようにして感覚を排除して勝率の話をしたらいいのでしょうか。一つの案として95%信頼区間を使用するというものがあります。

点推定に対して、試行結果に幅を持たせて行う推定を区間推定といい、95%信頼区間は信頼度という指標を導入した区間推定の有名な手法です。選挙の分析、テレビ視聴率、検査薬の話題などでも使用されます。

試行から得られる標本比率 $p$ を正規分布に従うとみなせば、標準正規分布表から95%信頼区間を計算できます。詳しくはググるか、専門資料を見てください。 21-1. 母比率の信頼区間の求め方1 | 統計学の時間 | 統計WEB

$\displaystyle \hat{p} - 1.96 × \sqrt{ \frac{ \hat{p}(1 - \hat{p}) }{ n } } \leq p \leq \hat{p} + 1.96 × \sqrt{ \frac{ \hat{p}(1 - \hat{p}) }{ n } }$

例①（ $n=119, \hat{p}=0.739496$ ）で計算すると、95%信頼区間は66.0636%～81.8356%になります。

95%信頼区間は、同じ試行（112回戦闘して勝利数を集計する）を100回行ったとき95回程度は信頼区間の範囲に母比率（真の確率）が含まれるくらい信頼できる区間ですよ～という意味になります。求めた信頼区間に95%の確率で真の確率（母比率）が含まれると解釈してはいけないらしいのですが、自分には違いがよくわかりません。おおむねそのように理解しても間違いではないかと思います。詳しくはこちらなどを参照してください。19-3. 95％信頼区間のもつ意味 | 統計学の時間 | 統計WEB

例②（112戦92勝、勝率は82.1429%）で計算すると、95%信頼区間は75.0498%～89.2360%になります。

例①＋例②合計（231戦180勝、勝率77.9221%）で計算すると、95%信頼区間は72.5733%～83.2709%になります。