蔚蓝档案吧 关注:136,620贴子:2,482,801

基于假设检验的春奈春锅亚子池爆率分析

只看楼主收藏回复

是总力战害了我


IP属地:上海1楼2024-10-07 04:40回复
    本贴将仿照吧友 @星野喵喵喵 的格式简单分析一下春奈春锅亚子池的爆率.
    本次纳入了开放奈锅亚卡池之前蔚蓝档案吧的33个直播贴(截至目前1人删帖,1人未更新),共33位吧u的38个账号,7247抽.
    本次奈锅亚池体感上爆率较高,但仍然有部分吧u吃井或是出彩数严重低于期望. 本贴希望能涉及三个问题:
    1. 假设三池的出彩率一致为 p ,每一次单抽视为两两独立的Bernoulli试验(可理解为抛硬币),其中“出彩”为成功、“不出彩”为失败,则是否有证据支持 p ≠ 0.03 ?若是,证据支持 p < 0.03 还是 p > 0.03 ?
    2. 假设三池的up率一致为 q ,每一次单抽视为两两独立的Bernoulli试验,其中“出up”为成功、“不出up”为失败,是否有证据支持 q ≠ 0.007 ?若是,证据支持 p < 0.007 还是 p > 0.007 ?
    3. 从账号歧视的角度考虑,是否有证据支持各次单抽是否出彩/出up不能被视为两两独立的Bernoulli试验?
    另外,本贴将从理论上简单介绍和分析应如何处理抽卡爆率数据. 一个重要的结论是,将7247抽中的彩数与up数视为二项分布是有问题的. 具体原因将在下面的第四部分加以解释. 当然,将每个账号的爆率取平均作为整体爆率的估计值更是有问题的,它在几乎所有情况下都会高估实际爆率,原因参见基本不等式. 当然,如果吧友们要用这种方式统计自己的彩率和up率了,那只要开心就好不需要太较真.
    从结论上说,对三个问题的回答分别是:
    1. 在0.1的显著性水平下,没有.
    2. 在0.1的显著性水平下,有,倾向于认为 p > 0.007,但之后会提到,这里用到的方法不准确.
    3. 在0.05的显著性水平下,没有.


    IP属地:上海2楼2024-10-07 04:54
    回复
      本人水平有限,欢迎大家批评指正


      IP属地:上海3楼2024-10-07 04:55
      回复
        一、描述性统计
        先做描述性统计总是个好习惯. 好的封面图是成功的一半.
        先看看数据:


        然后再画个图,看看每个账号爆率的分布情况:

        从图中我们可以发现,样本中出彩率/up 率的尾部概率似乎都比理论上一井的出彩率/up 率的尾部概率更高(这句话有点拗口,简单来说出彩率/up 率是随机变量,所以我们当然可以讨论出彩率/up 率取不同值的概率). 也就是说,在我们的样本中,狗托比理论上更多.
        此外,出彩率/up 率低于期望的样本占比似乎比理论占比更少,这也符合此次池子的体感.
        当然必须指出,这里出彩率/up 率的理论分布(即图中蓝线)是基于“抽200 抽” 这个前提得到的. 在我们的样本中总抽数最低为40,最高为390,抽40 抽的出彩率/up 率就更容易取极端值,而抽390 抽的出彩率/up率就更倾向于靠近0.03 和0.007.
        接下来我们做两个简单的假设检验,来考察是否有证据支持𝑝 ≠ 0.03 和𝑞 ≠ 0.007.


        IP属地:上海5楼2024-10-07 05:01
        收起回复
          二、出彩率检验
          此处我们采用最简单的假设:每一次单抽两两独立. 这样我们需要检验的是样本中的总出彩数(记为𝑋_total)是否接近总抽数(记为𝑛_total)的0.03 倍.

          我们以 𝑋_total 为统计量做精确二项式双边检验,取显著性水平为0.1. 结果如下:

          我们发现 𝑝0 = 0.03 落在区间 [0.277, 0.347] 内,故我们无法在 0.1 的显著性水平下拒绝𝐻0,也即没有证据支持实际出彩率不等于0.03. 此处的样本给出的出彩率点估计为0.0311 > 0.03,但这个大小关系没有统计学意义. 用人话说,样本的出彩率不够极端,我们倾向于认为它和0.03 的偏差完全由随机波动带来.
          ---
          这里我选用 0.1 作为显著性水平,是因为二项分布是离散分布,而此处采用的Clopper-Pearson置信区间倾向于使显著性水平变低(就是说它比较严格).


          IP属地:上海6楼2024-10-07 05:07
          收起回复
            三、up 率检验
            此处我们采用与之前相同的假设,检验样本中的总出彩数(记为𝑌_total)是否接近总抽数(记为𝑛_total)的0.007倍.

            我们以𝑌_total 为统计量做精确二项式双边检验,取显著性水平为0.1. 结果如下:

            我们发现 𝑝0 = 0.007 落在区间 [0.0077, 0.0117] 外,故我们在 0.1 的显著性水平下拒绝 𝐻0,也即拒绝实际 up 率等于0.007 的原假设. 此处的样本给出的出彩率点估计为 0.0095 > 0.007,它在统计学意义上高于标注的up 率 0.007. 我们同样能在 0.05 的显著性水平下拒绝双边检验的原假设

            与单边检验的原假设

            用人话说,假设我们认为此处选出的样本代表的不是本次卡池中发生的(𝑃 ≤ 5% 的)小概率事件,那么它的取值疑似有点太极端了,以至于我们有理由认为此次的真实up 率高于0.007.
            ---
            当然,也有可只是能我们恰好选到了一些小概率事件. (其实,也可能是由于我们的统计方法有问题)无论如何,up 率高是一件好事,玩家玩的开心乐意氪金,游戏公司也可以收更多钱. 同时也必须指出,统计学的分析无法断定up 率或者出彩率是否必然高于官方标注的 0.03 与 0.007,它只能从侧面提供一些相关的迹象. 事实上,提升或降低出彩率/up 率都是非常危险的行为,没有理由期待它们会发生. 但是,数据可以帮助我们按照自己喜欢的方式看待自己在卡池中的收获,也能帮助我们学到知识.
            ---
            严格来说单抽是一个理论上具有三类基本结果的随机实验,每次单抽均应0.7% 出up,2.3% 出非up彩卡,97% 出非三星,出up、非up 彩卡、非三星的个数服从多项分布. 但是这不影响出彩仍然能被视为一个在每次实验中发生概率均为3% 的事件. 同时,对该多项分布参数的假设检验比对出彩率和up 率的假设检验更加严格,但其实我们不太关注其结论的现实意义,因此我个人认为分别检验up 率和出彩率就够了.


            IP属地:上海7楼2024-10-07 05:12
            收起回复
              四、对于出彩率/up率假设检验的进一步讨论
              接下来再简单提一下一个技术性问题,并根据对这个问题的讨论进一步完善一下此前的分析. 不感兴趣的吧友可以直接跳过这部分. 如果对检验爆率这个话题比较感兴趣,那不妨读一读这部分讨论,权当看个乐子.
              ---
              我想指出的是,严格意义上我们采用的假设检验的前提存在一定问题. 一般来说,假设检验要求样本独立同分布,而基于独立同分布的样本,我们可以计算在原假设的参数下发生“比样本更极端的情况”的可能性. 但抽卡这个问题背景比较特殊. 试想一下我们知道有一位玩家在50抽后停手、不再抽取某一池中的角色. 在这种情况下,我们会如何估计他所抽到up角色的数量?我个人认为几乎可以断定他抽到了至少1名up角色,否则他不会选择停手. 然而,对一位抽满一井的玩家,我却不能做出同样的断定. 这就是一个非常有趣的“悖论”,因为我们认为每次单抽至少应该能近似认为是不受任何其他因素影响的抛硬币实验,但与此同时我们却几乎能断定某些样本中几乎必然发生了一个小概率事件,这就似乎和“不受任何其他因素影响”的条件相悖.


              IP属地:上海8楼2024-10-07 05:14
              回复
                (续)
                那么该如何理解这种矛盾的状态?我认为其背后原因在于我们采用了特定的抽样方法. 诚然,我们选取卡池开启前的直播预定贴,近似于一种随机抽样. 问题是我们抽样的单元是玩家,而不是单抽——用相关术语来表达,即我们采用的方法类似于等概率整群抽样,而绝不是简单随机抽样. 也就是说,我们所得到的样本其实是两个随机实验叠加而得的结果:第一个随机实验是单抽(抛硬币),第二个随机实验是人为的样本选择(仅当我在50抽内出了up时,我才选择在50抽内停手),这第二个随机实验就是样本中非独立性因素的来源. 然而对这第二个随机实验,我们并不知道它的统计学特征. 我们可能可以说,在50抽后停手的玩家几乎必然抽到了至少1名up角色,但他有多大概率抽到了1名up角色、2名up角色... 这个理论分布是不可知的. 既然如此,采用假设检验就存在一定潜在的问题,因为我们实质上在尝试验证一个非二项分布是否具有一个二项分布的特征——好吧,这样的分析能为我们提供一个结果,但它的实际意义似乎并不那么令人信服.
                ---
                有的吧友可能会说,即便每个人都恰在抽到一个up角色后停手,也不会导致整个卡池中up角色出现的概率偏离理论值. 这个结论是正确的,但是,我们此处关注的是假设检验而不是参数估计. 我们对出彩率和up率的点估计(0.0311;0.0095)都是无偏的,但总抽数为 𝑛_total 的样本中,彩数和up数的分布则不可能服从 𝐵𝑖𝑛𝑜𝑚(𝑛_total, 𝑝) 和 𝐵𝑖𝑛𝑜𝑚(𝑛_total, 𝑞) (注:“无偏”不代表我们的估计是准确的,它的意思类似于:假设我们在足够多个“平行世界”中均按照无偏的方法做估计,那这些“平行世界”的估计结果平均下来将足够接近真实值).
                ---
                对此处所说假设检验和参数估计之间的区别举一个最简单的例子. 假设我们考虑一个抛匀质硬币的实验,其中抛硬币的实验者恰好在第一次抛出正面时停手. 再比方说最终我们的样本仅记录了1位实验者的1组实验数据,他一共抛掷了T = t 次(T是随机变量,t不是随机变量,它是T的取值). 从参数估计的角度,我们可以验证,该实验者的每组实验结果中,“正面”的期望占比均为理论值0.5,即

                (注意,E(1/T) ≠ 0.5. 这里的“期望占比”是从池子的形成这一角度来考虑的.)
                ---
                而从假设检验的角度,显然服从 𝐵𝑖𝑛𝑜𝑚(𝑡, 0.5) 的随机变量是可能取0,2,...,t的. 但由于实验者恰好在第一次抛出正面时停手,此处的样本只可能出现1次正面. 因此,样本中抛出正面的次数就必然不服从二项分布,进而二项分布原假设下的小概率事件不一定是我们经人工选择的样本中的小概率事件. 这也就是说,我们不应该用二项分布的假设检验来检验抛出正面的真实概率,否则我们就无法确定我们所“以为”的“小概率事件”是否的确是小概率事件. 总之,即便玩家什么时候停手不会影响整个池子的出彩率和up率,它却会影响我们的假设检验,导致用二项分布检验得到的结果存在潜在的问题.


                IP属地:上海9楼2024-10-07 05:24
                回复
                  (续)
                  那么我们是否可以用一些手段来解决或弥补这一问题?我的想法是,既然人工的样本选择可能导致假设检验失效,那么我们能否排除这种使假设检验失效的因素?
                  ---
                  一种思路是,假设可以认为没有玩家选择单抽起手,那我们对所有的玩家都仅仅取第一次十连的结果,就可以完全避免人为的样本选择. 这种方法的缺陷在于它要求我们采集足够多位玩家的数据,并且玩家从第二次十连开始的所有抽卡数据全部都被浪费了,效率不够高.
                  ---
                  第二种思路是我们只收集“从一开始就计划好要抽多少抽”的那部分玩家的数据. 这种方法存在三个问题:首先,根据我的统计,这样的玩家占比不到30%,能提供的数据量非常少;其次,一位玩家是否“从一开始就计划好要抽多少抽”受到分析者主观判断的影响;第三,即使一位玩家计划好了要抽多少抽,他也没有理由遵守这个计划(万一我十连出了6只春奈4只春锅呢,我还继续抽吗?). 因此,这第二种思路几乎是不可取的.
                  ---
                  第三种思路是采用一些进阶方法,例如 @星野喵喵喵 之前采用的Meta分析,这应该说是针对该类问题的一种公认的分析方法. 它可以比较好地处理每个样本实验次数不同(即抽数不同)的情况,也不严格依赖二项分布. 但我个人并不是很熟悉这种方法,所以相关内容还需要等大佬来补充.
                  ---
                  此外还存在第四种思路,那就是我们收集玩家在第几抽出彩/up的数据,而不是玩家出几个彩/up的数据. 玩家可能可以控制自己在第几抽停手,进而在一定程度上控制自己的出彩/up率,但是玩家不可能控制自己在第几抽出彩/up——进而,通过检验“两次出彩/up间隔的抽数”是否符合其理论上的特征,我们就可以避开样本的人为选择,得出相对更为可靠的结论. 此外,对“出彩/up间隔抽数”的检验还可以在一定程度上帮助我们检验抽卡是否存在账号歧视的问题. 如果0.03的出彩率和0.007的up率是通过较多欧皇和较多非酋平均得到的,那么我们应该能发现,“出彩/up间隔抽数”的分布比相应出彩率/up率参数下的几何分布更为分散. 如果有吧友对分析爆率感兴趣,不妨考虑一下这种分析思路. 它的不足之处可能在于采集样本相对比较麻烦. 我具体使用的数据,将会附在本贴的最后.
                  ---
                  接下来,我将基于上述的最后一种思路,对出彩率、up率、以及出彩/up间隔抽数的分布进行检验.


                  IP属地:上海10楼2024-10-07 05:25
                  回复
                    # 五、基于间隔抽数的出彩率与up率检验
                    先写一点题外话:说到底,我们希望检验出彩率/up率,或者希望检验是否有“号品”存在,其源动机是为了解释自己从卡池中得到的收益. 就我个人而言,我很疑惑一井6彩1up(我个人之前只在FES池将将达到过)这个在数学上无比合理的期望怎么似乎如此让人心中没底. 因此,基于对标注爆率的信任,我怀疑是否抽卡的结果(指出彩数和up数)相比二项分布而言有些过度离散. 但稍微计算一下就能发现,其实抽卡结果不如人意的发生概率可能比想象中更大一些:

                    上图展示了普池与Fes池出现各种结果的概率,其中横轴表示出彩数,纵轴表示up数. 在普池中,抽0/抽1的同时彩数也低于6会是一种使人比较沮丧的结果,但它的发生概率在34%左右,比较可观;相比之下,彩数不少于6且至少1up的发生概率只有48%左右,还不到一半. 对于Fes池而言,抽0/抽1的同时彩数也低于12的发生概率在33%左右,彩数不少于12且至少1up的发生概率只有44%左右. 因此,永远不要低估抽卡结果不达预期的概率.
                    ---
                    接下来还是老样子,先对两类间隔的分布做描述性统计. 需要备注的是,下面的“间隔抽数”均指“两次出彩/up间隔的抽数”,其中从第0抽与首次出up的抽数之间的差值也算作间隔的抽数. 另外,我们在下图的描述性统计中不考虑“未出up”时间隔抽数如何计算,也并不考虑“从最后一次出up到停手之间间隔的抽数”应该如何计算. 关于这两种特殊情况的处理,我们之后会涉及.


                    IP属地:上海11楼2024-10-07 05:28
                    回复
                      (续)
                      刚刚说到出彩率/up率的描述性统计,图片如下:

                      从图中我们可以发现,样本中两次出彩的间隔抽数较为符合其理论分布 𝐺𝑒𝑜𝑚(0.03),但也存在尾部较薄的特征;两次出up的间隔抽数则更是重量级,事实上服从 𝐺𝑒𝑜𝑚(0.007) 的随机变量取值不大于260的概率仅有84%左右,但连续260抽未出up的观测在我们的样本中仅占3%. 此外,两次出up的间隔抽数在期望值 1/𝑞0 ≈ 142.9 左侧的分布远比理论上更密集.
                      ---
                      可能大家认为用瞪眼法显然可见此次卡池中出彩的间隔抽数受到了后台的人为控制,但实际上我还是希望大家审慎地看待这个结论,因为数据永远存在随机性、读图得到的结论永远存在误导性. 可能我换一个样本后,图像的形状就不会如此有特点——甚至我单纯把直方图的组距换一换,都可以呈现出完全不同的效果. 事实上,最后的假设检验也无法在0.05的显著性水平下拒绝“出up间隔抽数服从 𝐺𝑒𝑜𝑚(0.007) ”的原假设.
                      ---
                      不论如何,希望之后可以看到更多这样的数据,因为爆率高总是一件好事. 管住手或者小氪一点就能得到想要的角色,生活中已经很难找到这么简单的乐趣了.
                      ---
                      接下来我们做两个复杂一点的假设检验,来考察是否有证据支持 𝑝 ≠ 0.03 和 𝑞 ≠ 0.007,以及抽卡是否不能被视为两两独立的Bernoulli实验.


                      IP属地:上海12楼2024-10-07 05:32
                      回复
                        (一)、基于出彩间隔抽数的出彩率检验
                        此处我们尝试检验:是否有证据证明出彩抽数的间隔分布不服从 𝐺𝑒𝑜𝑚(0.03) . 严格来说,我们应该对原假设

                        做一个似然比检验,但是此处我希望偷懒,顺便检验一下间隔抽数的分布是否符合几何分布的特征,所以我决定做一个拟合优度检验. 简单来说,我把出彩间隔抽数分成几类,然后检验每一类在样本中的出现概率是否符合 𝐺𝑒𝑜𝑚(0.03) 的理论特征. 由于出彩间隔抽数可以取一切正整数(进而,为了刻画每个出彩间隔抽数的发生概率,我们需要考虑无限多个参数),所以我们无法检验出彩间隔抽数是否“完全地”服从 𝐺𝑒𝑜𝑚(0.03). 为了简化问题,我们把可能发生的情况(尽可能均匀地)以下几类:

                        其中,𝑉 是代表出彩间隔抽数的随机变量,𝑗 为各类别的序号,𝑉_𝑔𝑒𝑜𝑚作为其特例,代表服从 𝐺𝑒𝑜𝑚(0.03) 的随机变量. 在此,我们的原假设基于一个认识,即“假设出彩间隔抽数服从 𝐺𝑒𝑜𝑚(0.03),那么间隔为1-6的概率应接近0.192,间隔为7-16的概率应接近0.212,...” 但是此处的问题相较于一般的多项分布检验又更加复杂,因为每个玩家所能提供的最后一段数据是“在最后几抽中,没有彩卡出现”——至于这些玩家再抽几抽可以抽出下一张彩,只有上帝知道. 为了纳入这些数据,我考虑允许一个样本点属于多个类别,具体如下:

                        上表中,𝑗 为各类别的序号,𝑗+ 为未出彩抽数类别的序号. 相应地, 𝑛_𝑗(𝑛_𝑗+ )代表样本中属于第 𝑗(𝑗+) 类的样本点数量. 例如,若一位玩家恰抽满200抽,且最后一次出彩是在第185抽,则这未出彩的最后15抽落入第 2+ 类,因为我们仅能确定这15抽内没有出彩,而无法确定若该玩家继续抽下去,他会在第几抽出彩.


                        IP属地:上海13楼2024-10-07 05:37
                        回复
                          (续)
                          我们刚刚提到了此处采用的假设检验的大致思路和所用数据. 正式地,为了检验

                          我们采用似然比检验. 由于我不确定对这种包含“可能属于多个类别的样本点”的样本是否能给出显式形式的极大似然估计 p̂ ,因此我直接采用数值解法,解得

                          我们采用的对数似然比统计量为:

                          其实这就是原假设和备择假设下的似然函数之比取对数. 由于有

                          (此处𝑐 为原假设下多项分布的类别数)
                          因此一般而言似然比检验会是有效的. 当𝑛 充分大时,𝐺^2 渐进服从𝜒2(𝑐 − 1). 此处我们比较得到

                          故我们在0.05 的显著性水平下无法拒绝原假设,即没有证据认为认为出彩间隔抽数的分布不服从 𝐺𝑒𝑜𝑚(0.03).


                          IP属地:上海14楼2024-10-07 05:44
                          回复
                            (二)、基于出up 间隔抽数的up 率检验
                            类似地此处我们尝试检验:是否有证据证明出up 抽数的间隔分布不服从𝐺𝑒𝑜𝑚(0.007). 下表中,𝑈 是代表出up 间隔抽数的随机变量,𝑗 为各类别的序号,𝑈_𝑔𝑒𝑜𝑚 作为其特例,代表服从𝐺𝑒𝑜𝑚(0.007) 的随机变量. 此处由于能采集的出up 间隔抽数较少,我们只将间隔抽数分为 4 类,参见下表:

                            为了检验

                            我们采用似然比检验. 其中数值解法解得

                            我们采用的对数似然比统计量为:

                            同样地,此处有

                            故似然比检验一般会是有效的. 与渐进分布比较得到

                            故我们在0.05 的显著性水平下无法拒绝原假设,即没有证据认为认为出up 间隔抽数的分布不服从 𝐺𝑒𝑜𝑚(0.007). 虽然我们做出的估计与理论值相去甚远,但或许由于样本数并不够多,我们此处不能拒绝原假设.


                            IP属地:上海15楼2024-10-07 05:49
                            收起回复
                              数据:


                              IP属地:上海16楼2024-10-07 05:52
                              回复