返回

pandas-从不同长度的阵列中检测

发布时间:2022-04-26 12:46:06 195
# 研究# 数据

我有pandas的数据框

passes:
        euc_dist  abs_time time_bin
100329      16.0      79.0     0-15
100466      20.0     575.0     0-15
100512      56.0     729.0     0-15
100637      48.0    1314.0    15-30
100744      62.0    1791.0    15-30
100796      62.0    1962.0    30-45
100816      52.0    2384.0    30-45
100972      41.0    2749.0    45-60
101025      41.0    2908.0    45-60
101188      58.0    3439.0    45-60
101401      52.0    4285.0    60-75
101419      60.0    4427.0    60-75
101569      39.0    5003.0    75-90
101636      79.0    5243.0    75-90

这些是足球守门员的传球,仅供参考。我正在尝试对euc_dist和abs_time进行t检验,并按time_bin进行分组。通常情况下,存储箱阵列的大小不同。例如:

print(f"bin a:\n{bin_a}") 
print(f"bin b:\n{bin_b}") 
rv = scipy.stats.ttest_ind(bin_a, bin_b, nan_policy="propagate")[1]
print(f"p-value from {period1} and {period2}: {rv}")


bin a:
100329    16.0
100466    20.0
100512    56.0
Name: euc_dist, dtype: float64
bin b:
100637    48.0
100744    62.0
Name: euc_dist, dtype: float64
p-value from 0-15 and 15-30: 0.25271833635089846

在这种情况下,我仍然收到了一个p值。然而,当我尝试另一个游戏并尝试运行这些垃圾箱时,我收到一个nan:


bin a:
95150    33.0
95282    43.0
95409    48.0
Name: euc_dist, dtype: float64
bin b:
95557    56.0
Name: euc_dist, dtype: float64
p-value from 0-15 and 15-30: nan
was running t-test on 0-15 and 15-30 for game2058014

由于垃圾箱的大小不同,是否会出现这种结果?我是一名商科sci学生,试图通过这个研究项目学习统计学,请原谅我的天真。

我也希望从中得到一个非nan值。我查看了等方差,在谷歌上搜索,看我是否应该在t检验参数中设置equal_var=True,但是如果这个测试只是比较两个样本的平均值,那么样本大小会有什么区别?“另类”arg似乎很有希望,但我不确定如何解释它。

特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(0)
按点赞数排序
用户头像