拨开荷叶行,寻梦已然成。仙女莲花里,翩翩白鹭情。
IMG-LOGO
主页 文章列表 检查用户ID互动的Pandas资料框中的唯一条目

检查用户ID互动的Pandas资料框中的唯一条目

白鹭 - 2022-02-13 1964 0 0

我有这个资料框,它看起来像这样:

user_id :代表用户

question_id : 代表问题编号

user_answer :用户从 (A,B,C,D) 中选择了特定问题的选项

正确答案:该特定问题的正确答案是什么

正确:如果 0.0 表示用户回答不正确,如果 1.0 表示用户回答正确

elapsed_time :它表示用户回答该问题所用的时间(以分钟为单位)

用户身份 问题编号 用户答案 正确答案 正确的 elapsed_time
1 130 一个 0.0 2.00
1 130 1.0 5.00
1 130 1.0 2.00
2 10 C D 0.0 7.00
2 10 一个 D 0.0 9.00
2 10 D 0.0 13.00
2 10 D D 1.0 4.00
2 10 D D 1.0 1.50

我希望另一个资料框看起来像这样

用户身份 尝试的问题 尝试的独特问题 百分比
1 9000 6000 =(6000/13169)*100
2 5000 4800 =(5000/13169)*100
5 12000 10000 =(10000/13169)*100
15 1000 30 =(30/13169)*100
23 255 255 =(255/13169)*100

到目前为止我所做的是

df_total_questions_attempted = df.groupby(['user_iD'], as_index=False , sort=False)['question_id'].count()

df_total_questions_attempted = df_total_questions_attempted.rename(columns={'question_id': 'Total Questions Attempted'})   

这给了我尝试问题列,我如何找到尝试独特问题列?

对于Unique Questions Attempted列,当用户更正答案时,我需要该唯一条目。

例如 :

用户身份 问题编号 用户答案 正确答案 正确的 elapsed_time
1 130 一个 0.0 2.00
1 130 1.0 5.00
1 130 1.0 2.00
2 10 C D 0.0 7.00
2 10 一个 D 0.0 9.00
2 10 D D 1.0 4.00
2 10 D D 1.0 1.50

在这个资料框中:唯一的问题尝试应该考虑用户第一次纠正问题的时间,因为在这种情况下, 用户 1在第二次和第三次尝试中纠正了问题。它应该考虑第二次尝试用户2也是如此,用户2已经在第三次和第四次尝试中更正了问题,应该考虑第三次尝试

uj5u.com热心网友回复:

创建每首正确答案的辅助柱user_id,并question_id通过链掩码测验==通过Series.eqDataFrame.duplicated

df['new'] = df['correct'].eq(1) & ~df.duplicated(['user_id','question_id','correct'])
print (df)
   user_id  question_id user_answer correct_answer  correct  elapsed_time  \
0        1          130           A              B      0.0           2.0   
1        1          130           B              B      1.0           5.0   
2        1          130           B              B      1.0           2.0   
3        2           10           C              D      0.0           7.0   
4        2           10           A              D      0.0           9.0   
5        2           10           B              D      0.0          13.0   
6        2           10           D              D      1.0           4.0   
7        2           10           D              D      1.0           1.5   

     new  
0  False  
1   True  
2  False  
3  False  
4  False  
5  False  
6   True  
7  False 

然后对于 countTrue的聚合sum和对于 count 的唯一questions使用DataFrameGroupBy.nunique

df1 = (df.groupby(['user_id'])
        .agg(**{'Questions Attempted':('question_id','nunique'),
                'Unique Questions Attempted':('new','sum')})
        .reset_index())

最后似乎百分比是必要的除以独特问题的数量:

no_uniq_q = df['correct'].nunique()
df1['Percentage'] = df1['Unique Questions Attempted'].div(no_uniq_q).mul(100)
print (df1)
   user_id  Questions Attempted  Unique Questions Attempted  Percentage
0        1                    1                           1        50.0
1        2                    1                           1        50.0
标签:

0 评论

发表评论

您的电子邮件地址不会被公开。 必填的字段已做标记 *