返回

python-Pyspark-计算项目在客户转换数据中出现的百分比

发布时间:2022-04-13 16:40:39 426
# node.js
 
我的数据集是这样的(这个表是客户的交易表(它记录客户进行的每一笔交易),列表列包含客户在一笔交易中购买的产品,我想为每个客户找到,他们购买的组合产品“b”和“c”的百分比是多少
|ID     |AMOUNT |     List     |
|:------|:-----:|-------------:|
|    123|    1  |['a','b','c'] |
|    123|    3  |['a','b','c'] |
|    123|    4  |['b','c']     |
|    123|    4  |['a']         |
|    456|    5  |['a','b','c'] |
|    456|    6  |['b']         |

因此,我希望使用pyspark得到的理想输出表如下所示

|customer |Amount   | product 'b' and 'c' percentage |
|123      |[1,3,4,4]|   0.75                         |
|456      |[5,6]    |   0.5                          |
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(1)
按点赞数排序
用户头像