python-Pyspark-计算项目在客户转换数据中出现的百分比
发布时间:2022-04-13 16:40:39 426
相关标签: # node.js
我的数据集是这样的(这个表是客户的交易表(它记录客户进行的每一笔交易),列表列包含客户在一笔交易中购买的产品,我想为每个客户找到,他们购买的组合产品“b”和“c”的百分比是多少
|ID |AMOUNT | List |
|:------|:-----:|-------------:|
| 123| 1 |['a','b','c'] |
| 123| 3 |['a','b','c'] |
| 123| 4 |['b','c'] |
| 123| 4 |['a'] |
| 456| 5 |['a','b','c'] |
| 456| 6 |['b'] |
因此,我希望使用pyspark得到的理想输出表如下所示
|customer |Amount | product 'b' and 'c' percentage |
|123 |[1,3,4,4]| 0.75 |
|456 |[5,6] | 0.5 |
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报