返回

python-Word2Vec 中每个单词的向量的理想“大小”是多少?

发布时间:2022-06-26 13:33:43 273
# node.js

我有一个超过一百万行的数据集。每行有40个标记字。基于这些标记,使用神经网络进行分类。词汇是20000个独特的单词。这是一个二元分类法gensim Word2Vec作为150,并将每个数据点的这些向量保存在json文件这个json文件的大小非常大:250 GB。我无法一次将此文件加载到内存中,因为我的RAM只有128 GB。我想看看是否可以通过将这些向量减小到合适的大小来减小它们的物理大小。我浏览了这个网站上的一些建议,比如Word2Vec向量大小和扫描的总字数之间的关系?. 但提到的向量大小是100-300,这也取决于问题。

以下是我正在做的:

# for training the word2vec model
w2vmodel = gensim.models.Word2Vec(onemillist,vector_size=150, window=2, min_count=1, sg=0, seed=1)
w2vmodel.save("w2model.trained")

model = gensim.models.Word2Vec.load("w2model.trained")
vec = []
finalvecs = []

#tokens is a list of over a 1 million rows
for token in tokens:
  for word in token:
    vec.append(model[eachtoken].tolist())
  finalvecs.append(vec)

我正在做json.dump()对于finalvecs.

  1. 如何根据给定的问题确定每个标记的向量的正确大小(维度)?
  2. 我使用skip-gram模型来训练Word2Vec。我应该使用CBOW优化尺寸吗?
  3. json存储/检索这些向量的战斗格式,或者是否有其他有效的方法?
特别声明:以上内容(图片及文字)均为互联网收集或者用户上传发布,本站仅提供信息存储服务!如有侵权或有涉及法律问题请联系我们。
举报
评论区(2)
按点赞数排序
用户头像