全球主机交流论坛

标题: 大佬们请教一个py脚本 [打印本页]

作者: qihu    时间: 2020-8-10 17:00
标题: 大佬们请教一个py脚本
本帖最后由 qihu 于 2020-8-10 17:02 编辑

公司最近采集了一批长尾词,然后想整理分类一下
在网上大致找到了思路,奈何没有技术来实现。
故此来请教一下诸位大佬
比如说词库是这样的

网上找到的分类方法是这样的





把余弦值大于0.8的归成一类这样
有没有大佬能指点一下py脚本应该怎么写呢
作者: ljm4216    时间: 2020-8-10 17:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: king51    时间: 2020-8-10 17:16
分词?
作者: qihu    时间: 2020-8-10 17:16
ljm4216 发表于 2020-8-10 17:11
出点费用就能解决,报价200

可以啊,没有问题
作者: qihu    时间: 2020-8-10 17:20
king51 发表于 2020-8-10 17:16
分词?

分词之后再计算词向量,得到词向量之后再两者计算得余弦值,余弦值大于0.8就归成一类
作者: longkulo    时间: 2020-8-10 17:53
可以联系我
作者: qihu    时间: 2020-8-10 17:56
longkulo 发表于 2020-8-10 17:53
可以联系我

已PM
作者: llmwxt    时间: 2020-8-10 18:10
提示: 作者被禁止或删除 内容自动屏蔽
作者: plumn    时间: 2020-8-10 18:12
虽然没学过,但是这么清晰的需求,合理的价格,相信会有大佬帮你做的
作者: dirs    时间: 2020-8-10 18:27
不明觉厉,帮顶
作者: 夕日    时间: 2020-8-10 18:33
本帖最后由 夕日 于 2020-8-10 18:38 编辑

这个实现起来很简单的

先用 jieba 分词,然后将每个句子转成词向量,最后计算余弦距离dist:
  1. sim = np.dot(emb, new_emb.T) / (np.linalg.norm(emb) * np.linalg.norm(new_emb))
  2. dist = 1 - sim
复制代码





欢迎光临 全球主机交流论坛 (https://hostloc.gdisk.cf/) Powered by Discuz! X3.4