发布网友 发布时间:2022-04-22 22:47
共3个回答
懂视网 时间:2022-05-04 19:49
在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后
在搜索领域query的处理变得越来越重要,其中分类就是很重要的一环,对query分类是比较难的工程,因为query普遍较短,含有的信息(熵)很少,所以很难进行分类,普遍的方法是对query进行扩展,例如抓取搜索引擎的结果,或是直接将query扩展到对应的doc,然后对doc进行分类,对doc分类就变得容易了,而且准确率比较高,最近看到word2vec很火,使用的是无监督的机器学习,也就是不需要标注数据,于是就研究了一下,看是否可以使用结果用于query分类扩展。
https://code.google.com/p/word2vec/
可以在上面下载具体的代码进行编译,生成相关的分析工具,上面的C代码写的有些“抽象”,以下有C++版本,看起来比较直观
https://github.com/jdeng/word2vec
可以在搜狗试验室中获取一些新闻数据,尽管比较老但是将就着用,其实感觉微博的数据会好些,一是数据量大,二是信息含量比较高(新鲜东西比较多),新闻的语料可以在
http://www.sogou.com/labs/dl/ca.html 上获取,只要简单的注册一下就可以,在windows下下载还是比较麻烦的,需要用ftp工具,实际上可以用windows自带的ftp.exe就可以下载。
1、在cmd窗口下执行 ftp ftp.labs.sogou.com
2、输入注册生成的用户名
3、输入注册生成的密码,然后就可以连接到ftp上
4、cd到对应的目录,执行dir或ls就可以看到具体的文件
5、get news_tensite_xml.full.tar.gz 就可以下载文件到个人文档目录了
语料是xml结构的,需要将新闻内容清洗出来
cat news_tensite_xml.dat | iconv -f gbk -t utf-8 -c | grep "" | sed 's \' | sed 's \' > news.txt
语料总计有1143394篇文章,分词后数据文件有2.2G,分词后的情况如下:
./word2vec -train out.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
这个过程可能需要一段时间的等待,运行完成后,会生成vectors.bin文件,接着就可以利用提供的余弦计算工具查看关键词的相关词了
执行./distance vectors.bin 然后输入想看的查询词就可以看到效果了。
可以看到针对实体名称,分析的结果还是很靠谱的,如果针对语料做些预处理相信结果会更好。
可以通过
./word2vec -train out.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500
对分析结果进行聚类用于query方面的分类,结果如下:
将单词去除后,结果还是比较可观的。
参考:
http://blog.csdn.net/zhaoxinfan/article/details/11069485
https://code.google.com/p/word2vec/
请关注我的博客 word2vec实践及对关键词聚类
热心网友 时间:2022-05-04 16:57
我觉得word2vec在工业上或者是网络上还是有很多应用的。
理解这种学术工具,重要的是搞懂它背后的道理和设计哲学。
很多人对word2vec不是了解,不知道word2vec是什么,其实word2vec是一个将单词转换成向量形式的工具,通过转换,可以把文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,这在实际应用中就有很大的价值。
word2vec在应用方面也是呈多样化的,其目的用一个向量去表示一个对象,然后基于向量相似度去计算对象的相似度,找到相关的对象。对象可以是任何目标。一个单词,一个句子,一个文章,一个图片,一个用户,一个商品。。发现相关关系,发现知识,比如同位词,别名。也可以做推荐运用,推荐文章、朋友、商品、店铺等等。
找相关词,注意是相关词而不是同义词。例如你输入”雷军”,计算出来的相关词就会有:手机,小米,乔布斯等等;根据上下文预测句子中缺失的单词, 根据不同语种里相同单词的词向量之间的特定关系做机器翻译;由词向量构建句子向量。
word2vec在多方面的应用上还是很多的。
热心网友 时间:2022-05-04 18:15
我觉得,它的应用主要还是数据分析这一块。
Word2vec本质上是一个矩阵分解模型。
它简单地指出,矩阵是每个单词和它的上下文的一组词的特征。要分解这个矩阵,只需要在隐含空间中取对应于向量的每个词。所以word2vec的合适之处是,对于一个序列的数据,序列的本地数据之间有很强的相关性。
典型的是文本的顺序,单词的接近性非常强,甚至一个词的上下文也可以预测中间的单词是什么。所学习的词向量代表了词汇的语义含义,可以用来分类、聚类,也可以用来计算单词的相似度。而Word2vec本身,对流行项的分类器或抽样方式的水平是一个很好的惩罚,所以不像一般的矩阵分解,最后计算语义方法是一个热门词,它是一个非常好的Word2vec特性。
对于论文的分类。
直接将文档中所有对应向量的线性相加,作为文本的特征训练分类器,效果也很好。这种方法也适用于word2vec训练过程。此外,如果将非线性分类器替换为RBF核SVM,分类精度也会更高,这也符合预期。其他的数据序列也可以做到这一点,记住一篇文章DeepWalk KDD,在一个社交网络节点生成随机漫步在一组序列上,然后通过word2vec训练每个节点对应的向量。
我觉得,可能做相关方面工作的人才会有更深的体验吧。所谓,干一行才能了解这一行的情况。