18577975379 在线客服 联系我们 返回顶部
企业动态 技术分享 行业动态

李亚涛:python模拟搜索引擎分词

2020-04-06

之前有写过相关利用python采集信息的文章,这里就不多说了,今天说一下怎么利用python分词。

最早我在利用python自动收集与发布文章的时候,是利用的discuz的分词api来分词的,这样我就不用人工对每篇文章填入关键词,非常的方便,而且还是比较精准的。

最近发现python有个包非常好用,可以直接模拟搜索引擎进行分词,所以就利用python专门写了个分词程序。

#coding:utf8'''author:liyatao wx:841483350'''#python利用结巴分词关键词自动提取 请确认安装jieba,安装方法pip install jieba import jiebadef cutword(word):tags=[] seg_list = jieba.cut(word) seg_list={}.fromkeys(seg_list).keys() #去除列表中重复的元素 for x in seg_list: if len(x)=2: #如果分出来的词的元素大于等于2个字 tags.append(x) #添加到新的列表中 else: pass tags.sort(key=lambda x:len(x)) #按列表中元素字符串的长度从小到大排序 print ','.join(tags) # return tagsif __name__==__main__: word=python批量查询网页收录情况并计算收录率 ” cutword(word)

在线咨询
  • Copyright © 2013-2020 南宁华寇网络科技有限公司
  • 技术支持: