之前有写过相关利用python采集信息的文章,这里就不多说了,今天说一下怎么利用python分词。
最早我在利用python自动收集与发布文章的时候,是利用的discuz的分词api来分词的,这样我就不用人工对每篇文章填入关键词,非常的方便,而且还是比较精准的。
最近发现python有个包非常好用,可以直接模拟搜索引擎进行分词,所以就利用python专门写了个分词程序。
#coding:utf8'''author:liyatao wx:841483350'''#python利用结巴分词关键词自动提取 请确认安装jieba,安装方法pip install jieba import jiebadef cutword(word):tags=[] seg_list = jieba.cut(word) seg_list={}.fromkeys(seg_list).keys() #去除列表中重复的元素 for x in seg_list: if len(x)=2: #如果分出来的词的元素大于等于2个字 tags.append(x) #添加到新的列表中 else: pass tags.sort(key=lambda x:len(x)) #按列表中元素字符串的长度从小到大排序 print ','.join(tags) # return tagsif __name__==__main__: word=python批量查询网页收录情况并计算收录率 ” cutword(word)
许多专家也会提倡那些不是世界上最时尚和最令人震惊的设计。……
执行内容审核是维护网站的重要部分,但您不能直接进入并执行……
现在最常用的聊天软件是微信。我们使用过微信好友。我相信小……
软文营销成为各大商家企业竞相追逐的商业利器。同时,随着新……
一个好的企业必定要跟的上时代的潮流,网站开发是企业不可缺……
今天,全球互联网信息化时代,怎么做好公司品牌网站建设成为……