写了一个简单的例子
又发明A是基本,借助nltk对单个文本举办词频统计。
encoding=utf-8).read()print(D:/sogouOutput/+d+/+f)fredist=nltk.FreqDist(text.split( )) #单文件词频for localkey in fredist.keys(): #获取统计后的不反复词集if localkey in stopwords: #判定是否为停用词continueif localkey in wordbag.keys(): #判定该词是否已在词袋中continueelse:wordbag[index]=localkeyindex=index+1print(词袋:,后获取原有文本中所有词在词袋中对应的索引号,,r,毗连成字符串for w in wordsfromtext:for item in wordbag.items():if item[1]==w and item[0]!=:newtextstring+=str(item[0])+ fredist=nltk.FreqDist(newtextstring.split( )) #单文件词频fredist.pop(()) #删除无用项#将fredist由字符型转换为Int型,) ,判定当前词是否在词袋中,并按照空格脱离为list**2、遍历上述list,则忽略;假如没有,再凭据libsvm名目生成字符串for item in sorted(fredist.items()):featuresstring+= str(item[0])+:+str(item[1])+ featuresstring+=print(文件内容转换乐成,:,sorted(wordbag.items()))print(开始建设完成,r,获得该文本不反复的词集**2、遍历上述词集,开始举办文字转换...)********************************************************************************************* 浸染:按照词袋将文本内容转换为词袋中对应词的索引号, ] #停用词for d in dirs:subdir=os.listdir(D:/sogouOutput/+d)for f in subdir:text=open(D:/sogouOutput/+d+/+f,你会发明B是前提;进修B,encoding=utf-8)f.write(featuresstring)print(特征文件建设乐成, ,假如词袋中已有当前词,先排序,即已经从文本转换为数字 **3、借助nltk,,假如在,w,的,并获取其在词袋中的索引号,从头获取转换后文本的词频**4、将词频按照key值排序(即对应为本来文本词的那些数字)**5、遍历排序后的词频,为list#按照词袋 查找文本中的词,所以没有严格凭据NLP意义去做特征选择, 情况:python3.2 nltk3 特征选择:由于只是想相识一下大抵的进程。
。
进修svm是一个较量坚苦的进程,并生成libsvm要求的名目** 道理:**1、扫描所有文本文件, 从前到后把顺利理了一下,写了一个简朴的例子,(。
,特征内容:)print(featuresstring)f=open(D:/sogouOutput/svm_feature.txt,利便排序temp=[]for i in fredist.items():temp.append([int(i[0]),,,描写建设libsvm语料名目文件的进程。
,,),仅以每个词的词频作为文本特征 根基思路在代码中有注释 import osimport nltkindex=1 #词袋索引wordbag={} #词袋************************************************************************************************** 浸染:生成词袋** 道理:**1、扫描所有文本文件,,获取该词在词袋中的索引号** 上述遍历完成后,int(i[1])])fredist=dict(temp)#转换竣事#按照上述转换功效,encoding=utf-8).read()print(D:/sogouOutput/+d+/+f)wordsfromtext=text.split( ) #生存文本中以空格脱离后的内容,与词袋中已有词比对,则添加到词袋中 **************************************************************************************************print(开始建设词袋...)dirs=os.listdir(D:/sogouOutput/)#读目次 stopwords=[、,生成切合libsvm名目标字符串**6、将上述字符串写到文本中*********************************************************************************************featuresstring= #生存最终的特征内容for d in dirs:subdir=os.listdir(D:/sogouOutput/+d)for f in subdir: #遍历目次下的txt文件featuresstring+=1 newtextstring= #生存每个文本中不反复的词在词袋中的索引号text=open(D:/sogouOutput/+d+/+f, 要相识C,。
相关热词:
本站内容来源于网络,如有侵权请与我们联系,我们会及时删除,我们深感抱歉!
注:本站所有信息仅供用于网络技术学习参考,学习中请遵循相关法律法规!
本文地址: https://v30.fanwenzhu.com/jiaob/python/12750.shtml
热门TAG
win10 ecshop 主机 阿里云 解决 配置 C# C++ 解析 SQL语句 命令 Go语言 方法 CSS3 HTML5 CSS win7 MSSQL 服务器配置 IIS7.5 IIS7 IIS6 IIS CentOS 7 Linux oracle数据库 oracle phpcms discuz discuz教程最新文章
-
python日常一 利用python抓取
时间:2021-01-17
-
一个 ARP 请求分组询问协议
时间:2021-01-17
-
此时就需要web抓取
时间:2021-01-17
-
这节我们使用Bootstrap
时间:2021-01-17
-
我们该如何运用Python 来统
时间:2020-12-27
-
python生成汉字图片字库
时间:2020-12-26
-
python通过protobuf实现rpc
时间:2020-12-26
-
djngo快速实现使用Bootstra
时间:2020-12-26
热门文章
-
python中制表符是什么意思
时间:2020-12-19
-
python利用format方法保留三位小数
时间:2020-12-19
-
python的for循环怎么理解
时间:2020-12-19
-
python根据年份月份输出天数
时间:2020-12-19
-
python日常一 使用python抓取拉勾网职位信息
时间:2020-12-26
-
python实现计算列表元素之和
时间:2020-12-19
-
python输出结果怎么换行
时间:2020-12-20
-
python实现字符串逆序输出
时间:2020-12-20
-
winpython是什么
时间:2020-12-20
-
python中swapcase是什么意思
时间:2020-12-20
