首页
社区
课程
招聘
[旧帖] 如何统计一个txt文件中单词重复的频率 0.00雪花
发表于: 2016-6-20 14:02 6276

[旧帖] 如何统计一个txt文件中单词重复的频率 0.00雪花

2016-6-20 14:02
6276
一个中文txt文档,如何自动统计其中单词(中文,2个字以上的词语。数字,大于2个字符)出现的频率,然后删除重复项,仅保留一个相同的单词。
谢谢

这里有篇资料。自己水平不高,看不懂。。最好帮忙修改成一下,拖动txt到批处理窗口后,自动显示或删除文本。

http://zhidao.baidu.com/link?url=EbVQaYv_2rP0-thL3rJcK45YOcsFv1FCw0rAaCYGAYR6w-Xskkf7IfOtYTePYC0KgCxEoh-y-Dqq9x34yM_XOa

[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!

收藏
免费 0
支持
分享
最新回复 (8)
雪    币: 94
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
2
你用什么语言,我正好用 MFC 写了一个类似功能的文本处理器。统计二字以上的词是自己写的代码 ,但去重我懒得写,直接调用了c++ 中的 List容器 的 unique() 方法。
2016-6-20 15:16
0
雪    币: 393
活跃值: (224)
能力值: ( LV8,RANK:140 )
在线值:
发帖
回帖
粉丝
3
你需要一个终端,之后shell轻松搞定
2016-6-20 19:53
0
雪    币: 46
活跃值: (11)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
4
你贴的链接里的答案,给你说明一下步骤:
新建一个文件,文件后缀用.bat文件,内容如下:
@echo off
setlocal enabledelayedexpansion
for /f "tokens=*" %%i in (1.txt) do (
for %%j in (%%i) do (set /a #%%j+=1))
(for /f "delims=#=" %%i in ('set #^|findstr /v =1') do if not "%%i"=="" set /p s=%%i <nul)>2.txt 
start 2.txt 

把你要处理的文件命名为1.txt,并拷贝到同一个目录下,双击你刚创建的这个文件,这时候脚本会运行,结束后会自动打开一个2.txt的文件(这个文件也生成在同样的文件夹下),内容就是处理完后的结果。如果你的输入文件确实很简单,这个脚本应该能处理。
2016-6-20 20:59
0
雪    币: 39
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
5
要看你用什么语言,Java的的话可以用Map<String, Integer>来记录数据
2016-6-20 22:10
0
雪    币: 99
活跃值: (437)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
6
这个能不能支持中字呢?好像支持数字和英语单词。。
2016-6-21 07:50
0
雪    币: 46
活跃值: (11)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
7
支持中文字符
2016-6-21 09:05
0
雪    币: 46
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
8
excel就行
2016-6-23 11:01
0
雪    币: 135
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
9
word
里面有单词统计
它会自动分词
2016-6-23 11:09
0
游客
登录 | 注册 方可回帖
返回
//