首页
社区
课程
招聘
[原创]央·python编程之QQ数据清洗
发表于: 2018-1-30 17:51 4135

[原创]央·python编程之QQ数据清洗

2018-1-30 17:51
4135

一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。

今天我们拿QQ数据做示范。


more zy.txt
#然后空格进行翻页

效果如图:


more zy.txt
#然后空格进行翻页

效果如图:



从数据中得知:
---- 中间4个-
左边是账号,右边是密码
目前QQ最多就11位,密码最长16位,所以数据中位数最多31位(4+11+16),大于的都是垃圾(第一轮筛选)

我先用python 读取QQ操作 

import codecs
filepath=r"C:\Users\Administrator\Desktop\zy.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存

#savefilepath="C:\Users\Administrator\Desktop\zy1.txt"
for line in mylist:
    QQlist=line.split('----')
    print(QQlist[1])


import codecs
filepath=r"C:\Users\Administrator\Desktop\zy.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存

#savefilepath="C:\Users\Administrator\Desktop\zy1.txt"
for line in mylist:
    QQlist=line.split('----')
    print(QQlist[1])




[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!

上传的附件:
收藏
免费 8
支持
分享
最新回复 (1)
雪    币: 112
活跃值: (12)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
2
兄台,这份代码不很pythonic啊。
2018-3-19 15:12
0
游客
登录 | 注册 方可回帖
返回
//