能力值:
( LV4,RANK:50 )
2 楼
能描述清楚。卡在第几行?哪一个函数?
能力值:
( LV2,RANK:10 )
3 楼
没有实际测试,但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式
能力值:
( LV2,RANK:10 )
4 楼
SevenSir
能描述清楚。卡在第几行?哪一个函数?
这个不知道,因为就一直卡然后啥也没有,估计是re.compile那里在匹配时候出了问题吧!
能力值:
( LV2,RANK:10 )
5 楼
junkboy
没有实际测试,但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式
不会优化,能帮忙指点下吗?
能力值:
( LV2,RANK:10 )
6 楼
貌似是 re.findall 的问题,虽然也不知道则么会卡住,不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧,应该也不会有这个问题
能力值:
( LV2,RANK:10 )
7 楼
OxCL
貌似是 re.findall 的问题,虽然也不知道则么会卡住,不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧,应该也不会有这个问题
据说正则挺重要,所以就想学学,结果刚入门就入坑了
能力值:
( LV2,RANK:10 )
8 楼
import requests import re content = requests.get('https://book.douban.com/').text
#print (content) pattern = re.compile(r'<li.*?cover.*?href="(.*?)"\stitle="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.?)</span>. ?</li>', re.S)##这里应该要在URL和title之间匹配空格,用\s results = re.findall(pattern, content)
#print(results) for result in results: url , name , author , date = result name = re.sub('\s','',name) author = re.sub('\s','',author) date = re.sub('\s','',date) print(url,name,author,date)
能力值:
( LV4,RANK:50 )
9 楼
OtuDeveloper
据说正则挺重要,所以就想学学,结果刚入门就入坑了
如果你是解析html的话,用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:https://deerchao.net/tools/regester/index.htm
含有正则工具和一部分实用的正则教程。你可以先用这个工具去匹配、测试,然后再把正则表达式转换成python的格式即可。
能力值:
( LV2,RANK:10 )
10 楼
SevenSir
如果你是解析html的话,用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:https://deerchao.net/tools/regester/index.htm
...
嗯呢,用正则解析html感觉确实挺麻烦,谢谢啦