xpath中可以插入正则表达式吗?
想要爬取一个网站,这个网站的不同网页的正文部分的xpath是不一样的,比如:
有个页面的正文部分是:
//*[@id='postmessage_32199']
另一个是:
//*[@id='postmessage_32153']
......
它们的格式是
postmessage_xxxxx
,x为数字。
我的问题是:xpath中可以使用用正则表达式吗?如果不能那怎么匹配这么多不同的xpath?
ps:我是用的是python的scrapy框架
提前感谢各位了。
诺德皇家卫士
11 years, 11 months ago
Answers
你用 https://github.com/binux/pyspider 我就告诉你
//*[starts-with(@id, "postmessage_")]
或者
doc.xpath(r'//*[re:match(@id, "postmessage_\d+")]', namespaces={"re": "http://exslt.org/regular-expressions"})
NiceLyt
answered 11 years, 11 months ago