Products
GG网络技术分享 2025-03-18 16:15 2
1 import requests
2 import re
3 #line3~line6应该填补一些什么代码?
4 #我想这里几行应该是提供网页吧?
5 #相当于告诉是正则表达式要在哪个网页里匹配图片(jpg,png,gif)
6
7 pattern=re.compile(r" #这里填匹配图片(jpg,png,gif)的正则表达式 ")
8 str=r''
9 print(pattern.search(str))
如上,我的想法是我指定一个网页,然后通过正则表达式匹配出我想要的
我的问题:
1.如何指定网页?
2.匹配图片的正则表达式有哪些?(我这段代码能用的)
1、
url='您想爬的网址'
head={
'user_agent':'需要你使用的浏览器的请求头'
}
page_data=requests.get(url=url,headers=head).text #获得页面的html代码
2、
具体的正则表达式 应该 是需要看具体的html代码来进行编写 ,如果有模板的话请告诉我一下
您可以参考这个来写您需要的
ex='<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
<div class="list"
<ul>
<li>==$0
<a href=" #**** .htm" title=" #**** " target="_blank">
<img src=" #**** .jpg" alt=" #**** ">
<b> #****
</b>
</a>
</li>
回复的代码发不出来
ex='<div class="list">.*?<img src="(.*?)" alt.*?</div>'
import requests
import re
url='http://www.netbian.com/s/chuyinweilai/'
head={
'user_agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
page_data=requests.get(url,headers=head).text
pattern=re.compile(r"ex='<div class="list">.*?<img src="(.*?)" alt.*?</div>'")
str=r''
print(pattern.search(str))
如果是的话 可以直接这样
page_data=requests.get(url,headers=head).text
ex='<div class="list">.*?<img src="(.*?)" alt.*?</div>'
image_src=re.findall(ex,page_data,re.S)
这样可以获得图片的url
正则表达式到这里就介绍完成了,接下来我们做一个小练习——爬取慕课网图片
Demand feedback