24行代码爬取B站UP主相册所有图片

前几天偶然在哄睡区看到一个up主，相册里很多好看的照片，但是一个一个保存太麻烦了，因为如果想保存大图需要点进去才行，于是直接用python写了24行简单的代码，即可轻松爬取。

from selenium import webdriver
import re
from lxml import etree
import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
driver = webdriver.Chrome()
url = "https://space.bilibili.com/430654092/album"
pa = re.compile('style="background-image: url\("(.*?)@')
driver.get(url)
text = driver.page_source
pic_url_list = pa.findall(text)
pic_url_list = pic_url_list[1:]
html = etree.HTML(text)
titles = html.xpath('//a[@class="title"]/text()')
print('一共'+str(len(titles))+'张照片')
for pic_url, title in zip(pic_url_list, titles):
    print('正在下载', title)
    content = requests.get(pic_url, headers=headers).content
    if '\n' in title:
        title = title.replace('\n', '')
    if '/' in title:
        title = title.replace('/', '')
    with open('图片/'+title+'.jpg', 'wb') as f:
        f.write(content)

这里解释一下为什么用selenium而不用requests，因为网站源码是JS动态加载的，直接用requests.get只能得到一点代码，但用selenium就可以完美的得到JS加载后的网页源码了，然后用正则和xpath语法找到高清大图的链接，这时就可以用requests.get来下载图片了，不仅仅是此网站，其他需要动态加载JS的网站也可以。新手爬虫经常会疑惑为什么自己浏览器按F12获取的源码和python里用requests.get获得的源码为什么不一样，这就是原因所在。该方法可以在绝大多数你常用的网站使用。

小酒资源吧（www.xiaojiu8.cn）声明：
1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！603313839@qq.com
2. 请您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容资源
3. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！

4. 不保证所提供下载的资源的准确性、安全性和完整性，源码仅供下载学习之用！

5. 不保证所有资源都完整可用，不排除存在BUG或残缺的可能，由于资源的特殊性，下载后不支持退款。

6. 站点所有资源仅供学习交流使用，切勿用于商业或者非法用途，与本站无关，一切后果请用户自负！