蓝易云

Python 爬取指定页面的所有图片

444次阅读
一条评论

共计 919 个字符,预计需要花费 3 分钟才能阅读完成。

之前看见别人分享小黄鸡头像,但是好像没有提供云盘下载。于是就让 gpt 生成了一下爬取特定页面的代码,爬取后重命名了一下,可以评论获取压缩包。

Python 爬取指定页面的所有图片

同时分享下代码,万一下次用得着呢。

import requests
from bs4 import BeautifulSoup
import os
from urllib.parse import urljoin

# 目标页面
url = "https://zhuanlan.zhihu.com/p/578390498"

# 发送HTTP请求获取页面源码
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
# 提取所有图片链接
img_links = [img['src'] for img in soup.find_all('img', {'src': True})]

if not os.path.exists('images'):
    os.makedirs('images')

# 下载图片
for img_link in img_links:
    # 使用urljoin确保链接是绝对路径
    img_url = urljoin(url, img_link)

    # 检查链接是否以"http"或"https"开头
    if img_url.startswith(('http:', 'https:')):
        # 获取图片内容
        img_data = requests.get(img_url).content
        # 提取图片文件名
        img_name = img_url.split("/")[-1]
        # 保存图片到目录
        with open(os.path.join('images', img_name), 'wb') as img_file:
            img_file.write(img_data)
            print(f"Downloaded: {img_name}")
    else:
        print(f"Skipped: {img_url}")

print("All images downloaded successfully.")

下载地址

小黄鸡头像:链接:https://pan.baidu.com/s/16p0TqdD8jRYbAsZM46VFmA?pwd=akak

提醒:本文发布于358天前,文中所关联的信息可能已发生改变,请知悉!

AD:【腾讯云服务器大降价】2核4G 222元/3年 1核2G 38元/年
正文完
 0
阿蛮君
版权声明:本站原创文章,由 阿蛮君 于2023-12-14发表,共计919字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(一条评论)
loli 评论达人 LV.1
2023-12-14 16:47:42 回复

想要

 Windows  Edge  中国广东省广州市电信
Copyright © 2022-2024 阿蛮君博客 湘ICP备2023001393号
本网站由 亿信互联 提供云计算服务 | 蓝易云CDN 提供安全防护和加速服务
Powered by Wordpress  Theme by Puock