Python 爬虫使用 xpath 获取元素为空

共计 918 个字符，预计需要花费 3 分钟才能阅读完成。

最近刚准备小弄一下爬虫，就遇到了反爬虫制裁，获取元素老是为空。

是这样的，之前QQ群总能看见一分钟简讯新闻的图片，觉得挺好的，就准备弄一个今日快看分类，每天更新。然后找到了 365 资讯简报, 准备写一个 python 脚本定时爬取内容并发布到博客。

但是对于爬虫小白来说，却是出师不利，用 xpath 获取不到需要的元素。

首先，我是这样获取的。

import requests
import re
from lxml import etree

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36"}

res = requests.get("https://www.163.com/dy/media/T1603594732083.html",headers=headers)

selector = etree.HTML(res.text)

target = selector.xpath("/html/body/div/div[2]/div[2]/div[1]/div[3]/ul/li[1]/a/@href")

print(target)

结果是获取不到最新文章的链接的。

Python 爬虫使用 xpath 获取元素为空

因为 /html/body/div/div[2]/div[2]/div[1]/div[3]/ul/li[1]/a/@href 是这样来的。

Python 爬虫使用 xpath 获取元素为空

这是经过浏览器渲染后的元素。

后来将源代码保存为 html 元素后发现，浏览器选然后比原来多了一个 div 元素。<div id="fixed_line_e12ff311d0" style=""></div> 应该是 js 在后期加上去的。

将/html/body/div/div[2]/div[2]/div[1]/div[3]/ul/li[1]/a/@href 改为 /html/body/div/div[2]/div[2]/div[1]/div[2]/ul/li[1]/a/@href，问题顺利解决。

Python 爬虫使用 xpath 获取元素为空

这是因为反爬虫的机制，提高了爬虫的门槛，所以还是不能直接复制 xpath 地址，需要把源代码下载下来进行分析。

提醒：本文发布于1404天前，文中所关联的信息可能已发生改变，请知悉！

AD:【腾讯云服务器大降价】2核4G 222元/3年 1核2G 38元/年

Linux 及 Windows配置临时全局代理

说明之前有写过 Linux 以及 Docker 配置 http 代理，其实 linux 比如 yum、apt、curl、wget 等工具，默认只需要配置全局代理就够了，只是 docker 拉取镜像比较特殊，需要另外配置，所以这里只是为了方便自己在 linux 配置代理。临时代理配置临时代理，如果没换过端口，只需要改 ip 即可。注意：代理默认是关闭局域网连接的，如果代理安装的位置不是本机，...

记录一下 headscale 修改域名

因为 headscale 需要修改一下域名，所以将过程记录一下。这里修改域名所修改的文件地址或环境变量，以 Docker 搭建 headscale 异地组网完整教程搭建教程为基础。因为 headscale 需要修改一下域名，所以将过程记录一下。这里修改域名所修改的文件地址或环境变量，以 Docker 搭建 headscale 异地组网完整教程搭建教程为基础。服务端修改 headscale...

Spring 创建自定义命名空间和自定义标签

之前有了解过 Spirng 是如何解析第三方 xml 标签的，那么可以根据该原理写一个自定义命名空间和自定义标签，有助于我们学习其他相关框架。接下来就自定义一个命名空间下的 mybean 标签，往容器中存放 mybean 配置的对象对象。一、自定义命名空间和标签通常分为以下几个步骤： 1.确定命名空间名称、schema 虚拟路径、标签名称 2.编写标签约束文件和映射 3.编写处理器映射文件和...

Docker 搭建中继服务器 derp – 需要域名并配置 ssl

了解Derp 在搭建 derp 之前，前提是你应该了解并搭建了 headscale 服务端，否则请先看文章 Docker 搭建 headscale 异地组网完整教程。已经加入 headscale 的异地组网的客户端可以使用如下命令查看当前的 derp 服务器。 # docker 运行的客户端 docker exec -it tailscaled tailscale netcheck # 非 do...

Docker 部署 funasr 语音转文字服务

前言由于家人有需要，经常需要听会议记录或者通话录音，于是想着直接将录音导出，然后进行转文字，再通过 gpt 进行总结或者其他的操作。找了很多项目，最好还是在 nodeseek 论坛的坛友建议下，找到了 funasr 这个项目。使用感受是，识别准确率确实还不错，非常满足我的需求。 FunASR 是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模...

mowang666 您好，因业务需要，网站地址发生变更，信息如下：网站名称: 新锐博客网站地址: https://blog.xrbk.cn 网站图标: https://blog.xrbk.cn/favicon.png 网站描述: 记录学习与分享资源 RSS地址：https://blog.xrbk.cn/atom.xml 请您及时更新，给你带来的不便敬请谅解

阿蛮君这个我倒是没试过

坏比弓长没有办法在开启JWT的情况下调用吗？

阿蛮君现在我也不清楚了，好久没折腾这了，不好意思哈，现在用的tailscale

jarywj 博主，我用你的教程搭建好了服务器，建好了网络，但是客户端在替换planet文件后，加入了网络，服务器上看不到这个加入的客户端，这是为什么呢？

au 好的好的，感谢回复！

阿蛮君现在没有折腾哪个了，理论上来说替换掉那些api就可以检测，https://v6.ident.me, https://6.ipw.cn, https://v6.yinghualuo.cn/bejson，不过我没有试过不知道行不行。我现在是用ddns-go这款工具。动态解析域名，并且可以触发webhook给我发送邮件的

au 博主，你好，我在知乎看过您的一篇文章，是关于使用Docker部署容器监控公网IP变动并主动发送邮件的“https://zhuanlan.zhihu.com/p/568074329”这篇文章，我想问的是，这个可以监控IPv6的变化并发送邮件嘛？因为我现在测试了，它只能发送IPv4的，请问如果要添加IPv6的变化，我该如何操作呢？谢谢您！

阿蛮君我没用过1p哈，所以我这个无法对比，至少Vaultwarden我用了一两年感觉还不错

兔哥博客博主，你觉得 Vaultwarden 与 1password 比哪个好用？我个人一直在用付费版的 1password，但最近也想自建试试Vaultwarden，又担心用不惯。

Python 爬虫使用 xpath 获取元素为空

Linux 及 Windows配置临时全局代理

记录一下 headscale 修改域名

Spring 创建自定义命名空间和自定义标签

Docker 搭建中继服务器 derp – 需要域名并配置 ssl

Docker 部署 funasr 语音转文字服务

Docker 搭建 headscale 异地组网完整教程

Ubuntu 22.04 锁屏不能远程连接的解决方案

Openwrt 编译官方固件详解

Docker 部署 funasr 语音转文字服务

Docker 搭建开源订阅转换 sub2clash