提取没有子文本的父文本；决议HTML-编程知识-白鹭情

我有一小部分汤标签元素，我使用Selenium&拉出BeautifulSoup。

<footer>
    <p class="tags environment-tags">Environment:
      <span class="tag environment-tag">Desert</span>
    </p>
    <p class="source monster-source">Basic Rules
      <span class="page-number">, pg. 334</span>
    </p>
</footer>

我试图从 p 元素中获取文本，但每次我尝试它都会获取跨度。到目前为止，这是我尝试过的：

for p in Environment.findAll('p'):
    print(p.text)

我也尝试使用提取信息，.extract()但这似乎对我不起作用。

uj5u.com热心网友回复：

您可以使用.contents和访问第 0 个元素：

for tag in soup.find_all("p"):
    print(tag.contents[0].strip())

输出：

Environment:
Basic Rules

或者通过您的尝试，您可以通过以下方式洗掉<span>' 使用.extract()：

for tag in soup.select("p span"):
    tag.extract()

print(soup.prettify())

输出：

<footer>
 <p class="tags environment-tags">
  Environment:
 </p>
 <p class="source monster-source">
  Basic Rules
 </p>
</footer>

提取没有子文本的父文本；决议HTML

0 评论

发表评论

最新文章

青空ひかり(青空光)从3000张美图中严选的电子写真集「Director's by青空ひかり」要发售啦！

5月新人「仓木华」出道，首发作品SONE- 223，美女化妆师转战大淫幕，山手梨爱+枫富爱！

斥350亿美元建新航厦，迪拜将打造世界最大机场

新人辣妹型女优「白雪姬」四月底最新作品HHKL-135，喝醉后和男同学的故事

「筱田悠」的VENX-037，永井玛丽亚的VENU-997，慈母检验血气方刚的儿子

法规搞人！偶像女优西元明沙惊爆「薪酬危机」到手数字剩一半活不下去

随机推荐

如何在 Linux 中截取登录屏幕的屏幕截图

在 Linux 上使用 zforce 命令的说明

如何在 Ubuntu 18.04 LTS 上安装 Composr CMS

如何在 Linux 上安装 Spotify

如何修复 Kali Linux 上的 sources.list 文件

如何在您的计算机上安装 Kali Linux

热门分类

热门标签