Beautiful Soup

Beautiful Soup
原作者	Leonard Richardson
当前版本	Template:Software version
源代码库	页面Template:Plainlist/styles.css没有内容。 <strong%20class= "error"><span%20class="scribunto-error%20mw-scribunto-error-6c8ed92f">脚本错误：没有“Wd”这个模块。 <strong%20class="error"><span%20class="scribunto-error%20mw-scribunto-error-6c8ed92f">脚本错误：没有“wd”这个模块。</span></strong>; Module:EditAtWikidata第29行Lua错误：attempt to index field 'wikibase' (a nil value)
编程语言	Python
引擎	页面Template:Plainlist/styles.css没有内容。脚本错误：没有“Wd”这个模块。 Module:EditAtWikidata第29行Lua错误：attempt to index field 'wikibase' (a nil value)
类型	HTML解析库、网络数据采集
许可协议	Python软件基金会许可证（Beautiful Soup 3及以前）; MIT许可证（Beautiful 4及以后）
网站	www.crummy.com/software/BeautifulSoup/
	脚本错误：没有“Template wrapper”这个模块。

package.lua第80行Lua错误：module 'Module:CGroup/core' not found

页面Module:Infobox/styles.css没有内容。

Beautiful Soup是一个Python包，功能包括解析HTML、XML文档、修复含有未闭合标签等错误的文档（此种文档常被称为tag soup）。这个扩展包为待解析的页面建立一棵树，以便提取其中的数据，这在网络数据采集时非常有用。^[1]

在2021年，Python 2.7的官方支持终止，BeautifulSoup发行版4.9.3是支持Python 2.7的最后版本^[2]。

示例代码[编辑]

#!/usr/bin/env python3
# Anchor extraction from HTML document
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
    soup = BeautifulSoup(response, 'html.parser')
    for anchor in soup.find_all('a'):
        print(anchor.get('href', '/'))

参见[编辑]

HTML解析器对比

参考资料[编辑]

↑ ^1.0 ^1.1 package.lua第80行Lua错误：module 'Module:Citation/CS1/Identifiers' not found
↑ package.lua第80行Lua错误：module 'Module:Citation/CS1/Identifiers' not found

package.lua第80行Lua错误：module 'Module:Navbar/configuration' not found

[crummy.com-1] 1.0 ^1.1 package.lua第80行Lua错误：module 'Module:Citation/CS1/Identifiers' not found

[2] package.lua第80行Lua错误：module 'Module:Citation/CS1/Identifiers' not found

[1]

[2]

Beautiful Soup

示例代码[编辑]

参见[编辑]

参考资料[编辑]

导航菜单

搜索