Scrapy
頁面Module:Infobox/styles.css沒有內容。
| File:Scrapy logo.jpg | |
| 開發者 | package.lua第80行Lua錯誤:module 'Module:Ilh/data' not found |
|---|---|
| 首次發佈 | 2008年6月26日 |
| 當前版本 | Template:Software version |
| 原始碼庫 | 頁面Template:Plainlist/styles.css沒有內容。
|
| 編程語言 | Python |
| 引擎 | 頁面Template:Plainlist/styles.css沒有內容。 |
| 作業系統 | Windows、macOS、Linux |
| 類型 | 網絡爬蟲 |
| 許可協議 | BSD許可證 |
| 頁面Module:Infobox/styles.css沒有內容。 | |
Scrapy(package.lua第80行Lua錯誤:module 'Module:IPA/config' not found SKRAY-pee[1]是一個用Python編寫的自由且開源的網絡爬蟲框架。它在設計上的初衷是用於爬取網絡數據,但也可用作使用API來提取數據,或作為生成目的的網絡爬蟲[2]。該框架目前由網絡抓取的開發與服務公司package.lua第80行Lua錯誤:module 'Module:Ilh/data' not found維護。
Scrapy項目圍繞「蜘蛛」(spiders)建構,蜘蛛是提供一套指令的自包含的爬網程序(crawlers)。遵循其他如Django框架的一次且僅一次精神[3],允許開發者重用代碼將便於構建和拓展大型的爬網項目。Scrapy也提供一個爬網shell,開發者可用它測試對網站的效果。[4]
使用Scrapy的知名公司和產品有:Lyst[5][6]、package.lua第80行Lua錯誤:module 'Module:Ilh/data' not found[7]、package.lua第80行Lua錯誤:module 'Module:Ilh/data' not found[8]、Sciences Po Medialab[9]、package.lua第80行Lua錯誤:module 'Module:Ilh/data' not found的世界政府數據網站[10]等。
歷史[編輯]
Scrapy誕生於網絡聚合和電子商務公司Mydeco,它由Mydeco和Insophia公司的員工開發和維護。2008年8月首次以BSD許可證公開發布,2015年6月發佈有里程碑意義的1.0版本[11]。2011年,Scrapinghub成為新的官方維護者[12][13]。
參考文獻[編輯]
- ↑ How do you pronounce "Scrapy"? (頁面存檔備份,存於互聯網檔案館))
- ↑ Scrapy at a glance (頁面存檔備份,存於互聯網檔案館).
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ package.lua第80行Lua錯誤:module 'Module:Citation/CS1/People' not found
- ↑ Interview Scraping Hub (頁面存檔備份,存於互聯網檔案館).
外部連結[編輯]
- Module:Official_website第90行Lua錯誤:attempt to index field 'wikibase' (a nil value)
參見[編輯]
- robots.txt:放在網頁伺服器上,告知網絡蜘蛛哪些頁面內容可取得或不可取得。
- 網絡爬蟲