Scrapy

維基百科,自由的百科全書
跳至導覽 跳至搜尋
Scrapy
File:Scrapy logo.jpg
開發者Scrapinghub, Ltd.英語Scrapinghub, Ltd.
首次發佈2008年6月26日 (2008-06-26)
當前版本
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    原始碼庫
    • {{URL|example.com|可选的显示文本}}
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    程式語言Python
    引擎
      Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
      作業系統WindowsmacOSLinux
      類型網絡爬蟲
      許可協議BSD許可證

      Scrapy/ˈskrpi/ SKRAY-pee[1]是一個用Python編寫的自由且開源網絡爬蟲框架。它在設計上的初衷是用於爬取網絡數據,但也可用作使用API來提取數據,或作為生成目的的網絡爬蟲[2]。該框架目前由網絡抓取的開發與服務公司Scrapinghub公司英語Scrapinghub Ltd.維護。

      Scrapy項目圍繞「蜘蛛」(spiders)建構,蜘蛛是提供一套指令的自包含的爬網程序(crawlers)。遵循其他如Django框架的一次且僅一次精神[3],允許開發者重用代碼將便於構建和拓展大型的爬網項目。Scrapy也提供一個爬網shell,開發者可用它測試對網站的效果。[4]

      使用Scrapy的知名公司和產品有:Lyst[5][6]Parse.ly英語Parse.ly[7]Sayone Technologies英語Sayone Technologies[8]Sciences Po Medialab[9]Data.gov.uk英語Data.gov.uk的世界政府數據網站[10]等。

      歷史[編輯]

      Scrapy誕生於網絡聚合和電子商務公司Mydeco,它由Mydeco和Insophia公司的員工開發和維護。2008年8月首次以BSD許可證公開發布,2015年6月發佈有里程碑意義的1.0版本[11]。2011年,Scrapinghub成為新的官方維護者[12][13]

      參考文獻[編輯]

      1. ^  How do you pronounce "Scrapy"?頁面存檔備份,存於互聯網檔案館))
      2. ^ Scrapy at a glance頁面存檔備份,存於互聯網檔案館).
      3. ^ Frequently Asked Questions. [28 July 2015]. (原始內容存檔於2020-11-11). 
      4. ^ Scrapy shell. [28 July 2015]. (原始內容存檔於2020-10-31). 
      5. ^ Bell, Eddie; Heusser, Jonathan. Scalable Scraping Using Machine Learning. [28 July 2015]. (原始內容存檔於2016-10-09). 
      6. ^ Scrapy | Companies using Scrapy. [2020-12-08]. (原始內容存檔於2020-11-12). 
      7. ^ Montalenti, Andrew. Web Crawling & Metadata Extraction in Python. [2020-12-08]. (原始內容存檔於2020-09-19). 
      8. ^ Scrapy Companies. Scrapy website. [2020-12-08]. (原始內容存檔於2020-11-12). 
      9. ^ Hyphe v0.0.0: the first release of our new webcrawler is out!. [2020-12-08]. (原始內容存檔於2016-06-13). 
      10. ^ Ben Firshman [@bfirsh]. World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore (推文). 21 January 2010 –透過Twitter. 
      11. ^ Medina, Julia. Scrapy 1.0 official release out!  . scrapy-users (郵件列表). 19 June 2015 [2018-09-13]. (原始內容存檔於2011-01-22). 
      12. ^ Pablo Hoffman. List of the primary authors & contributors. 2013 [18 November 2013]. (原始內容存檔於2017-05-29). 
      13. ^ Interview Scraping Hub頁面存檔備份,存於互聯網檔案館).

      外部連結[編輯]

      • Module:Official_website第90行Lua錯誤:attempt to index field 'wikibase' (a nil value)

      參見[編輯]