Scrapy

维基百科,自由的百科全书
跳转到导航 跳转到搜索
Scrapy
File:Scrapy logo.jpg
开发者Scrapinghub, Ltd.英语Scrapinghub, Ltd.
首次发布2008年6月26日 (2008-06-26)
当前版本
    Module:EditAtWikidata第29行Lua错误:attempt to index field 'wikibase' (a nil value)
    源代码库
    • {{URL|example.com|可选的显示文本}}
    Module:EditAtWikidata第29行Lua错误:attempt to index field 'wikibase' (a nil value)
    编程语言Python
    引擎
      Module:EditAtWikidata第29行Lua错误:attempt to index field 'wikibase' (a nil value)
      操作系统WindowsmacOSLinux
      类型网络爬虫
      许可协议BSD许可证

      Scrapy/ˈskrpi/ SKRAY-pee[1]是一个用Python编写的自由且开源网络爬虫框架。它在设计上的初衷是用于爬取网络数据,但也可用作使用API来提取数据,或作为生成目的的网络爬虫[2]。该框架目前由网络抓取的开发与服务公司Scrapinghub公司英语Scrapinghub Ltd.维护。

      Scrapy项目围绕“蜘蛛”(spiders)建构,蜘蛛是提供一套指令的自包含的爬网程序(crawlers)。遵循其他如Django框架的一次且仅一次精神[3],允许开发者重用代码将便于构建和拓展大型的爬网项目。Scrapy也提供一个爬网shell,开发者可用它测试对网站的效果。[4]

      使用Scrapy的知名公司和产品有:Lyst[5][6]Parse.ly英语Parse.ly[7]Sayone Technologies英语Sayone Technologies[8]Sciences Po Medialab[9]Data.gov.uk英语Data.gov.uk的世界政府数据网站[10]等。

      历史[编辑]

      Scrapy诞生于网络聚合和电子商务公司Mydeco,它由Mydeco和Insophia公司的员工开发和维护。2008年8月首次以BSD许可证公开发布,2015年6月发布有里程碑意义的1.0版本[11]。2011年,Scrapinghub成为新的官方维护者[12][13]

      参考文献[编辑]

      1. ^  How do you pronounce "Scrapy"?页面存档备份,存于互联网档案馆))
      2. ^ Scrapy at a glance页面存档备份,存于互联网档案馆).
      3. ^ Frequently Asked Questions. [28 July 2015]. (原始内容存档于2020-11-11). 
      4. ^ Scrapy shell. [28 July 2015]. (原始内容存档于2020-10-31). 
      5. ^ Bell, Eddie; Heusser, Jonathan. Scalable Scraping Using Machine Learning. [28 July 2015]. (原始内容存档于2016-10-09). 
      6. ^ Scrapy | Companies using Scrapy. [2020-12-08]. (原始内容存档于2020-11-12). 
      7. ^ Montalenti, Andrew. Web Crawling & Metadata Extraction in Python. [2020-12-08]. (原始内容存档于2020-09-19). 
      8. ^ Scrapy Companies. Scrapy website. [2020-12-08]. (原始内容存档于2020-11-12). 
      9. ^ Hyphe v0.0.0: the first release of our new webcrawler is out!. [2020-12-08]. (原始内容存档于2016-06-13). 
      10. ^ Ben Firshman [@bfirsh]. World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore (推文). 21 January 2010 –通过Twitter. 
      11. ^ Medina, Julia. Scrapy 1.0 official release out!  . scrapy-users (邮件列表). 19 June 2015 [2018-09-13]. (原始内容存档于2011-01-22). 
      12. ^ Pablo Hoffman. List of the primary authors & contributors. 2013 [18 November 2013]. (原始内容存档于2017-05-29). 
      13. ^ Interview Scraping Hub页面存档备份,存于互联网档案馆).

      外部链接[编辑]

      • Module:Official_website第90行Lua错误:attempt to index field 'wikibase' (a nil value)

      参见[编辑]