Apache Beam

維基百科,自由的百科全書
跳至導覽 跳至搜尋
Apache Beam
File:Beam-logo-full-color-name-right-200-autocrop.png
原作者Google
開發者Apache軟件基金會
首次釋出2016年6月15日,​10年前​(2016-06-15
目前版本
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    原始碼庫
    • {{URL|example.com|可选的显示文本}}
    Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
    程式語言Java, Python, Go
    引擎
      Module:EditAtWikidata第29行Lua錯誤:attempt to index field 'wikibase' (a nil value)
      作業系統跨平台
      特許條款Apache特許條款 2.0
      網站beam.apache.org

      Apache Beam是一個開源統一編程模型,用於定義和執行數據處理管道,包括ETL批次處理流(連續)處理[1] Beam管線化是使用提供的SDK之一定義的,並在Beam支援的一個執行器(分散式處理後端)中執行,包括Apache Apex英語Apache ApexApache Flink、Apache Gearpump(孵化中)、Apache Samza英語Apache SamzaApache Spark和Google Cloud Dataflow。[2]

      它被稱為「大數據的超級API」。[3]

      歷史[編輯]

      Apache Beam[2]是數據流模型檔案的一種實現。[4]數據流模型基於以前關於Google的分散式處理抽象的工作,特別是FlumeJava[5]和Millwheel。[6][7]

      Google於2014年釋出了數據流模型的開放式SDK,以及在本地(非分散式)和Google雲平台服務中執行數據流的環境。

      2016年,Google向Apache軟件基金會捐贈了核心SDK以及本地執行程式的實現,以及用於訪問Google雲平台數據服務的一組IO(數據連接器)。其他公司和社群成員為現有的分散式執行平台提供了執行器,以及新的將Beam Runners與現有資料庫、鍵值儲存和訊息系統整合的IO。此外,還提出了新的DSL,以支援Beam模型之上的特定領域需求。

      時間線[編輯]

      版本 釋放日期
      最新版本: 2.19.0 2020-02-04
      停止支援: 2.18.0 2020-01-23
      停止支援: 2.17.0 2020-01-06
      停止支援: 2.16.0 2019-10-07
      停止支援: 2.15.0 2019-08-22
      停止支援: 2.14.0 2019-08-01
      停止支援: 2.13.0 2019-05-22
      停止支援: 2.12.0 2019-04-25
      停止支援: 2.11.0 2019-02-26
      停止支援: 2.10.0 2019-02-01
      停止支援: 2.9.0 2018-12-13
      停止支援: 2.8.0 2018-10-29
      停止支援: 2.7.0 2018-10-03
      停止支援: 2.6.0 2018-08-08
      停止支援: 2.5.0 2018-06-26
      停止支援: 2.4.0 2018-03-20
      停止支援: 2.3.0 2018-01-30
      停止支援: 2.2.0 2017-12-02
      停止支援: 2.1.0 2017-08-23
      停止支援: 2.0.0 2017-05-17
      停止支援: 0.6.0 2017-03-11
      停止支援: 0.5.0 2017-02-02
      停止支援: 0.4.0 2016-12-29
      停止支援: 0.3.0 2016-10-31
      停止支援: 0.2.0 2016-08-08
      停止支援: 0.1.0 2016-06-15
      格式:
      停止支援
      支援中
      最新版本
      最新預覽
      未來版本
      從未發佈

      參見[編輯]

      參考文獻[編輯]

      1. ^ Woodie, Alex. Apache Beam's Ambitious Goal: Unify Big Data Development. Datanami. 2016-04-22 [2016-08-04]. (原始內容存檔於2016-08-13). 
      2. ^ 2.0 2.1 Cloud Dataflow - Batch & Stream Data Processing. [2018-12-21]. (原始內容存檔於2018-12-23). 
      3. ^ Ian Pointer. Apache Beam wants to be uber-API for big data. InfoWorld英語InfoWorld. 2016-04-14 [2018-12-21]. (原始內容存檔於2018-12-22). 
      4. ^ Akidau, Tyler; Schmidt, Eric; Whittle, Sam; Bradshaw, Robert; Chambers, Craig; Chernyak, Slava; Fernández-Moctezuma, Rafael J.; Lax, Reuven; McVeety, Sam. The dataflow model (PDF). Proceedings of the VLDB Endowment. 2015-08-01, 8 (12): 1792–1803 [2016-08-04]. doi:10.14778/2824032.2824076. (原始內容存檔 (PDF)於2016-03-04). 
      5. ^ Chambers, Craig; Raniwala, Ashish; Perry, Frances; Adams, Stephen; Henry, Robert R.; Bradshaw, Robert; Weizenbaum, Nathan. FlumeJava: Easy, Efficient Data-parallel Pipelines (PDF). Proceedings of the 31st ACM SIGPLAN Conference on Programming Language Design and Implementation (ACM). 2010-01-01: 363–375 [2016-08-04]. doi:10.1145/1806596.1806638. (原始內容 (PDF)存檔於2016-09-23). 
      6. ^ Akidau, Tyler; Whittle, Sam; Balikov, Alex; Bekiroğlu, Kaya; Chernyak, Slava; Haberman, Josh; Lax, Reuven; McVeety, Sam; Mills, Daniel. MillWheel (PDF). Proceedings of the VLDB Endowment. 2013-08-27, 6 (11): 1033–1044 [2016-08-04]. doi:10.14778/2536222.2536229. (原始內容 (PDF)存檔於2016-02-01). 
      7. ^ Pointer, Ian. Apache Beam wants to be uber-API for big data. InfoWorld. [2016-08-04]. (原始內容存檔於2016-08-03).