文章詳情頁

用于ETL的Python數(shù)據(jù)轉換工具詳解

瀏覽：3日期：2022-07-16 17:27:10

ETL的考慮

做數(shù)據(jù)倉庫系統(tǒng)，ETL是關鍵的一環(huán)。說大了，ETL是數(shù)據(jù)整合解決方案，說小了，就是倒數(shù)據(jù)的工具。回憶一下工作這么些年來，處理數(shù)據(jù)遷移、轉換的工作倒還真的不少。但是那些工作基本上是一次性工作或者很小數(shù)據(jù)量，使用access、DTS或是自己編個小程序搞定。可是在數(shù)據(jù)倉庫系統(tǒng)中，ETL上升到了一定的理論高度，和原來小打小鬧的工具使用不同了。究竟什么不同，從名字上就可以看到，人家已經將倒數(shù)據(jù)的過程分成3個步驟，E、T、L分別代表抽取、轉換和裝載。

其實ETL過程就是數(shù)據(jù)流動的過程，從不同的數(shù)據(jù)源流向不同的目標數(shù)據(jù)。但在數(shù)據(jù)倉庫中，ETL有幾個特點，一是數(shù)據(jù)同步，它不是一次性倒完數(shù)據(jù)就拉到，它是經常性的活動，按照固定周期運行的，甚至現(xiàn)在還有人提出了實時ETL的概念。二是數(shù)據(jù)量，一般都是巨大的，值得你將數(shù)據(jù)流動的過程拆分成E、T和L。現(xiàn) 在有很多成熟的工具提供ETL功能，例如datastage、powermart等，且不說他們的好壞。從應用角度來說，ETL的過程其實不是非常復雜，這些工具給數(shù)據(jù)倉庫工程帶來和很大的便利性，特別是開發(fā)的便利和維護的便利。但另一方面，開發(fā)人員容易迷失在這些工具中。舉個例子，VB是一種非常簡單的語言并且也是非常易用的編程工具，上手特別快，但是真正VB的高手有多少？微軟設計的產品通常有個原則是'將使用者當作傻瓜'，在這個原則下，微軟的東西確實非常好用，但是對于開發(fā)者，如果你自己也將自己當作傻瓜，那就真的傻了。ETL工具也是一樣，這些工具為我們提供圖形化界面，讓我們將主要的精力放在規(guī)則上，以期提高開發(fā)效率。從使用效果來說，確實使用這些工具能夠非常快速地構建一個job來處理某個數(shù)據(jù)，不過從整體來看，并不見得他的整體效率會高多少。問題主要不是出在工具上，而是在設計、開發(fā)人員上。他們迷失在工具中，沒有去探求ETL的本質。

可以說這些工具應用了這么長時間，在這么多項目、環(huán)境中應用，它必然有它成功之處，它必定體現(xiàn)了ETL的本質。如果我們不透過表面這些工具的簡單使用去看它背后蘊涵的思想，最終我們作出來的東西也就是一個個獨立的job，將他們整合起來仍然有巨大的工作量。大家都知道“理論與實踐相結合”，如果在一個領域有所超越，必須要在理論水平上達到一定的高度。

下面看下用于ETL的Python數(shù)據(jù)轉換工具，具體內容如下所示：

前幾天，我去Reddit詢問是否應該將Python用于ETL相關的轉換，并且壓倒性的回答是'是'。

用于ETL的Python數(shù)據(jù)轉換工具詳解

但是，盡管我的Redditor同事熱心支持使用Python，但他們建議研究Pandas以外的庫-出于對大型數(shù)據(jù)集Pandas性能的擔憂。

經過研究，我發(fā)現(xiàn)了很多用于數(shù)據(jù)轉換的Python庫：有些改進了Pandas的性能，而另一些提供了自己的解決方案。

我找不到這些工具的完整列表，所以我想我可以使用所做的研究來編譯一個工具-如果我錯過了什么或弄錯了什么，請告訴我!

Pandas

網(wǎng)站：https：//pandas.pydata.org/

總覽

Pandas當然不需要介紹，但是我還是給它一個介紹。

Pandas在Python中增加了DataFrame的概念，并在數(shù)據(jù)科學界廣泛用于分析和清理數(shù)據(jù)集。它作為ETL轉換工具非常有用，因為它使操作數(shù)據(jù)非常容易和直觀。

優(yōu)點

廣泛用于數(shù)據(jù)處理簡單直觀的語法與其他Python工具(包括可視化庫)良好集成支持常見的數(shù)據(jù)格式(從SQL數(shù)據(jù)庫，CSV文件等讀取)

缺點

由于它會將所有數(shù)據(jù)加載到內存中，因此無法擴展，并且對于非常大(大于內存)的數(shù)據(jù)集來說可能是一個錯誤的選擇

進一步閱讀

10分鐘Pandas Pandas機器學習的數(shù)據(jù)處理

Dask

網(wǎng)站：https：//dask.org/

總覽

根據(jù)他們的網(wǎng)站，' Dask是用于Python并行計算的靈活庫。'

從本質上講，Dask擴展了諸如Pandas之類的通用接口，供在分布式環(huán)境中使用-例如，Dask DataFrame模仿了。

優(yōu)點

可擴展性— Dask可以在本地計算機上運行并擴展到集群能夠處理內存不足的數(shù)據(jù)集即使在相同的硬件上，使用相同的功能也可以提高性能(由于并行計算) 最少的代碼更改即可從Pandas切換旨在與其他Python庫集成

缺點

除了并行性，還有其他方法可以提高Pandas的性能(通常更為顯著) 如果您所做的計算量很小，則沒有什么好處 Dask DataFrame中未實現(xiàn)某些功能

進一步閱讀

Dask文檔為什么每個數(shù)據(jù)科學家都應該使用Dask

Modin

網(wǎng)站：https：//github.com/modin-project/modin

總覽

Modin與Dask相似之處在于，它試圖通過使用并行性并啟用分布式DataFrames來提高Pandas的效率。與Dask不同，Modin基于Ray(任務并行執(zhí)行框架)。

Modin優(yōu)于Dask的主要好處是Modin可以自動處理跨計算機核心分發(fā)數(shù)據(jù)(無需進行配置)。

優(yōu)點

可伸縮性— Ray比Modin提供的更多完全相同的功能(即使在相同的硬件上)也可以提高性能最小的代碼更改即可從Pandas切換(更改import語句) 提供所有Pandas功能-比Dask更多的'嵌入式'解決方案

缺點

除了并行性，還有其他方法可以提高Pandas的性能(通常更為顯著) 如果您所做的計算量很小，則沒有什么好處

進一步閱讀

Modin文檔 Dask和Modin有什么區(qū)別?

Petl

網(wǎng)站：https：//petl.readthedocs.io/en/stable/

總覽

petl包含了pandas的許多功能，但專為ETL設計，因此缺少額外的功能，例如用于分析的功能。 petl具有用于ETL的所有三個部分的工具，但本文僅專注于數(shù)據(jù)轉換。

盡管petl提供了轉換表的功能，但其他工具(例如pandas)似乎更廣泛地用于轉換和有據(jù)可查的文檔，因此petl對此吸引力較小。

優(yōu)點

最小化系統(tǒng)內存的使用，使其能夠擴展到數(shù)百萬行對于在SQL數(shù)據(jù)庫之間進行遷移很有用輕巧高效

缺點

通過很大程度地減少對系統(tǒng)內存的使用，petl的執(zhí)行速度會變慢-不建議在性能很重要的應用程序中使用較少使用此列表中的其他解決方案進行數(shù)據(jù)處理

進一步閱讀

使用Petl快速了解數(shù)據(jù)轉換和遷移 petl轉換文檔 PySpark

網(wǎng)站：http：//spark.apache.org/

總覽

Spark專為處理和分析大數(shù)據(jù)而設計，并提供多種語言的API。使用Spark的主要優(yōu)點是Spark DataFrames使用分布式內存并利用延遲執(zhí)行，因此它們可以使用集群處理更大的數(shù)據(jù)集，而Pandas之類的工具則無法實現(xiàn)。

如果要處理的數(shù)據(jù)非常大，并且數(shù)據(jù)操作的速度和大小很大，Spark是ETL的理想選擇。

優(yōu)點

可擴展性和對更大數(shù)據(jù)集的支持就語法而言，Spark DataFrames與Pandas非常相似通過Spark SQL使用SQL語法進行查詢與其他流行的ETL工具兼容，包括Pandas(您實際上可以將Spark DataFrame轉換為Pandas DataFrame，從而使您可以使用各種其他庫) 與Jupyter筆記本電腦兼容內置對SQL，流和圖形處理的支持

缺點

需要一個分布式文件系統(tǒng)，例如S3 使用CSV等數(shù)據(jù)格式會限制延遲執(zhí)行，需要將數(shù)據(jù)轉換為Parquet等其他格式缺少對數(shù)據(jù)可視化工具(如Matplotlib和Seaborn)的直接支持，這兩種方法都得到了Pandas的良好支持

進一步閱讀

Python中的Apache Spark：新手指南 PySpark簡介 PySpark文檔(尤其是語法) 值得一提

盡管我希望這是一個完整的列表，但我不希望這篇文章過長!

確實有很多許多用于數(shù)據(jù)轉換的Python工具，因此我包括了這一部分，至少是我錯過的其他項目(我可能會在本文的第二部分中進一步探討這些項目)。

bonobo https://www.bonobo-project.org/ bubbles http://bubbles.databrewery.org/ pygrametl http：//chrthomsen.github.io/pygrametl/ Apache Beam https：//beam.apache.org/

結論

我希望這份清單至少可以幫助您了解Python必須提供哪些工具來進行數(shù)據(jù)轉換。在進行了這項研究之后，我相信Python是ETL的優(yōu)秀選擇-這些工具及其開發(fā)人員使它成為了一個了不起的平臺。

到此這篇關于用于ETL的Python數(shù)據(jù)轉換工具的文章就介紹到這了,更多相關Python數(shù)據(jù)轉換工具內容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python pandas對excel的操作實現(xiàn)示例下一條：Python Tricks 使用 pywinrm 遠程控制 Windows 主機的方法

相關文章：

1. Intellij IDEA 2019 最新亂碼問題及解決必殺技(必看篇)2. JS繪圖Flot如何實現(xiàn)動態(tài)可刷新曲線圖3. 關于HTML5的img標簽4. CSS3實現(xiàn)動態(tài)翻牌效果仿百度貼吧3D翻牌一次動畫特效5. 未來的J2EE主流應用框架：對比Spring和EJB36. Android Manifest中meta-data擴展元素數(shù)據(jù)的配置與獲取方式7. Android自定義View實現(xiàn)掃描效果8. JS+css3實現(xiàn)幻燈片輪播圖9. css3溢出隱藏的方法10. ASP.NET MVC獲取多級類別組合下的產品

排行榜

					
					Intellij IDEA 2019 最新亂碼問題及解決必殺技(必看篇)
ASP.NET MVC獲取多級類別組合下的產品
css3溢出隱藏的方法
PHP5.0正式發(fā)布 不完全兼容PHP4 新增多項功能
利用django創(chuàng)建一個簡易的博客網(wǎng)站的示例
Django設置Postgresql的操作
JS繪圖Flot如何實現(xiàn)動態(tài)可刷新曲線圖
Android Manifest中meta-data擴展元素數(shù)據(jù)的配置與獲取方式
JS+css3實現(xiàn)幻燈片輪播圖
關于HTML5的img標簽
CSS3實現(xiàn)動態(tài)翻牌效果 仿百度貼吧3D翻牌一次動畫特效