文章詳情頁

Python數據標準化的實例分析

瀏覽：106日期：2022-07-29 08:19:16

說明

1、將原始數據轉換為均值為0，標準差在1范圍內。

2、對標準化而言：如果出現異常點，由于有一定數據量，少量異常點對平均值的影響不大，因此方差變化不大。

實例

def stand_demo(): ''' 標準化 :return: '''# 1. 獲取數據 data = pd.read_csv(’dating.txt’) data = data.iloc[:, :3] print(’data:n’, data) # 2.實例化一個轉換器類 transfer = StandardScaler()# 3.調用fit_transform() data_new = transfer.fit_transform(data) print(’data_new:n’, data_new) return None

知識點擴充：

幾種標準化方法：

歸一化Max-Min

min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值，將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x’，其公式為：

新數據=（原數據-最小值）/（最大值-最小值）

這種方法能使數據歸一化到一個區域內，同時不改變原來的數據結構。

實現中心化Z-Score

這種方法基于原始數據的均值（mean）和標準差（standard deviation）進行數據的標準化。將A的原始值x使用z-score標準化到x’。

z-score標準化方法適用于屬性A的最大值和最小值未知的情況，或有超出取值范圍的離群數據的情況。

新數據=（原數據-均值）/標準差

這種方法適合大多數類型數據，也是很多工具的默認標準化方法。標準化之后的數據是以0為均值，方差為以的正太分布。但是Z-Score方法是一種中心化方法，會改變原有數據的分布結構，不適合用于對稀疏數據做處理。

很多時候數據集會存在稀疏特征，表現為標準差小，很多元素值為0，最常見的稀疏數據集是用來做協同過濾的數據集，絕大部分數據都是0。對稀疏數據做標準化，不能采用中心化的方式，否則會破壞稀疏數據的結構。

用于稀疏數據的MaxAbs

最大值絕對值標準化（MaxAbs）即根據最大值的絕對值進行標準化，假設原轉換的數據為x，新數據為x’，那么x’=x/|max|，其中max為x鎖在列的最大值。

該方法的數據區間為[-1, 1]，也不破壞原數據結構的特點，因此也可以用于稀疏數據，一些稀疏矩陣。

針對離群點的RobustScaler

有些時候，數據集中存在離群點，用Z-Score進行標準化，但是結果不理想，因為離群點在標準化后喪失了利群特性。

RobustScaler針對離群點做標準化處理，該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。

到此這篇關于Python數據標準化的實例分析的文章就介紹到這了,更多相關Python數據標準化是什么內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：python Selenium等待元素出現的具體方法下一條：Python特征降維知識點總結

相關文章：

1. IntelliJ IDEA導入jar包的方法2. SSM框架JSP使用Layui實現layer彈出層效果3. 刪除docker里建立容器的操作方法4. IntelliJ IDEA導出項目的方法5. 解決python DataFrame 打印結果不換行問題6. Java源碼解析之ClassLoader7. python 調用API接口獲取和解析 Json數據8. java使用xfire搭建webservice服務的過程詳解9. Python如何測試stdout輸出10. .Net中的Http請求調用詳解(Post與Get)

排行榜

					
					IntelliJ IDEA導入jar包的方法
SSM框架JSP使用Layui實現layer彈出層效果
刪除docker里建立容器的操作方法
IntelliJ IDEA導出項目的方法
python 調用API接口 獲取和解析 Json數據
PHP下對緩沖區的控制
解決python DataFrame 打印結果不換行問題
Python如何測試stdout輸出
.Net中的Http請求調用詳解(Post與Get)
JS如何在數組指定位置插入元素
java使用xfire搭建webservice服務的過程詳解