與數(shù)據(jù)對話:數(shù)據(jù)科學(xué)中的5種關(guān)鍵統(tǒng)計分析方法(與數(shù)據(jù)對話-數(shù)據(jù)科學(xué)中的5種關(guān)鍵統(tǒng)計分析方法包括)
數(shù)據(jù)驅(qū)動世界的動力源自我們生活和工作中產(chǎn)生的海量數(shù)據(jù)。從互聯(lián)網(wǎng)上的用戶行為、社交媒體上的互動、到物聯(lián)網(wǎng)設(shè)備生成的傳感器數(shù)據(jù),數(shù)據(jù)不僅是我們時代的產(chǎn)物,更是我們理解和改變世界的關(guān)鍵。然而,僅僅擁有大量的數(shù)據(jù)并不足以帶來真正的洞察和價值。數(shù)據(jù)科學(xué)作為解密數(shù)據(jù)奧秘的方法,提供了一種系統(tǒng)化的方式來探索、理解和利用數(shù)據(jù)。在這個領(lǐng)域中,統(tǒng)計分析作為探索數(shù)據(jù)科學(xué)世界的第一步,扮演著至關(guān)重要的角色。它提供了一系列強大的工具和技術(shù),幫助我們理解數(shù)據(jù)的本質(zhì)、發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,從而轉(zhuǎn)化數(shù)據(jù)為有意義的見解和行動。
在數(shù)據(jù)科學(xué)中,這五種統(tǒng)計分析方法被視為必不可少的工具,因為它們?yōu)槲覀兲峁┝颂剿鲾?shù)據(jù)的基礎(chǔ)。首先,描述性統(tǒng)計(Descriptive Statistics)方法幫助我們了解數(shù)據(jù)的整體特征和分布情況,為后續(xù)的分析提供了基礎(chǔ)。推論統(tǒng)計學(xué)(Inferential statistics)的過程實質(zhì)上是描述性統(tǒng)計的反向檢查過程。其次,假設(shè)檢驗(Hypothesis Testing)方法可以幫助我們進行科學(xué)推斷,驗證我們的假設(shè)是否得到支持。接著,相關(guān)性分析(Correlation)可以幫助我們發(fā)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,從而深入探索數(shù)據(jù)的內(nèi)在聯(lián)系。此外,回歸分析(Regression)方法為我們提供了建立預(yù)測模型的有效工具,幫助我們理解變量之間的因果關(guān)系。最后,可視化方法(Visualization)將數(shù)據(jù)轉(zhuǎn)化為圖形或圖像,以便更直觀地理解數(shù)據(jù)、發(fā)現(xiàn)模式和趨勢。這五種方法共同構(gòu)成了我們探索數(shù)據(jù)世界的基石,為我們打開了數(shù)據(jù)科學(xué)的大門,讓我們能夠深入探索數(shù)據(jù)的奧秘,發(fā)現(xiàn)其中蘊含的價值和見解。
描述性統(tǒng)計(Descriptive Statistics)
描述性統(tǒng)計是統(tǒng)計學(xué)中的一個分支,用于總結(jié)、分析和描述數(shù)據(jù)的基本特征。它主要關(guān)注數(shù)據(jù)的集中趨勢、分布形態(tài)和變異程度等方面。描述性統(tǒng)計的主要目的是幫助人們對數(shù)據(jù)有一個直觀的認(rèn)識,而不涉及對數(shù)據(jù)背后的概率分布進行推斷或假設(shè)檢驗。
描述性統(tǒng)計通常包括以下內(nèi)容:
- 中心趨勢:描述數(shù)據(jù)集中的位置,常用的指標(biāo)包括均值、中位數(shù)和眾數(shù)。
- 分散程度:描述數(shù)據(jù)的離散程度,常用的指標(biāo)包括范圍、標(biāo)準(zhǔn)差和方差。
- 分布形態(tài):描述數(shù)據(jù)的形狀和對稱性,常用的指標(biāo)包括偏度和峰度。
- 分位數(shù):描述數(shù)據(jù)在一定百分比處的位置,如四分位數(shù)、百分位數(shù)等。
通過描述性統(tǒng)計,我們可以快速了解數(shù)據(jù)的基本特征,為進一步的分析和決策提供參考。描述性統(tǒng)計常常作為數(shù)據(jù)分析的第一步,為后續(xù)的統(tǒng)計推斷和建模提供基礎(chǔ)。
為了計算描述性統(tǒng)計學(xué),我們可以使用 Python 庫,如 pandas、numpy 和 scipy。例如:
from icecream import ic# Import the librariesimport pandas as pdimport numpy as npimport scipy.stats as stats# Load the dataset from a csv filedf = pd.read_csv("results.csv")df=df.dropna()df.describe()
# Get the mean of each column using numpyic(np.mean(df[['home_score','away_score']], axis=0))# Get the median of each column using numpyic(np.median(df[['home_score','away_score']], axis=0))# Get the standard deviation of each column using numpyic(np.std(df[['home_score','away_score']], axis=0))# Get the variance of each column using numpyic(np.var(df[['home_score','away_score']], axis=0))
# Get the mode of each column using scipyic(stats.mode(df[['home_score','away_score']], axis=0))# Get the skewness of each column using scipyic(stats.skew(df[['home_score','away_score']], axis=0))# Get the kurtosis of each column using scipyic(stats.kurtosis(df[['home_score','away_score']], axis=0))
推論統(tǒng)計(Inferential statistics)
推論統(tǒng)計學(xué)(Inferential statistics)的過程實質(zhì)上是描述性統(tǒng)計的反向檢查過程。在大數(shù)據(jù)環(huán)境下,與描述性統(tǒng)計學(xué)相比,推論統(tǒng)計學(xué)的核心在于評估統(tǒng)計量或分析結(jié)論(假設(shè))的有效性。這個過程至關(guān)重要,是決策過程中的核心參考依據(jù)。
推論統(tǒng)計使用不同的統(tǒng)計方法或假設(shè)檢驗。最為人所知的是假設(shè)檢驗,通過它們可以測試群體之間的差異,例如t檢驗、卡方檢驗或方差分析。然后還有一些假設(shè)檢驗:測試變量之間的相關(guān)性,例如相關(guān)分析和回歸分析。
接下來的假設(shè)檢驗(Hypothesis Testing)、相關(guān)性分析(Correlation)、回歸分析(Regression)都屬于推論統(tǒng)計的部分。
假設(shè)檢驗(Hypothesis Testing)
通過進行描述性統(tǒng)計學(xué)任務(wù),我們對數(shù)據(jù)有了更好的了解,接下來,就需要檢查那些預(yù)設(shè)的假設(shè)(或者描述統(tǒng)計的統(tǒng)計量是否靠譜),看看它們是否基于這個樣本數(shù)據(jù)對總體是正確的還是錯誤的。這個檢查的過程就是假設(shè)檢驗。
如果假設(shè)是正確的,則被視為零假設(shè)(H0),否則被視為備擇假設(shè)(H1)。要進行假設(shè)檢驗,我們需要:
- 建立一個零假設(shè)(H0)和一個備擇假設(shè)(H1)
- 然后,選擇一個顯著性水平(alpha)
- 最后,計算一個檢驗統(tǒng)計量和一個p值
- 現(xiàn)在,基于p值做出決策
對于假設(shè)檢驗,我們可以使用Python庫,如scipy、statsmodels和pingouin。例如:要執(zhí)行單樣本t檢驗,即檢驗一個總體的均值是否等于給定值,我們可以使用scipy.stats的ttest_1samp函數(shù)或pingouin的ttest函數(shù):
# Import the librariesfrom scipy import statsimport pingouin as pg# Define the sample data and the population meandata = [1, 2, 3, 4, 5]popmean = 3.5# Perform the one-sample t-test using scipyt, p = stats.ttest_1samp(data, popmean)print('t = {:.4f}, p = {:.4f}'.format(t, p))# Perform the one-sample t-test using pingouindf = pg.ttest(data, popmean)print(df)
要執(zhí)行雙樣本t檢驗,即檢驗兩個獨立組的均值是否相等,我們可以使用scipy.stats的ttest_ind函數(shù),statsmodels.stats的ttest_ind函數(shù),或者pingouin的ttest函數(shù):
# Import the librariesfrom scipy import statsfrom statsmodels.stats import weightstatsimport pingouin as pg# Define the sample data for two groupsgroup1 = [1, 2, 3, 4, 5]group2 = [6, 7, 8, 9, 10]# Perform the two-sample t-test using scipyt, p = stats.ttest_ind(group1, group2)print('t = {:.4f}, p = {:.4f}'.format(t, p))# Perform the two-sample t-test using statsmodelst, p, df = weightstats.ttest_ind(group1, group2)print('t = {:.4f}, p = {:.4f}, df = {:.4f}'.format(t, p, df))# Perform the two-sample t-test using pingouindf = pg.ttest(group1, group2)print(df)
相關(guān)性分析(Correlation)
相關(guān)性是衡量數(shù)據(jù)中兩個變量之間線性關(guān)系的強度和方向的度量。它的取值范圍從-1到1,其中-1表示完美的負相關(guān),0表示沒有相關(guān)性,而1表示完美的正相關(guān)。通過分析相關(guān)性,我們可以更好地了解變量之間的關(guān)聯(lián)程度,從而決定它們是否可以用于預(yù)測或因果推斷。
關(guān)于相關(guān)性參考《一文帶您了解相關(guān)性分析:常見的相關(guān)系數(shù)及Python示例》。
回歸分析(Regression)
如果一個變量依賴于另一個變量,了解“依賴變量隨著獨立變量的變化而變化的程度,以及我們是否可以使用獨立變量來預(yù)測依賴變量”是很重要的。
回歸分析是一種用于理解和建模因變量與一個或多個自變量之間關(guān)系的方法。它可以幫助我們確定自變量對因變量的影響程度,并預(yù)測因變量的數(shù)值。常見的回歸方法包括線性回歸、邏輯回歸和多項式回歸等。
關(guān)于回歸分析,我們前面有多篇文章介紹,可以參考:
《一文帶您了解線性回歸(LinearRegression):多個變量之間的最佳擬合線的算法》
《一文帶您了解邏輯回歸(Logistic Regression): Python示例》
可視化(Visualization)
可視化在數(shù)據(jù)科學(xué)中起著至關(guān)重要的作用,它可以幫助我們更好地理解數(shù)據(jù)、發(fā)現(xiàn)模式、識別趨勢,并向受眾傳達信息。根據(jù)使用場景和目的,可視化可以分為兩類:探索性可視化和解釋性可視化。
- 探索性可視化:探索性可視化是數(shù)據(jù)科學(xué)家在探索數(shù)據(jù)時使用的一種工具。它們旨在幫助個人發(fā)現(xiàn)數(shù)據(jù)中的趨勢、模式和異常,而不是向他人傳達信息。因此,在探索性可視化中,設(shè)計和細節(jié)通常不是重點,可能會省略標(biāo)題或使用不一致的顏色方案。探索性可視化通常用于數(shù)據(jù)科學(xué)家在數(shù)據(jù)集中查找見解,為后續(xù)分析和建模提供基礎(chǔ)。
- 解釋性可視化:解釋性可視化旨在向特定受眾傳達信息,并支持特定的目標(biāo)或決策。在這種情況下,設(shè)計和細節(jié)變得至關(guān)重要,因為它們直接影響受眾對可視化的理解和解釋。解釋性可視化通常用于報告、演示或決策支持中,其目的是清晰地傳達數(shù)據(jù)見解和結(jié)果,以便受眾能夠理解并采取相應(yīng)的行動。
探索性可視化和解釋性可視化在數(shù)據(jù)科學(xué)中都具有重要作用,但它們的設(shè)計和應(yīng)用方式有所不同,取決于使用場景和目標(biāo)受眾。
關(guān)于可視化參考《如何與數(shù)據(jù)對話:構(gòu)建引人入勝的數(shù)據(jù)故事》
數(shù)據(jù)驅(qū)動世界的動力源自海量數(shù)據(jù),數(shù)據(jù)科學(xué)成為解密數(shù)據(jù)奧秘的方法。統(tǒng)計分析是數(shù)據(jù)科學(xué)的基石,包括描述統(tǒng)計、推論統(tǒng)計和可視化。描述統(tǒng)計概括數(shù)據(jù)特征,假設(shè)檢驗驗證假設(shè),相關(guān)性分析探索變量關(guān)系,回歸分析建模因果關(guān)系,可視化傳達信息。這些方法共同構(gòu)成數(shù)據(jù)科學(xué)探索數(shù)據(jù)世界的工具,幫助我們理解數(shù)據(jù)、發(fā)現(xiàn)價值和見解。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。