資料分析筆記

這陣子比較有空,想說來看些資料分析的東西,以下是我從網路上整理的一些資料,還沒完成的地方之後有時間會再補上

如何獲取資料

  1. sklearn 內建的 dataset
  2. Kaggle Dataset(包含較多已整理的資料,不需要太多時間對資料做前處理)
  3. Google Map API(好像要$$)
  4. 各種政府提供的 Open data 平台(e.g. 政府資料開放平台台北市政府資料開放平台

MEDIUM 進度 2.3 講

常見的資料分析方法

一、描述統計(敘述統計)

透過對數據資料的圖像化處理,將資料摘要變為圖表,以直觀了解整體資料分布的情況。通常會使用的工具是頻數分布表與圖示法,如多邊圖、直方圖、餅圖、散點圖等。

另外,也可以透過分析數據資料,以了解各變量內的觀察值集中與分散的情況。運用的工具有:集中量數,如平均數、中位數、眾數、幾何平均數、調和平均數。與變異量數,如全距、平均差、標準差、相對差、四分差。

數據的次數分配情況,往往會呈現常態分布。為了表示測量數據與常態分布偏離的情況,會使用偏度、峰度這兩種統計數據。

為了解個別觀察值在整體中所佔的位置,會需要將觀察值轉換為相對量數,如百分等級、標準分數、四分位數等。

缺失值

  • 完全變數: 不含缺失值
  • 三種主要的缺失
    • 完全隨機缺失(missing completely at random, MCAR):數據的缺失是完全隨機的,不依賴於任何變數,不影響樣本的無偏性。(e.g. 家庭地址缺失)
    • 隨機缺失(missing at random, MAR):數據的缺失不是完全隨機的,該類數據的缺失可能依賴於其他完全變數。(e.g. 財務數據缺失情況可能與企業大小有關)
    • 非隨機缺失(missing not at random, MNAR):數據的缺失與不完全變數自身的取值有關。(e.g. 高收入的族群較不願意提供家庭收入)
  • 對於隨機缺失與非隨機缺失,刪除資料是不合適的,隨機缺失可以透過已知數據推估缺失值。
  • 缺失值填充
    • 剔除法(List-wise deletion):如果某筆數據漏了某個屬性的資料,就把該筆數據從分析中剔除。__剔除法在缺失值比例小的話十分有效__。然而,這種方法是以減少樣本量來換取資料的完整性,會造成資源的大量浪費,丟棄了大量的隱藏訊息。
    • 均值法(Mean imputation):如果缺失數據是數值型態的話,就用該屬性的平均數填充缺失值;如果是非數值型態的話就用眾數的概念去填充。但這種方法會產生有偏估計,所以並不被推崇。而且該方法是建立在完全隨機缺失(MCAR)的假設之上,並且會__造成變數的 Variance 與 Standard deviation 變小__。
    • 最近鄰居(就是 KNN 啦,講中文誰知道)
    • 迴歸填充(Regression imputation):對於連續取值的變數,可以利用線性回歸來擬合估計其取值。對於二值變數,可以利用 logistic regression 來估計其取值。
    • 決策樹(Decision tree):利用不缺失某個屬性的樣本訓練決策樹,然後對於該屬性缺失的樣本即可利用訓練所得決策樹來預測所缺失的屬性取值。
    • 熱卡填充(Hot deck imputation):對於一個含有缺失值的變數,__尋找一個與他最為相似的數據並進行填充__,判斷相似與否的標準 depends on 問題本身。利用 hot deck 填充數據後,其 standard deviation 與填充前較為相近。但在回歸函數中,容易使得誤差變大,而且這個很耗時。
    • 多重填充(Multiple imputation): 有點複雜還是直接 google 好了。

常態性檢驗

很多統計方法都要求數值呈現或近似呈現常態分佈,所以得先進行常態性檢驗。

二、假設檢驗

引數檢驗

在已知總體分佈的條件下(一般要求總體呈現常態分佈)對一些主要的引數(如均值、百分數、方差、相關係數等)進行的檢驗。

  • U 檢驗(Z 檢驗):當樣本較大時,樣本符合常態分布。(大三上統計學講義)
  • T 檢驗:當樣本較小時,樣本符合常態分布。(大三上統計學講義)
  • 單樣本 T 檢驗:推斷該樣本來自的總體平均 μ 與已知的某一總體平均數 μ0(通常為理論值或標準值)有無差別。 (不懂)
  • 配對樣本 T 檢驗:當總體均數未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面極為相似。 (不懂)
  • 獨立雙樣本 T 檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。 (不懂)

非引數檢驗

不考慮總體分佈是否已知,常常也不是針對總體引數,而是針對總體的某些一般性假設(e.g. 總體分佈的位罝是否相同,總體分佈是否常態)進行檢驗。

  • 適用情況: 順序型別的數據資料,這類資料的分佈形態一般是未知的。
  • 雖然是連續資料,但總體分佈形態未知或者非正態
  • 總體分佈雖然常態,資料也是連續型別,但樣本容量極小(10 以下)
  • 主要方法 (全部晚點查)
    • 卡方檢驗
    • 秩和檢驗
    • 二項檢驗
    • 遊程檢驗
    • K-量檢驗等

三、信度分析

檢查測量可信度。(e.g. 調查問卷的真實性)

外在信度

不同時間測量時,量表的一致性程度。

常用方法 -> 重測信度: 將同一個測驗重複施測於同一樣本上。施測時間不同,但是方法一樣。求出各時間所得的測驗分數之相關係數,又稱為「再測信度」

內在信度

每個量表是否測量到單一的概念,同時組成兩表的內在項目一致性如何。

常用方法 -> 分半信度: 通常是在不準備重測的情況下,我們就用分半信度來計算信度係數。(e.g. 如果有一份問卷,其中有十個問題涉及到女性歧視現象。利用分半信度時,可將十個問題隨機分成兩組,每組有五個問題,然後根據每組的測量結果來計算兩組的相關係數。)

四、列聯表分析

用於分析離散型變數或定型變數之間是否存在相關性。

對於二為數據,可以用卡方檢驗。

對於三維的數據,可以用 Mentel-Haenszel 分層分析。(參考資料一)(參考資料二

五、相關分析

研究__現象之間__是否存在某種依存關係,對具體有依存關係的現象探討相關方向及相關程度。

單相關

兩個因素之間的相關關係叫單相關,即研究時只涉及一個自變數一個因變數。

複相關

三個或三個以上因素的相關關係叫複相關,即研究時涉及兩個或兩個以上的自變數和因變數相關。

偏相關(淨相關、純相關)

在某一現象與多種現象相關的場,當假定其他變數不變時,其中兩個變數之間的相關關係稱為偏相關。

六、變異數分析(方差分析)

使用時機: 各樣本必須是互相獨立的隨機樣本,各樣本來自常態分佈的母體,各母體變異數相等。(參考資料一

單因素變異數分析

一項檢驗只有一個影響因素;或者存在多個影響因素時,只分析一個因素與響應變數的關係。

多因素有互動變異數分析

一項實驗有多個影響因素,分析多個影響因素與響應變數的關係,__同時考慮多個影響因素之間的關係__。

多因素無互動變異數分析

一項實驗有多個影響因素,分析多個影響因素與響應變數的關係,__但是影響因素之間沒有關係或忽略其中的關係__。

七、迴歸分析

一元線性迴歸分析

__只有一個自變數 X 與因變數 Y 有關__,自變數 X 與因變數 Y 的關係就是一個二元一次方程式,X 與 Y 必須是連續型變數,因變數 Y 或其殘差必須呈現常態分佈。

多元線性迴歸分析

__分析多個自變數與因變數 Y 的關係__,X 與 Y 必須是連續型變數,因變數 Y 或其殘差必須呈現常態分佈。

以下全部都要查

  • 變數篩選方式: 選擇最優迴歸方程的變數篩選法包括全模型法(CP 法)、逐步迴歸法、向前引入(選取)法、向後剔除(選取)法。
  • 模型診斷方法
    • 殘差檢驗:觀測值與估計值的差值必須呈現正態分佈。
    • 強影響點判斷:尋找方式一般分為標準誤差法、Mahalanobis 距離法。
    • 共線性診斷
      • 診斷方式:容忍度、方差擴大因子法(又稱膨脹係數 VIF)、特徵根判定法、條件指標 CI、方差比例。
      • 處理方法:增加樣本容量或選取另外的迴歸如主成分迴歸、嶺迴歸等。

以上全部都要查

Logistic 迴歸分析

線性迴歸模型要求因變數是連續的常態分佈,且自變數和因變數之間呈線性關係,而 __Logistic迴歸模型對因變數的分佈沒有要求__,一般用於因變數是離散時的情況。

八、聚類分析

待補

九、判別分析

待補

十、主成分分析

待補

十一、因子分析

待補

十二、時間排序分析

待補

十三、生存分析

待補

十四、典型相關分析

待補

十五、ROC 分析

待補

十六、其他分析方法

待補

Reference