安徽省各地區經濟發展和居民經濟生活水平分析

統計軟體的應用和開發

姓名：蘇賀

班級：數學 091

學號： 3090801126

****： 152********

目錄摘要 3

一、研究目的： 4

二、理論知識： 4

2.1主成分分析 4

2.2聚類分析 6

三、資料的預處理： 9

四、具體模型 9

4.1資料輸入 9

4.2 主成分分析 9

4.3 聚類分析 10

五、計算結果及分析 10

5.1 資料輸入 10

5.2 主成分分析 11

5.3 聚類分析 12

5.4 結果分析總結13

參考文獻 15

附錄 16

摘要：本文利用多元統計分析中的因子分析法，選用8個主要經濟指針對安徽省各地區經濟發展和居民經濟生活水平進行了綜合評價和分析。。

關鍵字：地區經濟發展居民經濟生活水平主成分分析法聚類分析法

隨著社會主義市場經濟不斷完善，安徽省各市經濟發展水平不斷提高，人民經濟生活水平也在日益改善。但在發展的另一種趨勢也明顯起來，即安徽省各市之間的經濟發展水平兩級分化程度不斷加大，某些市出現經濟發展水平與居民經濟生活水平不相協調的現象。本文通過運用統計分析學的相關知識以及sas軟體的運用，對安徽省17個城市的7項經濟指標進行分析，比較城市之間經濟水平之間的差異，分析居民收入的總體情況。

以便於了解本段開始提到的問題。

主成份分析(principal components analysis)是研究如何將多個變數指標間的問題化為較少的幾個新指標問題。這些新的指標是彼此既互不相關，又能綜合反映原來多個指標資訊，是原來多個指標的線性組合。多指標的主成份分析常被用來尋找判斷某種事物或現象的綜合指標，並給綜合指標所蘊藏的資訊以恰當解釋，以便更深刻地揭示事物內在的規律。

這種處理問題的方法就稱為主成份分析或主分量分析，綜合後的新指標則稱為原來指標的主成份或主分量。主分量分析還可用於揭示變數間的共線性。

2.1.1主成分分析的數學模型

設有n個樣品（多元觀測值），每個樣品觀測p項指標（變數）：x1，x2，…，xp，得到原始資料資料陣：

其中xi = (x1i，x2i，…，xni)'，i = 1，2，…，p。

用資料矩陣x的p個列向量（即p個指標向量）x1，x2，…，xp作線性組合，得綜合指標向量：

簡寫成：fi = a1ix1 + ai2x2 +…+apixp i = 1，2，…，p

為了加以限制，對組合係數ai' = (a1i，a2i，…，api)作如下要求：

即：ai為單位向量：ai'ai = 1，且由下列原則決定：

1) fi與fj（ij, i, j = 1, …, p）互不相關，即cov(fi，fj) = ai'ai = 0，其中σ是x的協方差陣。

2) f1是x1，x2，…，xp的一切線性組合（係數滿足上述要求）中方差最大的，即

其中c = (c1，c2，…，cp)』

滿足上述要求的綜合指標向量f1，f2，…，fp就是主成分，這p個主成分從原始指標所提供的資訊總量中所提取的資訊量依次遞減，每乙個主成分所提取的資訊量用方差來度量，主成分方差的貢獻就等於原指標相關係數矩陣相應的特徵值i，每乙個主成分的組合係數：ai = (a1i，a2i，…，api)，就是相應特徵值i所對應的單位特徵向量ti。方差的貢獻率為i越大，說明相應的主成分反映綜合資訊的能力越強。

2.1.2使用princomp過程進行主成分分析

1. princomp過程的功能簡介

1) princomp過程計算結果有：簡單統計量，相關陣或協方差陣，從大到小排序的特徵值和相應特徵向量，每個主成分解釋的方差比例，累計比例等。

由特徵向量得出相應的主成分，用少數幾個主成分代替原始變數，並計算主成分得分。

2) 主成分的個數可以由使用者自己確定，主成分的名字可以使用者自己規定，主成分得分是否標準化可由使用者規定。

2. princomp過程的格式

princomp過程的常用格式如下：

proc princomp 《選項列表》;

var 變數列表;

[weight 變數列表;]

[freq 變數列表;]

[partial 變數列表;]

[by 變數列表;]

run;

1）輸入資料集可以是原始資料集、相關陣、協方差陣等。輸入為原始資料時，還可以規定從協方差陣出發還是從相關陣出發進行分析，由協方差陣出發時方差大的變數在分析中起到更大的作用。

2) 該過程還可生成兩個輸出資料集：乙個包含原始資料及主成分得分，它可作為主成分回歸和聚類分析的輸入資料集；另乙個包含有關統計量，型別為type = corr或cov的輸出集，它也可作為其他過程的輸入sas集。

聚類分析實質上是尋找一種能客觀反映元素之間親疏關係的統計量，然後根據這種統計量把元素分成若干類。

2.2.1聚類分析的一般模型

設有n個樣品(多元觀測值)，每個樣品測得m項指標(變數)，得到觀測資料xij（i=1,…,n；j=1,…,m），如表所示。

圖2-1

表2-1中資料又稱為觀測資料陣或簡稱為資料陣，其數學表示為：

其中列向量xj = (x1j，x2j，…，xnj)'，表示第j項指標（j = 1，2，…，m），行向量x(i) = (xi1，xi2，…，xin)表示第i個樣品。

2.2.2兩種聚類分析

根據分類物件的不同，聚類分析分為兩種：

(1) 樣品聚類：樣品聚類是對樣品（觀測）進行的分類處理，又稱為q型分類，相當於對觀測資料陣按行分類。

(2) 變數聚類：變數聚類是對變數（指標）進行的分類處理，又稱為r型分類，相當於對觀測資料陣按列分類。

兩種聚類在形式上是對稱的，處理方法也是相似的。

2.2.3聚類分析的方法

聚類方法大致可歸納如下：

(1) 系統聚類法（譜系聚類）

先將l個元素（樣品或變數）看成l類，然後將性質最接近（或相似程度最大）的2類合併為乙個新類，得到l – 1類，再從中找出最接近的2類加以合併變成了l – 2類，如此下去，最後所有的元素全聚在一類之中。

(2) 分解法（最優分割法）

其程式與系統聚類相反。首先所有的元素均在一類，然後按照某種最優準則將它分成2類、3類，如此下去，一直**到所需的k類為止。

(3) 動態聚類法（逐步聚類法）

開始將l個元素粗糙地分成若干類，然後用某種最優準則進行調整，一次又一次地調整，直至不能調整為止。

(4) 有序樣品的聚類

n個樣品按某種因素（時間或年齡或地層深度等）排成次序，要求必須是次序相鄰的樣品才能聚在一類。

其他還有：有重疊聚類、模糊聚類、圖論聚類等方法。

2.2.4系統聚類法的基本思想

設有n個樣品，每個樣品測得m項指標。系統聚類方法的基本思想是：首先定義樣品間的距離（或相似係數）和類與類之間的距離。

一開始將n個樣品各自自成一類，這時類間的距離與樣品間的距離是等價的；然後將距離最近的兩類合併，並計算新類與其他類的類間距離，再按最小距離準則並類。這樣每次減少一類，直到所有的樣品都並成一類為止。這個並類過程可以用譜系聚類圖形象地表達出來。

2.2.5系統聚類法的基本步驟

(1) 資料變換

為了便於比較或消除量綱的影響，在作聚類之前常常首先要對資料進行變換。變換的方法有中心化變換、標準化變換、極差標準化變換、極差正規化變換、對數變換等。最常用的標準化變換為：

其中j = 1，2，…，m。

變換後的資料，每個變數的樣本均值為0，標準差為1，而且標準化變換後的資料與變數的量綱無關。

(2) 計算n個樣品兩兩間的距離：選擇度量樣品間距離的定義，計算n個樣品兩兩間的距離，得樣品間的距離矩陣d(0)。

(3) 聚類過程：首先n個樣品各自構成一類，類的個數k = n：gi = （i = 1，…，n），此時類間的距離就是樣品間的距離（即d(1) = d(0)）。

令j = 2，…，n，執行如下並類過程：

1) 合併類間距離最小的兩類為一新類（類間距離參見下文「系統聚類分析的方法」）。此時類的總個數k減少1類，即k = n – j + 1。

2) 計算新類與其他類的距離，得新的距離矩陣d(j)）。

安徽省各地區經濟發展和居民經濟生活水平分析

中國各地區凍土深度

各地區駐京辦一覽

各地區多舉措強化村幹部監督管理

安徽省各地區經濟發展和居民經濟生活水平分析

中國各地區凍土深度

各地區駐京辦一覽

各地區多舉措強化村幹部監督管理

相關推薦