磨刀不誤砍柴工 資料準備的過程與實踐

2021-09-20 03:44:40 字數 2400 閱讀 5352

眾所周知,我們常用「磨刀不誤砍柴工」來比喻要辦成一件時,不一定要立即著手幹活,而是先要進行一些籌畫和安排,充分做好準備工作,創造出有利條件,這樣不但不會浪費時間,反而會大大提高整體的辦事效率。這個道理在我們做資料分析時也是適用的。在當今資訊科技高度發達的社會很多企業往往不愁沒有資料,但是唾手可得的資料卻不一定可以直接拿來分析,生搬硬套的分析往往失之毫釐謬以千里。

西方人所說的「rubbish in, rubbish out.」反映的也是同樣的現象。

總之,沒有高質量的資料,就不能保證有高質量的資料分析結果。對與統計質量管理而言,如果被分析的資料本身不可靠,很可能就會得到錯誤的分析結果和無效的質量改進方案,不僅會使質量改進工作無功而返,而且還極有可能傷害原有的質量管理水平。如果把資料分析看作砍柴的話,那麼磨刀指的就是資料準備了。

越來越多的專業人士已經開始意識到資料準備的重要性,現在的問題已經不是資料準備要不要做,而是資料準備應當如何做。

那麼,資料準備究竟應當如何做呢?總的來說,可以遵循如圖一所示的五步迴圈法來進行。接下來,我們將逐一解釋每個步驟的含義,具體的例項將借助高階統計質量管理及六西格瑪軟體jmp來實現。

圖一資料準備的五步迴圈法

第一步,獲取資料。

資料是進行分析工作的原材料,獲取資料是資料準備工作的第一步。一般來說,企業常用的資料**可以有四類。以jmp為例,一是通過手工輸入和建立原創資料檔案,這往往在新建資料檔案時採用。

二是從外部讀取,比如讀取excel、ms access、dbase、text、sas以及其他一些格式的現有資料來源,這也是一種常見的方式。三是從大型資料庫獲取,如jmp可以通過odbc訪問現有的大型資料庫檔案,如oracle、db2、sybase、sql server等等,必要時還能呼叫sql命令構建查詢條件,這在資訊化建設比較成熟的企業中應用較多(參見圖二)。四則是直接訪問含有資料**的網際網路主頁來獲取資料。

圖二 jmp軟體中的資料庫訪問介面

第二步,整合資料。

有時候,需要分析的資料儲存在不同的資料檔案中。例如:我們在需要分析今年第三季度的生產資料時,很有可能會發現七月、八月和九月的生產資料分別儲存在三個不同的檔案中;或者需要對產品的兩個質量特性進行關聯性分析時,卻發現這兩個質量特性分別儲存在兩個不同的檔案中。

這時候,我們就有需要做資料整合了。資料整合的方法很多,如連線、合併、堆疊等等。從操作物件上看有行與行的連線(jmp軟體中稱為合併concatenate),列與列的連線(jmp軟體中稱為連線(join))等。

剛才說的第一種情況就適合用「合併(concatenate)」整合資料(參見圖三),第二種情況則適合用「連線(join)」來整合資料。

圖三 jmp軟體中不同資料檔案的「行與行的連線」

第三步,清洗資料。

如同燒菜之前常常要洗菜一樣,分析資料之前常常也要對資料進行必要的清洗。根據資料型別的不同,常用的資料清洗方式可以有兩種。第一種適用於字元型資料(在jmp中稱為列表檢查(list check))。

例如當列變數是「性別」時,列表中的選項可以設定為「男」、「女」,讓軟體自動檢查「性別」列中的所有行記錄,任何不符合這些設定的內容均會被剔除。第二種叫範圍檢查(range check),適用於數值型資料。例如當列變數是「身高」時,範圍可設定為「100<=身高<=200」(參見圖四),讓軟體自動檢查「身高」列中的所有行記錄,任何超出這些設定的內容也均會被剔除。

圖四 jmp軟體中數值型資料的「範圍檢查」

第四步,定義資料。

定義資料是指為了以後的分析工作方便準確,同時預防一些不必要的操作錯誤而在分析資料之前對資料進行的一系列設定,這是乙個內容非常豐富的工作,包括定義建模型別(如連續型(continuous)、保序型(ordinal)、記名型(nominal)),資料格式(如固定小數字型、百分位型、貨幣型、日期型、時間型等),初始資料值(如隨機數、序列資料、缺失值等)以及更多的列性質(如編寫公式、增加注釋、更改值排序、自定義值顏色等)等等(參見圖五)。

圖五 jmp軟體中的資料定義介面

第五步,探索資料。

探索資料實際上是分析資料中最基本但很有效的一種形式,它不強調分析過程的精確性,但強調簡單快捷、通俗易懂、資料發現效率高,快速形成對資料的直觀認識,主要可以通過彙總製表和視覺化方式來實現。彙總製表是指根據分層變數分層後計算各子集資料的均值、標準差、總和、合計百分比和變異係數等統計量,並以直觀的方式顯示(參見圖六)。視覺化是指從簡單的柱狀圖、餅圖、折線圖等到專業的動態多維圖形(如jmp的動態泡泡圖)、三維散點圖、互動式資料探索工具(如jmp的圖形生成器)等多種有效方法。

jmp軟體是進行探索性資料分析(eda)的理想載體,它的互動性和視覺化特徵可以讓探索資料的過程變得非常生動,幫助更直觀地從資料中獲取有價值的發現。

例圖六 jmp軟體中的互動式彙總製表介面

當然,以上的五個步驟並不是每一次資料準備都必須做的,但卻是代表性很強乙個過程。我們可以靈活掌握它的核心思想,在實際工作中根據已有資料的現狀,選擇合適的步驟和實現手法,以起到「事半功倍」的效果,為隨後的資料分析以及基於分析結果的決策打下成功的基礎。

教學反思磨刀不誤砍柴功

在教學 長方體和正方體的認識 時,我把注重學生知識的生髮,生成過程作為教學的重中之重。不把學生體驗化作一句空話。具體體現在孩子們動手的機會特別多,其中包括動手做長方體的紙盒,長方體的框架,長方體的體積單位,專門教授畫簡圖等等。課前任務布置下去,人數較多,總是不能第一時間做齊,我甚至占用課堂時間來做,...

磨刀不誤砍柴工,磨劍鋒刃從今行 高三語文複習第一課

磨刀不誤砍柴工,磨劍鋒刃從今行 高三語文複習第一課 講課人 張友彬 教學目標 樹立自覺學習的意識,強調學習重點。教學流程 高一 二學段的語文學習就像乙個 鑄劍 過程,同學們經過刻苦努力地積累,已經具備了一定的語文素養,鑄就了一把厚重的寶劍。高三階段,就是在高 一 二的學習基礎上,將 鑄好的寶劍 經過...

磨刀不誤砍柴工,37wan龍將非R開服第一天攻略

四 在0點前 最好接近0點 把搖錢樹給搖了,爭取利益最大化,搖錢樹產出銀子與等級掛鉤,所以留到當天最後搖,錢最多。不要把禮券一下子搖完,後面很多要用到禮券的,我一般搖到每次10金幣為止。五 注意強化的特殊時段,可以考慮在特殊時段金幣秒cd 要強化的裝備太多了,時間總是不夠 六 每公升一次軍銜,記得領...