網站首頁 美容小常識 享受生活 東方時尚 識真假 高奢 資訊 遊戲攻略 搞笑段子
當前位置:品位站 > 享受生活 > 心理

分光計實驗數據怎麼計算

欄目: 心理 / 發佈於: / 人氣:2.01W
分光計實驗數據怎麼計算

0°0ƌ''÷59°57ཎ'' =6÷(59×60²+57×60+18) =0.0000278=萬分之0.278

在數據分析的道路上越走越遠

陰差陽錯的做了數據分析,而且一開始我還不知道自己在做的是數據分析,看了很多數據分析的書,也走了一些彎路,做了很多實踐項目,突然很想把自己作為一個小白的數據分析之路的成長過程寫下來。

這個系列寫一寫從QC裏面學到的數據分析方法。

上一節,我們針對QC中的現狀調查來簡要説了數據分析的方法論,既然要進行現狀調查,意思就是對現有的情況做分析,那必然得從現有的數據中找問題,當我們有了一大堆數據,又用了方法論進行了背景分析後,就要開始真正對數據着手了——數據處理,也就是把拿到的原始數據經過一系列加工後變成我們想要的數據。

01

數據處理

首先我們要明確,處理數據可能會佔到你數據分析的80%的時間,這意味着你將花大把的時間在理解數據和處理數據上,工欲善其事必先利其器,所以我們要學會一些可以做數據處理的工具,當然這並不是説“術”就一定高於法,要知道,“術”經過密集的培訓,人人都可以在短時間內學會,但“法”是要依靠大量的經驗積累而成,數據分析行業裏總有這麼一個説法:三分技術,七分業務,可想而知,對業務規則的理解和對數據分析方法的琢磨是多麼的重要。另外,Excel是一個非常適合小白入門的數據分析工具,且Excel已經不能用強大來形容,所以入門數據分析就先好好學一下Excel,是很有必要的。

02

重複數據的處理

對於重複數據的處理當然是刪除,但如何找到重複的數據,當然也不是靠數。在excel裏變得簡單許多,如可以用到countif公式、可以用篩選功能、可以用條件格式,最簡單的就是用數據透視表計算某個字段的頻次就可以指定是否重複了。

03

缺失值的處理

對於缺失值的處理,我們可以直接想到的就是刪除以及用其他值替換,沒錯,就是這樣出來,但是首先我們得要弄清楚,為什麼會有缺失,這對我們的行為操作是很深遠影響的,舉例來説,用户年齡這個字段的缺失,是因為用户沒有填而缺失,而有的字段如一些需要公式計算的字段,是因為分母為0了導致的錯誤運算,還有一些則可能是非人為原因導致的缺失,如數據存儲失敗、機器故障等。只有在明確了數據是為什麼缺失的時候,才可以做到“因材施教”,採取不同的對策。

直接刪除。直接刪除帶有缺失值數據的相關所有字段,那麼剩下來的數據就還是完全的,不影響後續的操作,當然缺點是如果缺失數據太大還這樣直接刪除的話,數據量就會變少,同時也就失去了分析的意義。

對缺失值替換。眾數、中位數、平均數、最大值、最小值等都可以用來替換平均值,做法簡單,但是當然這是人為替換的,不能代表數據本身的含義。

04

數據抽取

a)       字段合併

説實話,在數據分析裏合併字段很少見,通常我們是要把字段拆解成不可再細分的最小字段,因為字段合併非常的好做,但是字段拆解就相對來説困難的多了。

b)      字段分列

字段分列不是很好分,但也不是完全沒有方法可尋,excel裏有一個數據分列的功能,基本可以實現80%的需求,那還有20%就慢慢結合函數來做吧。

c)       字段匹配

Vlookup是excel一哥的地位有別的函數不服嗎。有了vlookup已經可以解決我們多少工作中的難題,節省多少時間,提高多少效率,所以什麼text、left、right函數都是鬧着玩的,vlookup一定要用的爐火純青。

05

數據轉換

a)       行列轉換。即轉置。

b)      數據標準化。我們可能要對幾個不同單位的字段統一綜合分析,可能我們會給他們設置權重最後判斷數值的平均得分,那麼就需要用到數據標準化。常用的有(0,1)標準化,和z標準化,(0,1)標準化很好理解,就是把值重新鎖定在(0,1)之間,當然我們還可以通過對公式的簡單變化讓值在(-1,0)、(-1,1)之間都是可以的。Z-標準化則更符合正態分佈的邏輯。

c)       數據計算。通過對原始數據進行簡單的計算,產生更有意義更明確的衍生變量。包括各種Excel的函數,求和、平均啥的這裏就不一一列舉了,用的比較多的vlookup、count、countif以及函數嵌套可以重點掌握以下,excel裏函數嵌套用的驚為天人的話,相信你只用excel就可以做數據挖掘了(手動滑稽一下)。

d)      變量分佈轉換。原始數據分佈偏差太大的,我們會對變量進行取對數、開平方、取指數等操作改善變量的分佈。

06

異常值的判斷和處理

異常值畫個圖可以很明顯的看出來,通常是出現次數少且偏離數據集太大的值,異常值對於平均值的影響是非常大的,如果保留異常值,可能整體的數據都沒法進行分析,但如果直接刪掉異常值,又可能錯失了一個判別動態的好機會。因此對於異常值可能需要我們辯證地看待。我剛入門數據分析的時候,做了一個案例,我把所有的值都打點在地圖上,按某個字段計數,和柱狀圖一樣,值越大,柱狀圖越高,我發現只有一個地方的柱狀圖異常的高,而其他點因為這個異常值的影響,已經看不出來有什麼區別了,但是隻要我把這個異常值給刪掉,整個圖就又變得一片光明瞭,趨勢差異呈現的非常明顯,當時我還不懂這個叫做異常值,我的老大給我講解了一通以後,我變得豁然開朗,且當時按個異常值後來被發現是受設備影響導致的。

先到這裏,後續再補充更新吧。

因為最近恰好在瞭解QC相關的東西,然後發現QC的套路居然能對標數據分析的過程,而且很多數據分析的書裏面都有QC的影子,覺得QC實在是一大神奇的操作,於是剛好結合這個契機,來寫一寫自己對於數據分析的理解,算是總結,也算是學習

Tags:計算 分光計