觀點丨為什么38號和婦科張的油耗測試不能相信?
這個事情爭論的核心很簡單:婦科張和38號贊同的普拉多單次油耗同工況測試可信嗎?
知乎一些網友的答案是這次測試的結果不可信,因為不符合小熊油耗的值。
38信徒的反擊是:1、同工況就是可信的;2、小熊油耗不可信,因為有人故意輸入異常值。后者好像作為吵架,撕逼的邏輯完美,但是,作為一個本科概率統(tǒng)計過了60分的前理科生,我的答案是網友們是對的,38和婦科張不可信。
首先從基本概念開始:
第一, 樣本值、測量值、總體。
提問:這個案例中38號測試的成績是那個?
我想大家不會說是總體,主要的爭議在于樣本和測量值,答案是38的測試屬于測量值(觀察值),而小熊油耗上普拉多車主自爆油耗值屬于普拉多車型的樣本值,根據這個樣本值,我們可以按照統(tǒng)計學原理推定普拉多車主的總體油耗區(qū)間(依據是大家都知道的正態(tài)分布假設,即所有車型無論影響油耗的變量為何,都遵循正態(tài)分布,38們可以不承認,因為可能地球上的自然規(guī)則對他們不起作用了)
接下來就要反駁38信徒對小熊油耗的質疑了,還是這個正態(tài)分布起作用,如果有人故意輸入偏誤油耗那么就會出現統(tǒng)計值上的均值、眾數、中位數這三個樣本統(tǒng)計量的偏離,而對于這類偏誤明顯的油耗數據的車型,小熊不會報告,那么這三個值重合數據就沒問題了嗎?如果不放心,還可以根據樣本數據做個正態(tài)分布的假設檢驗,但是50個樣本以上的樣本值,我們經驗估計已經可以了,假設檢驗也不難,隨便找個統(tǒng)計軟件就能做,具體在小熊油耗的官微有;
第二,邏輯。
我憑什么說他們這個測試不可信呢?
還是根據正態(tài)分布,回到上面說的三個概念,我們如何判定一次測量的值有效與否?如果你有了普拉多的樣本分布那么就可以利用小熊油耗報告的樣本區(qū)間估算出總體數值范圍,怎么算呢?根據樣本值推算出的方差開平方得到標準誤差SD,然后觀察值在樣本中的分布范圍就出來了,由于正態(tài)分布的樣本和總體是有推定邏輯關系的,所以也可以用這個SD估算某一次測量值在總體分布中出現的概率,也就是大家都知道的95%的置信度;那么結論來了,小熊油耗的普拉多車主平均油耗是12L(往下取,照顧婦科張)方差是1.54,標準誤sd是1.24,95%置信度區(qū)間為12正負兩個sd,為9.76--14.48(見小熊給出的官微圖),所以張婦科這個數據出現在統(tǒng)計范圍內的概率極低,屬于一個異常值,你如果試圖判斷普拉多的油耗,這個值毫無用處。(這一步大部分人還是能接受的,我只是做了理論說明)
第三,假設檢驗。
這是關鍵的一個邏輯推定,為什么VV7S和普拉多的油耗可以比?
38號和粉絲們一再強調我的工況相似度如何如何,那么問題回到了比較研究的基礎,為什么能比?不是因為有差別,而是因為有太多的共同點,所以可以比。哎,38這不對了嗎?且慢,我們來看看這個邏輯推定中存在的假設檢驗到底怎么來的:
H1:同等工況下兩臺車油耗數據對照各自總體數據有可信度;
H2:在H1成立前提下兩組數據具備可比較性;(這個可比性問題38都解釋了,開森,不用我費口水了)
看明白了?這個數據的比較并非是簡單的測量值比較,而是多了一個可信度?怎么回事?因為問題回到了我們開篇就說明的概念,如果你只是比較這兩個測量值,ok,沒問題,但是請不要做超出測試的任何判定,這就是兩個數值,只對這兩臺車有意義。
如果是想說在同等工況下長城的油耗比普拉多高,那么就意味著你試圖用這個檔次測量值去推導樣本值,再用樣本值推定總體,麻煩來了,請你符合統(tǒng)計推斷要求下的假設檢驗,所以就變成了我上面提出的H1和H2,首先你要檢測這兩個數據值在統(tǒng)計樣本里面可信不可信,慘慘慘,普拉多已經不能信了,那么長城能嗎?我不知道,因為我不知道長城的樣本值范圍啊,但是H1已經被否定了,因為你用了一個統(tǒng)計上不可信的異常值,并試圖用這個值代替普拉多的油耗均值,這是違背了統(tǒng)計推斷的原理的,是不行滴;那么長城呢?也許長城的值正好落在了置信度區(qū)間內,也許不在,但是不關鍵了,因為作為對比的普拉多數據已經有問題了,是不可信的數據值了,沒法做推斷用了,H2已經不用繼續(xù)討論的啦。
所以結論很明白了:
1、小熊油耗是可信的,因為有統(tǒng)計原理和假設檢驗的支撐;
2、婦科張的油耗測試值不在已知樣本的置信度區(qū)間內,屬于異常值,不能作為有效值進行進一步的推斷使用(就是38們想證明的H2成立并得出兩車油耗結論);
大結論:理科生也要懂統(tǒng)計,不然就是半文盲。
你輕輕一贊
是我大大的動力