大數據估算,中國三年疫情死4億(上)

作者:鳳鳴、雲俠

 

圖 1:2020 年 1~2 月新冠爆发,中国手机用户骤减数量(网络截图合成)

在《武漢疫情2020,死亡被嚴重低估》中,我們以武漢骨灰盒實發半年,而不是12天,重估武漢2020年封城兩個月,死亡至少25.3萬人,是中共外宣數字的100倍。本篇開始,以大數據估算三年疫情的死亡數,揭開被中共掩蓋的真相。

在重重造假中發現真相,得用破案的思維,要在蛛絲馬跡中找端倪,如果隨大流,只能是被中共的謊言淹沒,就像這次打了毒疫苗加重了疫情。

(一)疫情前兩個月,全國死了多少人?

1. 疫情迅速傳遍全國、世界

圖 2:2020年1月下旬武漢疫情初期,前線醫生實名為醫院募捐防護用品,播報病毒1傳14(視頻截圖)

武漢原始毒株的傳播力,中共官宣平均1人傳給2~3.2個人,即R0=2~3.2。這個數字遭到世界質疑,美國洛斯阿拉莫斯國家實驗室2020年研究表明武漢毒株R0=5.7[1],這還是在中國極力掩蓋、造假後的數據基礎上研究出來的。

上圖一線醫生透露的R0=14,應該真實可信。

圖3:英國研究者大數據繪製6萬武漢逃難者的旅行路線圖,預測瘟疫的世界性爆發。

上圖只是6萬離漢人員手機漫遊數據,武漢疫情期間離、逃的500萬人,包括從武漢回家過年的130.1萬各地大學生。在R0=14的超強傳播力下,瘟疫迅速席捲各地。

2. 手機號驟減,闢謠兩打臉

2020年3月22日,《中國手機用戶暴減1400多萬人去哪了?》引發了熱議,1~2月,大陸手機用戶減少1400萬,因為與疫情大爆發高度相關,引起驚恐。

馬上有人闢謠,說和疫情無關,應該是:「年底換工作,手機正常轉網」——好像很有規律。因為當時中國聯通2月份的業績報表還沒出來,如果他們的手機用戶大大增加了,那就是轉網了。於是驚恐暫歇,存疑待機。

這種維穩闢謠,顯然又在掩蓋真相,因為沒有那樣的規律。近年來大陸手機用戶一直在上升,以2019年數據為例。

表1:2019年手機出帳用戶增加量(萬)

上表只有聯通在後三個月用戶小降(紅色數字),但橫向的移動、電信在增加,這就是「轉網」,用戶轉到那兩家去了。但是整體上,三大家的用戶都在增加,而2020年極度反常。

隨著2月聯通數據的姍姍來遲:銳減-660.1萬戶,同比去年的增量,三家都在減少,往哪裡轉網呢?是純消失!

號碼海量消失,媒體又闢謠說是消號:很多人有兩個手機號,到營業廳消了一個號。

——深入分析,這次闢謠也不成立,原因有四:

(1)雙卡用戶並不多,畢竟中國大陸有6億人月收入不足1000元,養兩個號養不起。

(2)中產階級重視社交圈的信譽,長年不換手機號,大部分都只用一個號。

(3)異地打工的人、外地上學的人,常有雙號,本地一個號,外地一個號,突來的疫情,前2個月並沒有造成全國的失業潮,不會消號。而且怕傳播疫情不回家過年,也無法在外地消掉老家的手機號。

(4)還有一部分收入比較高的年輕人用雙號,既然收入高,會在乎「同網副卡」一個月多花10元錢嗎?而用「異網雙卡」的人是更有錢的,會在意每月多花二三十元錢嗎?顯然不會。

1~2月,在家過年,娛樂休閒、炫耀體面的時候,手機用戶增加才正常(往年都是這樣),減少就極為不正常,可見兩者的關聯。所以,手機號的消失,宏觀上應該對應疫情減員死亡。

2月份的手機出帳帳單,是3月份發出的。2月去世,手機當月銷號,才不會在3月份再扣費,這樣3月就沒有該號的帳單了。所以,2月手機號的銳減,一般是代表當月的死亡。

3. 1個手機號,對應幾個人?

圖1的手機號減少數量,納入表4,這2107萬手機號,代表多少人?

表2:2020年手機出帳用戶,負值減少(萬)

最直接的估算法,就是問卷調查,抽樣一個涵蓋各個年齡組的群體,調查出多少人有兩個號、多個號,多少人只有1個號,多少人沒有手機,算出平均值,就能估算2107萬手機號代表多少人。但是很難做到,因為未成年、小學生、老人很難被抽樣到,咋辦?

其實有更簡單的辦法。因為取樣地域分布越廣、人數越大,越準確。當取樣擴大到全國時,就成了全國手機號與全國人口之比例了,這個最大的大數據是有的。2019年12月手機出帳用戶總數:移動9.503億,電信3.356億,聯通3.185億,總計16.044億戶,2019年末中國人口官宣14.0005億人,所以:

全國平均:16.044億號/14.0005億人=1.146號/人。

4. 手機號估算,死亡幾千萬

至此可算出,2020年1月的-161.8萬號,相當於減少141萬人,2月的-1946萬號,相當於減少1698萬人,兩個月減少人口141+1698=1839(萬人)。

表3:2020年全國手機號與人口變化,負值減少(萬)

同比2019年1、2月,同比歷年都可以看出,手機號增加是趨勢,而2020年在增加趨勢上,手機號銳減,所以實際減員更多,如果減去2020年原本應該增加的數量的話(以2019年計),1、2月死亡就約965.2萬、2222.7萬!

大陸疫情期間,沒有手機號寸步難行,所以,這些手機號的減少,應對應全國的疫情死亡。

(二)疫情、促銷使手機號暴增,但疫情死亡仍在進行

1. 理想的4月份即結束的疫情峰

圖4:假設2020年4月即結束的理想狀態下的全國新冠疫情死亡人數模型。

在設想2020年4月即結束的理想狀態下,新冠疫情死亡人數模型,應如上圖的正態分布(鐘形)曲線,兩邊對稱,那麼3月份的死亡人數,也應該是965.2萬人,三個月共減少4153萬人。

這樣全國此次疫情峰的死亡率,3個月平均每月:(965.2萬×2+2222.7萬)/14.0005億/3=0.99%

比2020年疫情武漢封城前兩個月,月均死亡率1.68%低,是正常的。

注意,死亡率(mortality)和致死率(病亡率,fatality)是兩個不同的概念,死亡率=致死率×染病率。不能用國外的致死率和這裡的死亡率相比。在《武漢疫情2020,死亡被嚴重低估》中,已有詳述。

2. 疫情封控,手機號大增

疫情封控,全國各地開始讓學生在家上網課,導致2020年3月開始手機號大增。很多家庭從經濟上考慮,讓孩子用智能手機(遲早要用)上網課,不置備電腦。

表4:2020年3~12月手機出帳用戶增加量(萬)

從小學一年級到高三,全國各地都陸續開始上網課。加上健康碼,行程碼,逼得很多老年人不得不使用智能手機,手機號碼再次暴增,已經無法從手機帳號數量上估算疫情了。即使這樣,到2020年底,3~12月共增加了1546.2萬帳戶,也只有疫情前2019年增量的1/4,足見疫情減員、死亡仍然在繼續。

2020年3~12月的總業績,移動帳號淨減24.3萬,聯通淨減少489.5萬,只有電信大增2060萬。用戶下滑跌意味著未來發展下滑,事關三大公司的股票。2021年開始,三大家開始競相促銷拉人。

升級套餐送大禮,預存話費送大米,副卡號免費,雙號互打免費,這等於白給一個號,給老人用做親情號很划算……種種大禮促銷下,很多人選擇了加一個副卡,作為親情號,導致手機號暴增。全國手機號2021年增4730萬,2022年增3768萬,還是趕不上2019年增加的6121.7萬,可見疫情死亡還沒停息。

3. 實際新冠死亡率,類似以色列致死率曲線

圖5:以色列和印度的新冠疫情致死率曲線,類似中國實情。

上圖印度、以色列的新冠疫情致死率曲線,並不是正態分布曲線的鐘形,因為疫情沒結束,死亡在延續。

中國的疫情實際情況也是這樣,疫情持續,曲線右半部沒有下來,如以色列的降峰後延伸,減員繼續,只是再無法從手機號上判斷具體數值。

(三)大數據估算的準確性

大數據估算不拘於細節,儘管會有不可避免的誤差,但是可以迅速從宏觀上把握方向。

圓周率π=3.141592653……,手工計算又繁又難,祖沖之的割圓術誰會?可是用大數據概率算法就簡單,在一個圓筒裡畫個正方形,往裡扔個豆子,計數落在方裡還是方外,扔足夠次數後,以概率就能算出π值,數據越大,結果越準確。這個實驗也證明了,數據越大,越能抵消各種偏差,越接近真實。

(四)上海公安數據庫泄露,震驚世界

1. 上海公安數據庫泄漏

圖6:上海公安數據泄漏事件的維基百科介紹截圖。

2022年7月初,上海公安數據庫泄露事件曝光,引起軒然大波。事發在2022年6月中旬,一個黑客盜取了上海公安一個開放的數據庫,其中有9.7億人的身分證號、電話、住址、性別,還有一些人的犯罪記錄、報案記錄等信息,他刪除了該數據庫,在網上以10比特幣(約20萬美元)價格出售。

2. 黑客放出樣本,媒體率先訪問

黑客還在網上發布了一個75萬行的樣本,分為三個文件,「身分證相關信息文件」、「報案記錄文件」、「地址電話」文件,各25萬行,互不重複,任憑買家核實準確性。

這三個文件大小之和只有560M,放大9.7億/25萬=3880倍後,只有2.07TB,不到黑客盜取數據23.88TB的9%,可見他只是從中篩選了部分數據,構建了這三個文件樣本。

多家外媒開始驗證。《紐約時報》通過樣本的電話,聯繫到9個人,不但證實了姓名身分,還證實了其中記錄的細節。澳廣ABC中文電話採訪詢問20名中國公民,都確認了數據庫記錄的真實性。其它媒體也紛紛追逐這個新聞熱點。

3. 聚焦人口銳減

這是有史以來最大的數據泄露事件,媒體聚焦在數據和個人信息安全,專家關注的卻是人口銳減。如果中國公安賴以工作的動態數據庫裡,只有9.7億行身分證信息,意味著只有9.7億有身分證的人,中國人口就太少了——人口紅利不在,經濟就要滑坡,對華投資就會血虧。

於是各路專家展開了對「身分證相關文件」的真偽辨析。

圖 7:黑客盜取數據庫給出的25萬人樣本中,各年人口數量圖。

(五)聚焦黑客樣本,多方專家認證

1. 多方驗證,各顯神通

學者們對黑客樣本的身分證信息,開啟了多角度評估驗證。

(1)數據真實性:隨機選取100項經阿里API接口驗證,結果皆為真(數據庫放在阿里雲上)。

(2)按姓氏分類,王李張最多,分別占7.32%、6.69%、6.56%,與公安部《二〇二〇年全國姓名報告》 中所列數據一致。

(3)1958~1960年大饑荒出生人口銳減,1990年代嬰兒潮,近年來出生率降低,都在樣本中反映出來。

筆者在製圖中還發現:

(4)逝者占位,中國特色:看上圖,101~122歲老人持續「增加」,歲數越大,「人」越多,明顯是逝者身分證在「搗亂」。近些年來很多人有保險、社保,需要銷戶證明才能辦理,早先沒有這些,越往前制度漏洞越多,逝者占位越多。

有人不給去世老人銷戶口,導致逝者戶口、逝者身分證常在。原因有:

①繼續替老人領退休金,或憑戶口領補貼,近幾年才開始「刷臉認證」,堵住缺口。

②到派出所銷戶沒有任何好處,以前有人到單位領完喪葬費,就不銷戶了。

③銷戶沒有時間限制,心情不好拖來拖去,看到不銷戶也沒人管,乾脆就放著。

逝者占位,戶籍警也頭疼,以前也發文通知要清理,但是處理的比例很小,百姓不配合,公安公信力太低。

(6)16歲以下的比例符合國情:中國大陸16歲以上必須辦身分證,16歲以下不要求辦,1歲以下不建議辦(不建議出國,一般不給辦)。樣本中1歲以下身分證為0,1~15歲身分證比例少(有些人給小孩辦身分證,為買火車票方便,出國方便)。

(7)去掉樣本中的16歲以下身分證數量,去掉101歲以上老人的身分證數量,以16~100歲年齡段比例,和當年中國人口比例對比,見下圖,兩者比例、升降趨勢非常相近。

圖8:樣本16~100歲年齡段人口比例,與2022年中國人口年齡段比例極為近似(作者製圖)

經過上述7方面和之前媒體的驗證,可見這個25萬數據庫樣本為真,在9.7億行公民身分信息中取樣隨機性很強,很有代表性。

這個25萬身分證信息的樣本,只能是計算機隨機抽取數據生成的,任何人為干預,都會干擾數據比例的真實性,會被識破、被質疑為假,那樣數據庫就賣不動了。因此,也能印證黑客盜走的9.7億行身分信息的大數據是真實的。

2. 逝者占位,表明人口早已減少

根據大陸統計2020年10月中國大陸百歲老人40,592人,2020年人口以官宣的14.12億計,百歲老人占0.00287%,以此為基礎計算。

黑客樣本中:100~122歲老人10,959人,占比4.384%,推算9.7億數據庫中,逝者占位人數至少:

9.7億×(4.384%-0.00287%)=4,250萬人,是2020年百歲老人的1,047倍!

中國平均年齡77歲,所以逝者占位不只是百歲老人才有,其它年齡段也有,這可能是人口學家長期質疑中國人口真實性的一個原因,長期灌水。

3. 挖掘信息,「丟」人3億

這樣,我們可以從9.7億行身分證信息中,挖掘真相了。

(1)逝者占位,已存在幾十年了,中共給出的數據,一直是包含它的灌水數據,所以有時計算還不能剔除它,只有計算最終真實人口時,才能剔除。

(2)去掉16歲以下身分證信息。黑客樣本中,1~15歲占5.821%。

(3)25萬人口樣本,16歲以上人口為:25×(1-5.8212%)=23.545(萬,含逝者占位)。

(4)據2022年人口統計,0~15歲占總人口的17.97%,那麼16歲以上就占82.03%(含逝者占位)。

所以,根據25萬人口樣本,推算全年齡段人口為:23.545/82.03%=28.70(萬,含逝者占位)。

因為樣本分散性極好,能基本代表9.7億行數據庫情況,所以總數據庫約代表全國全年齡段人口:

9.7億/25×28.70=11.14億(含逝者占位),與中共官宣的14.12億人(含逝者占位)相比,「消失了」2.98億人(不含逝者占位,兩者相減,減掉它了)。

此時三胎已經開放,大力刺激人口增長,消失的人哪裡去了?解釋為疫情減員,類似下圖的疫情實際曲線,死亡在持續。

圖9:以色列和印度的新冠疫情死亡曲線,類似中國實情。

[1] Steven Sanche, et al., High Contagiousness and Rapid Spread of Severe Acute Respiratory Syndrome Coronavirus 2, Emerg Infect Dis., 2020 Jul;26(7):1470-1477.

doi: 10.3201/eid2607.200282

(未完,待續)

(轉自大紀元/責任編輯:王馨宇)

相關文章
評論
新版即將上線。評論功能暫時關閉。請見諒!