拾起你的玻璃心 - 讀「數據、謊言與真相」

By Lady R

這本書買了很久,約莫是在中文版剛上市的時候吧!但一直被我擱置在書櫃中,可能是因為先前工作動不動就會提到「大數據」3個字,雖然當初的確是受到吸引才買的,但一身反骨就是不想打開它,直到現在在家當主婦才肯翻開

這本書的中文書名全名叫「數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目」,乍看書名可能有人會以為全書是以Google研究分析報告來作為主軸,但實際上作者並不是只有用Google來分析,英文原名「Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are」比較能完整陳述這本書的內容,作者的觀察研究引用了許多的數據來源,除了網路上的資訊外,甚至包含了原本收藏在檔案櫃或文件中的資料,經由數位化後成為數據的來源,並強調(也是我最愛的陳述):「大數據革命跟蒐集更多數據無關,而跟蒐集正確數據有關……網路不是唯一可以蒐集到新型數據、以及取得具有強大破壞性成效的正確數據之處。」

全書揭露了許多有意思的真相和例證,因為內容相當有連貫性,礙於不要讓全篇太長,隨機挑選幾項較為簡短的論述如下,很多你可能早已經知道:

1.   新聞報導內容愈正面積極,就愈可能被瘋狂轉寄(注意,是「正面」的喔!)

2.   人們在現實生活中約有1/3的時間在說謊,因為人們還是希望保持自己的良好形象,這種習慣在接受調查時當然也會出現(突然想起從前的老闆揪集我們這些小頭填寫一份提供給某國際知名大研究機構問卷的景象……

3.   網路比較接近完全去除歧見,而不是完全隔離(所以同溫層是自己創造的??因為有人動不動就說要封鎖對方??? 作者沒講,但或許可以看接下來作者的觀察自己推敲),許多持強烈政治觀點的人會造訪觀點對立的網站……,政治迷們不會把自己侷限在同樣立場的網站,……跟現實生活的社交相比,臉書可能引起更多元化的政治討論。……平均來說,人們在臉書上的朋友人數,比在實際生活中的朋友人數還多,而且由臉書促成的這些薄弱關係,更有可能存在於政治觀點對立者之間。

4.   我們不能盲目相信政府的數據(無法再同意更多了)……可能是數據蒐集方法有缺失造成的假象(恩哼)。事實可能不是那樣,有時事實甚至可能更黑暗。

5.   臉書數據並非事實,因為在社群媒體上,就跟任何形式的受訪調查一樣,沒有說實話的誘因

6.   網路上有大量的子集相當受歡迎,但這些子集在社群媒體中的曝光量卻很低

7.   個人個性成形時期搬到適當的城市,確實對個人前景產生重大差異

8.   颶風來襲前,Walmart的草莓塔塔餅會熱賣(列這點純粹是因為個人愛吃,但沒查到這種草莓塔塔餅長成什麼樣子)

9.   中產階級家庭出生的男性,比較有可能成為NBA籃球明星

10.   借錢的人在借錢時提到上帝,欠錢不還的比例高出2.2

看完上述我簡單列的項目,是不是覺得很多項目早就知道?但作者舉了很多有趣的例子和驗證方式,才是整本書最精采的地方,這其中包含了人們羞於啟齒的、偏見上的誤區、以及驗證的操作方式。

可能是以往經歷的關係,最吸引我的是驗證上的操作方式,我覺得這是最難的,除了A/B測試要老闆有認知和經費,在數據分析上,如同作者所說的:「為了從大數據中取得洞察力,你必須提出正確的問題」,加上作者指出的:「我們傾向於誇大自身經驗的相關性……當我們只仰賴我們所聽到的世界或只仰賴個人經驗時,我們對於世界如何運作的看法往往會出錯。」,所以什麼叫做正確的問題,值得反覆驗證思考,但在台灣當前的工作環境,是否有這樣的時間與被授權執行的空間,我覺得一般的企業可以再加加油(自行腦補了一堆過往工作上發生的事情)

作者也整理出了他認為的大數據4種力量
1.   提供新類型的數據(也就是以往沒蒐集過的)
2.   提供誠實的數據 (人們會把自己可能不會告訴任何人的事情,告訴搜尋引擎)
3.   允許我們把焦點放在人口中的小子集
4.   允許我們進行許多因果關係的實驗

在這個數位化時代,我們都知道大數據很重要,但究竟有多重要呢?我覺得這並不是作者想要強調的重點,相反的,作者在書中大篇幅的講述、並舉了許多精彩例子後,仍反過頭來指出傳統的研究調查與經驗(作者稱小數據),仍舊有其存在的必要,用以輔佐與補充大數據的漏洞,事實上,也有越來越多的例證以此方向走,我舉一個我觀察到,而非作者舉的例子,比如說YouTube在播放影片時會穿插廣告,每隔一段時間,YouTube就會針對其所播放過的廣告,在用戶的影片播放前做一個小的回顧問卷,就是其中一個例子,此外,作者也提到臉書已僱用社會心理學家、人類學家和社會學家來找出數字中所遺漏的訊息。

我也從作者整本書的論書中,挑出以下兩點作者闡述、我覺得重要的迷思,來輔證上面那一段的論點:
1.   擁有大量數據並不會自動產生精闢見解,數據大小這件事情被高估了
2.   你未必總是需要大量數據才能找出重要見解,你需要正確的數據

數據雖然可以赤裸裸的揭露世界的真相給我們,除了商業利益外,其中的許多未必令人感覺到舒服,為此,作者也不忘在書中提醒著這個兩面刃的溫柔面1. 你知道你不孤單2. 提醒我們注意人們正在受苦、3. 讓我們有能力將我們的問題引導到解決方案,而最後一點,是它最有價值的地方。

對我來說,這本書的心得真不好寫,很容易流為整理書中重點,所以要我說,只能簡化為二字-->「精彩」(如果你跟我一樣是看到標題和介紹就有興趣的話),但要先提醒有興趣翻看你,作者在書中的筆法比較偏向碎碎念,可能有些人看到中途就受不了離開,但我把它視作看一個新認識的朋友寫來的信,才在其中越讀越有趣味。

最後,拿作者在文中提醒讀者的一句話來做結尾:「永遠不要拿你的Google搜尋,跟別人的社群媒體貼文做比較(請自行重複三遍並畫上螢光線,不懂的請回去上面看我隨機舉的例證第5點  :P

留言