世界報(bào)道:大數(shù)據(jù),算不準(zhǔn)老天爺

2022-07-18 07:48:13來(lái)源:36kr

總有一天,大數(shù)據(jù)能算準(zhǔn)天氣。

進(jìn)入夏季后,天氣開(kāi)始變得“喜怒無(wú)?!?,一會(huì)狂風(fēng)暴雨一會(huì)晴空萬(wàn)里。出門前看看手里的天氣軟件,發(fā)現(xiàn)同樣的手機(jī)型號(hào),同樣的天氣軟件,同樣的時(shí)間地點(diǎn),居然有不同的天氣預(yù)測(cè)結(jié)果。這是為什么呢?本文作者對(duì)此進(jìn)行了分析,一起來(lái)看看吧。

同樣的屋檐,不同的天氣

夏天到了,陰雨多發(fā)。

上班前閑著沒(méi)事,一群無(wú)聊的人看著窗外天色,用幾點(diǎn)下雨打賭,來(lái)決定午飯由誰(shuí)買單。


(資料圖片)

一邊下注,一邊已經(jīng)有人拿起手機(jī),開(kāi)始查攻略。

其實(shí),這也算不上作弊。

誰(shuí)都知道,天氣預(yù)報(bào)軟件,報(bào)不準(zhǔn)天氣,有時(shí)候甚至還沒(méi)猜的準(zhǔn)。

而且,同事們拿著不同的手機(jī),用著不一樣的天氣預(yù)報(bào)軟件;念出的天氣預(yù)測(cè)結(jié)果,果然也天差地別。

但當(dāng)同事小艾,念出她手機(jī)的預(yù)測(cè)結(jié)果時(shí),有些出乎我的意料——小艾和我用著同一款手機(jī),天氣軟件都是系統(tǒng)自帶的天氣軟件,但天氣預(yù)報(bào)居然和我手機(jī)上顯示的不同。

我拿來(lái)她的手機(jī),再次確認(rèn):我們身處同一個(gè)位置,都開(kāi)著系統(tǒng)定位,且都賦予了天氣軟件讀取定位的權(quán)限,我們也在同一個(gè)WIFI環(huán)境下。

我們使用著同樣的手機(jī)、同一個(gè)款天氣軟件,也更新到了同一版本。

我們?yōu)榱吮苊鈺r(shí)間誤差,都多次刷新了天氣預(yù)報(bào)頁(yè)面。

但天氣預(yù)報(bào)結(jié)果,依然是不同的。

這兩份天氣預(yù)報(bào)中,至少有一份是錯(cuò)的。又或者兩份都是錯(cuò)的。

難道天氣預(yù)報(bào)的數(shù)據(jù)推送,也會(huì)根據(jù)不同人的喜愛(ài),給出不同的結(jié)果?

同樣的行跡,不同的位置

最近幾年,很多同事選擇了自行車上下班。

因?yàn)榻】?,因?yàn)榄h(huán)保……也有可能是因?yàn)楦F。

公司附近有幾處重要的辦事機(jī)構(gòu),管理較為嚴(yán)格,共享單車不能隨地停放,必須放在指定的區(qū)域。

而在具體的操作中,必須現(xiàn)在手機(jī)上操作,確認(rèn)已抵達(dá)規(guī)定還車地點(diǎn),才能進(jìn)行關(guān)鎖。

然后,那些鐘愛(ài)睡懶覺(jué)的同事,就體會(huì)到了什么叫噩夢(mèng)。

離上班時(shí)間還有2分鐘,騎自行車來(lái)到公司樓下,駐足在停車區(qū)域內(nèi),點(diǎn)擊手機(jī)上的“我要還車”,然后看到提示:您不在還車區(qū)域。

之后,自然是一番折騰,向前動(dòng)動(dòng),向后挪挪,但無(wú)論如何進(jìn)出,手機(jī)頁(yè)面上總顯示者:距離指定還車區(qū)域3米。

更過(guò)分的是,旁邊一樣過(guò)來(lái)停車的人,紛紛抵達(dá)位置,其中有不少直接關(guān)鎖走人,沒(méi)有在定位環(huán)節(jié)遇到麻煩。

看著上班時(shí)間已過(guò),成年人的崩潰,往往就在那么一瞬間:咱的定位數(shù)據(jù),為什么永遠(yuǎn)都差3米?

不過(guò),他也很快釋然了:既然停不了車,干脆騎車出去吃個(gè)早飯吧。遲到要扣錢,違規(guī)停車也要扣錢,反正總要扣一個(gè)。

同樣的搜索,不同的結(jié)果

還是閑來(lái)無(wú)事的辦公室生活。

到了下午5點(diǎn),人們都忙完了手頭的任務(wù),開(kāi)始刷著手機(jī),靜待下班。

小艾新買了個(gè)頭飾,楊妹子看著不錯(cuò),問(wèn)她要鏈接。

微信轉(zhuǎn)發(fā)淘寶鏈接比較麻煩,小艾是個(gè)懶人,就跟楊妹子說(shuō):你就搜索#$%%@@%,第一個(gè)就是。

楊妹子聽(tīng)話照做,在淘寶搜索欄里輸入了#$%%@@%,但別說(shuō)第一個(gè),連著刷了十頁(yè),也沒(méi)有看到小艾買到的那件頭飾。

其實(shí),不同人在淘寶搜索同一個(gè)詞,會(huì)出現(xiàn)不同的結(jié)果,也不算是什么新鮮事情。

系統(tǒng)會(huì)根據(jù)每個(gè)人的搜索、購(gòu)買習(xí)慣,給他們推薦,系統(tǒng)認(rèn)為他們最有可能感興趣、最有可能購(gòu)買的商品。

不過(guò)這些推薦,顯然還沒(méi)有完全猜透用戶心意。

搜索結(jié)果,都是楊妹子不感興趣的。

而她現(xiàn)在、立刻、馬上就想要購(gòu)買的商品,系統(tǒng)卻沒(méi)有推送給她。

大數(shù)據(jù)的判斷,是不是很不準(zhǔn)確?

數(shù)據(jù)缺陷,顯而易見(jiàn)

大數(shù)據(jù)有問(wèn)題嗎?

它距離完美還差的很遠(yuǎn)。

而在生活中這些瑣碎的事情上,我們也能看到,大數(shù)據(jù)一些顯而易見(jiàn)的缺陷。

1. 因?yàn)檫吘墧?shù)據(jù),忽略了主要問(wèn)題

現(xiàn)如今的大數(shù)據(jù),基于龐大的數(shù)據(jù)量進(jìn)行推算。

不過(guò),數(shù)據(jù)與數(shù)據(jù)間,也具有權(quán)重差異:一些數(shù)據(jù)對(duì)計(jì)算結(jié)果有重要影響,一些數(shù)據(jù)卻只作為參考。

但當(dāng)邊緣數(shù)據(jù)足夠多的時(shí)候,也會(huì)對(duì)結(jié)果帶來(lái)質(zhì)的影響。讓一些本應(yīng)該起到?jīng)Q定性作用的數(shù)據(jù),被邊緣化。

就如剛才天氣預(yù)報(bào)結(jié)果的區(qū)別,可能也是數(shù)據(jù)推算帶來(lái)的差異。

不只以氣象局的預(yù)測(cè)為依據(jù),也結(jié)合了每個(gè)人的行動(dòng)軌跡、遇雨頻率等個(gè)體差異,進(jìn)行單獨(dú)分析。

但分析結(jié)果怎么樣?

同一時(shí)間,同一地點(diǎn),卻給出了截然不同的天氣預(yù)報(bào)。

難道是否下雨,會(huì)根據(jù)每個(gè)人的行動(dòng)軌跡而變化嗎?

我們沒(méi)有生活在楚門的世界,我們也不叫蕭敬騰。

處在同一屋檐下,應(yīng)該面對(duì)同樣的天氣,這個(gè)常識(shí),卻在計(jì)算中,被大量的數(shù)據(jù)擠到了一邊。

而在網(wǎng)絡(luò)世界中,事實(shí)被大量數(shù)據(jù)擊垮,其實(shí)極為常見(jiàn):

點(diǎn)贊多的視頻,未必真的有趣。

如果能找來(lái)足夠多的人刷點(diǎn)擊、刷關(guān)注、刷贊、刷評(píng)論,一些低質(zhì)量的視頻,也可以成為熱門,推送給很多人。

評(píng)分低的飯店,未必就很難吃。

只要找足夠多的人去惡意差評(píng),可以輕松把一家飯店的評(píng)分搞下去。而很多飯店在開(kāi)業(yè)之初,也會(huì)找大量的人刷好評(píng),讓自己屹立在推薦頭部。

當(dāng)非真實(shí)的評(píng)價(jià)足夠多時(shí),真實(shí)就會(huì)被掩蓋。至于飯菜味道究竟怎么樣,數(shù)據(jù)又嘗不出來(lái)。

2. 用復(fù)雜的方式,做了簡(jiǎn)單的問(wèn)題

因?yàn)榇髷?shù)據(jù)的存在,讓很多原本非常簡(jiǎn)單的問(wèn)題,變得很復(fù)雜。

一些顯而易見(jiàn)的答案,卻被藏了起來(lái)。

當(dāng)你搜索1+1時(shí),首屏上80%的搜索結(jié)果,不是1+1=2,而是哥德巴赫猜想、電影、歌曲之類與1+1相關(guān)的東西,甚至關(guān)于1+1=1的推論。

明明是個(gè)很簡(jiǎn)單的問(wèn)題,卻因?yàn)榇罅肯嚓P(guān)資料的存在,而被演化的非常復(fù)雜。

就像小艾給楊妹子推薦的商品,她倆長(zhǎng)期使用著同樣的WIFI地址,也在不止一個(gè)軟件上相互關(guān)注、加著好友。其中一人前幾天購(gòu)買了某商品,另一人幾天后用同樣的搜索詞,搜索同一商品,想必也是數(shù)據(jù)能夠監(jiān)測(cè)到的。

如果只考慮這些顯而易見(jiàn)的信息,推薦同樣的商品,立刻就能促成購(gòu)買。

但大數(shù)據(jù)偏偏考慮了太多過(guò)去的搜索、購(gòu)買結(jié)果,認(rèn)為她倆不是同樣的消費(fèi)群體,認(rèn)為她倆具備不一樣的喜好,所以推送的搜索結(jié)果也完全不同。

很簡(jiǎn)單的一道題,做的太過(guò)復(fù)雜。

3.數(shù)據(jù)偏見(jiàn),偏見(jiàn)螺旋

大數(shù)據(jù)的推送,更存在嚴(yán)重的偏見(jiàn)。

數(shù)據(jù)認(rèn)識(shí)用戶,很多時(shí)候就像盲人摸象一樣。

只摸到了大象的腿,就認(rèn)為大象是個(gè)圓柱體。

數(shù)據(jù)只看到了用戶的某一面,認(rèn)為用戶就是那個(gè)樣子的。

最初,數(shù)據(jù)通過(guò)盲猜的方式,向楊妹子推薦了某些商品、某些視頻,她隨意觀看了其中的幾個(gè)。

數(shù)據(jù)會(huì)對(duì)她的觀看行為進(jìn)行記錄,并再次推送類似的商品、視頻,進(jìn)行驗(yàn)證。

果然,楊妹子確實(shí)對(duì)這些內(nèi)容感興趣,多次觀看。

時(shí)間長(zhǎng)了,數(shù)據(jù)就會(huì)記?。簵蠲米邮莻€(gè)喜歡火鍋、喜歡年輕小鮮肉、喜歡朋克風(fēng)穿搭的年輕女孩。并且會(huì)給她推送更多相關(guān)內(nèi)容。

這樣的推送雖然沒(méi)錯(cuò),卻只是一種偏見(jiàn)。

其實(shí),楊妹子也喜歡中國(guó)風(fēng)繪畫,喜歡綠色的頭飾,喜歡吃東北菜,但數(shù)據(jù)卻并不知道。

數(shù)據(jù)并非全知全能,對(duì)于自己沒(méi)有收集到的信息,也無(wú)從得知。

尤其在針對(duì)性的推送中,更會(huì)形成一種偏見(jiàn)螺旋。

系統(tǒng)不斷給楊妹子推送火鍋、朋克、小鮮肉,楊妹子也確實(shí)喜歡看這些,持續(xù)觀看、點(diǎn)贊、評(píng)論、購(gòu)買。

數(shù)據(jù)記錄在案,就更會(huì)不斷加大相關(guān)推薦。

最終形成一個(gè)循環(huán):

但對(duì)一個(gè)人來(lái)說(shuō),再喜歡的東西,看的太久了,偶爾也會(huì)有膩的時(shí)候??上到y(tǒng)仍然樂(lè)此不疲的推送這幾種內(nèi)容。

因?yàn)樽銐虻臄?shù)據(jù)證實(shí),她感興趣。即使偶然一兩次沒(méi)有觀看,在整體數(shù)據(jù)中,這一兩次不觀看的行為,也依然無(wú)法抵抗之前頻繁觀看的偏好。

除非她真的歇斯底里,一連點(diǎn)了幾十次“不要再推薦類似內(nèi)容”。但一般人也不會(huì)如此做,畢竟推薦的東西,也都是自己平日里感興趣的,還擔(dān)心以后會(huì)看不到。

而在這種偏見(jiàn)循環(huán)中,已經(jīng)確定偏好的內(nèi)容推送越多,其他內(nèi)容能跟用戶見(jiàn)面的機(jī)會(huì)就越少。所以數(shù)據(jù)補(bǔ)全自己偏見(jiàn)的機(jī)會(huì)也就變得更少。

在向楊妹子推送火鍋、朋克、小鮮肉的同時(shí),偶然有一條熱門視頻也推送到了她眼前,是關(guān)于中國(guó)風(fēng)彩繪的。

但這條視頻的主角,說(shuō)話娘娘腔,恰好是楊妹子無(wú)法接受的類型,直接劃了過(guò)去。數(shù)據(jù)就恰好失去了一次,得知她喜好中國(guó)風(fēng)彩繪的機(jī)會(huì)。

下次再有這樣的機(jī)會(huì),不知道又是幾月后、幾年后了。

大數(shù)據(jù),還不夠大

所有這些問(wèn)題,歸根結(jié)底,是大數(shù)據(jù)還不夠大。

受限于技術(shù)、成本、隱私原因,獲取數(shù)據(jù)的方式還不夠多,不夠精確。

如果數(shù)據(jù)捕獲量夠大,不只限于一個(gè)平臺(tái),甚至不只限于虛擬世界,能夠看到更多細(xì)節(jié)。數(shù)據(jù)就有更高的機(jī)會(huì),真正認(rèn)識(shí)一個(gè)用戶,而不是產(chǎn)生偏見(jiàn)螺旋。

如果數(shù)據(jù)獲取手段足夠細(xì)致,所有數(shù)據(jù)獲取設(shè)備都足夠精確,也就不會(huì)出現(xiàn)無(wú)法還車的問(wèn)題。

如果大數(shù)據(jù)的探測(cè)手段足夠高級(jí),那不可預(yù)知的天氣,也總有一天能夠判斷到一絲不差。

但受限于技術(shù),大數(shù)據(jù)暫時(shí)還無(wú)法一眼看到事物的全貌。只能通過(guò)管中窺豹的方式,用幾億個(gè)角度觀測(cè)出的視野碎片,拼湊出一只豹子的畫像。

受限于成本,大數(shù)據(jù)無(wú)法獲得充足的數(shù)據(jù)?;蛟S幾億個(gè)視野碎片能拼出一只豹子的畫像,但成本只允許獲取幾萬(wàn)個(gè)碎片,拼出的豹子自然也似是而非。

受限于隱私,大數(shù)據(jù)無(wú)法獲得一些關(guān)鍵性數(shù)據(jù)。那幾萬(wàn)個(gè)碎片中,還缺乏豹子某些關(guān)鍵部位的碎片。

最終結(jié)果就是,大數(shù)據(jù)所拼湊出來(lái)的豹子畫像,雖然有了豹子的雛形,但離真實(shí)的豹子還差很遠(yuǎn)。

矛盾的隱私

技術(shù)、成本的局限,隨著時(shí)代發(fā)展,總有解決的一天。

就像天圓地方的傳統(tǒng)觀念,終有一天會(huì)在天文衛(wèi)星的見(jiàn)證下被顛覆。

但大數(shù)據(jù)未來(lái)的發(fā)展之路,必然還會(huì)和我們的隱私需求,出現(xiàn)更激烈的碰撞。

尤其是我們的真實(shí)需求,甚至連自己都很難說(shuō)清——多數(shù)人對(duì)大數(shù)據(jù)的態(tài)度,欲拒還迎。

在需要大數(shù)據(jù)預(yù)測(cè)的時(shí)候,我們要求大數(shù)據(jù)保持精準(zhǔn)。

在不需要大數(shù)據(jù)預(yù)測(cè)的時(shí)候,我們又擔(dān)心對(duì)隱私泄露。

打車去某個(gè)偏僻的角落,甚至我們自己都不知道該怎么搜索目標(biāo)位置,大數(shù)據(jù)就直接預(yù)判出了我們的目標(biāo)地點(diǎn)。這節(jié)約了我們的時(shí)間,也讓我們的出行變得簡(jiǎn)單、輕松。但在坐上車之后,我們又開(kāi)始擔(dān)憂,自己的出行信息,是不是會(huì)被有心人利用?

我們想購(gòu)買的商品,被電商平臺(tái)直接推送到眼前,節(jié)省了我們搜索、瀏覽、對(duì)比的時(shí)間和精力。但在享受這種便捷的同時(shí),有的人又產(chǎn)生擔(dān)憂,自己對(duì)某些商品的喜好,會(huì)不會(huì)被別人所知曉。

我們都很矛盾,既想占有大數(shù)據(jù)的好,又想摒棄它的一切不好。

但大數(shù)據(jù)的好與壞,本就是對(duì)立統(tǒng)一的。

沒(méi)有足夠多的數(shù)據(jù)埋點(diǎn),就無(wú)法做出更準(zhǔn)確的預(yù)測(cè)。

沒(méi)有一次次的行為監(jiān)控,就無(wú)法在你需要的時(shí)候,把你所需的信息送至面前。

更簡(jiǎn)單點(diǎn)說(shuō):手機(jī)中的導(dǎo)航軟件,若沒(méi)有精確的定位,沒(méi)人知道你在哪、你去哪,又怎么給你準(zhǔn)確的導(dǎo)航?

就像一些人所說(shuō):“其實(shí)我們不是沒(méi)有選擇權(quán),即使是現(xiàn)代,也完全可以扔掉手機(jī),一個(gè)人去山里生活,保護(hù)自己完整的隱私?!?/p>

這話雖然有些風(fēng)涼話的意味,但也能反映出一個(gè)問(wèn)題:當(dāng)我們,把非智能手機(jī)換成智能手機(jī)時(shí),當(dāng)我們享受遠(yuǎn)程購(gòu)物的便捷時(shí),當(dāng)我們隨時(shí)隨地通過(guò)搜索解答自己的疑惑時(shí),我們也應(yīng)該知道,自己將要拿出一部分隱私,去交換這種便捷。

隱私交換便捷,這是必然的結(jié)果。

而在大數(shù)據(jù)發(fā)展、完善的過(guò)程中,我們需要去爭(zhēng)取的、社會(huì)需要去規(guī)范的,是付出多少隱私,能換到多少便捷;大眾對(duì)隱私的付出,有沒(méi)有自主選擇的空間;付出隱私的邊界在哪里;隱私除了交換便捷外,還會(huì)不會(huì)被其他人看到、利用。

現(xiàn)在還沒(méi)有答案,但遲早會(huì)有答案。

總有一天,大數(shù)據(jù)能算準(zhǔn)天氣。

也總有一天,我們能找到便捷和隱私間的平衡。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議

關(guān)鍵詞: 天氣預(yù)報(bào) 顯而易見(jiàn) 總有一天

責(zé)任編輯:hnmd004