數(shù)學(xué)家用算法在相親網(wǎng)站上找到真愛
用數(shù)學(xué)家的方法相親
像麥克金雷這樣的數(shù)學(xué)家,他們能夠在不同情況下使用數(shù)學(xué)方法,哪怕是看見不認(rèn)識的撲克游戲,比如牌九,他們也能回家寫代碼,然后得出一個最優(yōu)策略。在尋找真愛的道路上,也應(yīng)該有一個最優(yōu)策略。麥克金雷就用一個基于算法、大數(shù)據(jù)和機(jī)器學(xué)習(xí)的方法,在一個相親網(wǎng)站上找到了真愛。
編譯_七貓
UCLA(美國加州大學(xué))的數(shù)學(xué)實驗室里,克里斯·麥克金雷縮在他的辦公間,一顆小小的燈泡和屏幕映射的微光就是凌晨三點唯一的光源。他在這里趕他的博士論文(題目:《大數(shù)據(jù)處理和并行計算方法》)。當(dāng)電腦忙著編譯代碼的時候,他點開另外一個窗口,查看他的OkCupid收件箱。
對了,OkCupid是一個相親網(wǎng)站。
現(xiàn)在來介紹一下我們的男主角:麥克金雷,35歲,未婚,身材干癟,頭發(fā)稀少,在外表上幾乎沒有什么競爭力。他是美國4000萬網(wǎng)絡(luò)相親大軍中的一員,從Match.com到J-Date再到e-Harmony,但凡是有點名氣的相親網(wǎng)站上,都有他的資料。自從9個月前跟前女友分手之后,麥克金雷就一直在尋找新的緣分,但始終沒有結(jié)果。其中有一個網(wǎng)站,OkCupid,曾經(jīng)依照它的算法給麥克金雷推薦了幾十個與他“很般配”的姑娘,而麥克金雷給她們之中的大多數(shù)都發(fā)了自我介紹的信息。大多數(shù)人都無視了他的信息;只有六個跟他進(jìn)行了初次約會,但沒有一個能更進(jìn)一步。
2012年6月的這個凌晨,麥克金雷的電腦編譯著代碼,另外一個窗口上則是他那冷清孤單的相親網(wǎng)站資料頁。這時候他突然醒悟過來,原來他犯了一個致命的錯誤:他一直像其他用戶一樣使用這個在線相親網(wǎng)站,他現(xiàn)在意識到,他應(yīng)該要像一個數(shù)學(xué)家那樣相親。
用算法找到你的靈魂伴侶
2004年,四個哈佛數(shù)學(xué)專業(yè)的學(xué)生創(chuàng)辦了OkCupid,其賣點就是“用算法來找到你的靈魂伴侶”。這個網(wǎng)站精心設(shè)計了若干生活態(tài)度和心理測試題(他們甚至還開發(fā)了一個平臺以供會員自行創(chuàng)建心理測試),會員們需要回答十個必答問題和若干個其他附加題目。這些題目都是選擇題,覆蓋面囊括政治、宗教、家庭、愛情、性甚至是智能手機(jī)品牌。比如,“下面哪種情況最可能吸引你去看電影?”或者“宗教和上帝在你的生活中到底有多重要?”
會員們不僅需要記錄自己的答案(單選),還需要選擇可接受的伴侶回答(可多選),以及認(rèn)為這個問題有多重要(從“沒有關(guān)系”到“至關(guān)緊要”)。據(jù)統(tǒng)計,該網(wǎng)站會員平均每人會回答350個問題。
回答的問題越多,匹配的精準(zhǔn)度就越高—根據(jù)這些問題的答案數(shù)據(jù),OkCupid的算法引擎會自動測算兩個會員之間的匹配度,100%就是數(shù)學(xué)上的靈魂伴侶,于是,當(dāng)然越接近100%的越好。
但就算是數(shù)學(xué)上,麥克金雷與洛杉磯女人的匹配度也很可悲。主要是因為,OkCupid在選擇潛在匹配對象時,首先會鎖定回答了同一個問題的人群,然后再根據(jù)性別性向進(jìn)一步篩選,最后再根據(jù)答案計算兩兩之間在這個問題上的分值。問題是,麥克金雷都是隨機(jī)選擇問題的,而他回答的問題,最終看起來都是“不受歡迎”的問題,也就是說,回答這些問題的人很少。所以,在一個擁有200萬女性的大都市里,起碼有8萬女性在使用OkCupid,可是麥克金雷的90分以上匹配者只有不到100個。在一個匹配度等同于存在感的網(wǎng)站上,他實際上就是一個透明人。
他意識到,他必須提升這些數(shù)字。麥克金雷認(rèn)為,他可以通過統(tǒng)計分析來獲知哪些問題對他喜歡的女人來說是最重要的,然后他就可以建立一個新的交友檔案,誠實地回答這些“正確”的問題,然后其他的問題都不用管了。理論上來說,這樣他就能夠匹配到洛杉磯里任何一個適合他的女人,而不會遇上任何一個不適合的。
愛情有一個最優(yōu)策略
即使對于一個數(shù)學(xué)家來說,麥克金雷也是個極不尋常的人。
他在波士頓郊區(qū)長大,2001年在米德布里學(xué)院的中文系畢業(yè),同年8月在紐約找了一份兼職工作,在世貿(mào)大樓的北塔91層的一家公司當(dāng)翻譯,將中文翻譯成英文。在他走進(jìn)社會的第五個星期,雙子樓遭遇慘劇—在9·11那天,麥克金雷要到下午2點才需要上班,所以當(dāng)?shù)谝患茱w機(jī)在早上8點46分撞上北塔時,他還在睡夢之中。
“那天之后,我就一再問我自己,我到底想要干什么,”麥克金雷說。
剛好,他有個哥倫比亞的朋友看中了他的反應(yīng)能力和數(shù)學(xué)能力,將他招募進(jìn)麻省理工那著名的黑杰克隊伍(MIT Blackjack Team)—他們依靠快速算牌技巧和團(tuán)隊配合用撲克牌玩21點,在賭場贏取大筆獎金。之后幾年,他往返于紐約和拉斯維加斯,最多每年可以賺到6萬美元。
這種經(jīng)歷加深了他對應(yīng)用數(shù)學(xué)的興趣,并最終鼓勵他積極進(jìn)取,在此領(lǐng)域更加鉆研,得到了碩士甚至是博士學(xué)位!八麄兡軌蛟诓煌闆r下使用數(shù)學(xué)方法,”麥克金雷在提起自己的算牌伙伴時說,“哪怕是看見不認(rèn)識的撲克游戲,比如牌九,他們也能回家寫代碼,然后得出一個最優(yōu)策略!
他認(rèn)為,在尋找真愛的道路上,也有一個最優(yōu)策略。
科學(xué)地尋找真愛
首先,他需要數(shù)據(jù)。他建立了12個虛擬的OkCupid賬號,并通過一個Python腳本來控制它們。這個腳本會尋找他的目標(biāo)(25歲到45歲之間的異性戀及雙性戀女性),瀏覽他們的網(wǎng)頁,抓取所有公開的信息:種族、身高、是否吸煙、星座,等等。
要找到她們的問題和答案,他必須再多做一點事情。OkCupid讓用戶看見別人的回答,不過只能是他們自己回答過的問題。于是麥克金雷讓他的代碼操縱著各個賬號回答隨機(jī)的問題—反正他不用這些賬號來吸引任何人的注意,所以答案并不重要—然后,將姑娘們的答案存入自己的數(shù)據(jù)庫里。
麥克金雷滿意地看著他的程序滿載而歸。不過,他只收集了1000個賬號的資料,就遇上了新的屏障:OkCupid有一個防濫用系統(tǒng),專門用來防止此類數(shù)據(jù)收割,于是沒過多久,他的虛擬賬號就一個個地被封了。
他必須將他們訓(xùn)練得像人類。
他找到了他的朋友薩姆·托里西。托里西也是個妙人,他是一個神經(jīng)學(xué)家,不過最近他在教麥克金雷音樂理論知識,作為交換,麥克金雷得給他上幾堂高數(shù)課。托里西自己也在OkCupid上征友,他覺得麥克金雷做的這件事很有意義,就同意在自己的電腦安一個監(jiān)控軟件,記錄他的使用情況。有了這個數(shù)據(jù),麥克金雷就能編寫一個程序,模擬托雷西的鼠標(biāo)點擊速度和打字速度,簡而言之,“看起來像人”。他從家里再帶了一臺電腦插在數(shù)學(xué)系的網(wǎng)口上,這樣就能夠24小時無間斷地運(yùn)行了。
三星期后,他喜獲豐收,現(xiàn)在他有全國各地20000個姑娘的600萬個問題和答案了。那個凌晨三點突如其來的念頭變成了麥克金雷的另外一個重要項目。他本來已經(jīng)經(jīng)常在辦公間里過夜了,這下,他干脆直接不再續(xù)租公寓,完全搬到辦公間里來。他帶了一張薄薄的小毛毯,等要睡覺的時候,就躺在桌子上睡。
大數(shù)據(jù)處理與真愛的類別
要想讓麥克金雷的計劃奏效,他需要在這600萬個問題和答案中尋找某個模式,好將這20000個姑娘分成不同的類別。他開始試用不同的算法,最終,當(dāng)他找到一個改進(jìn)版本的貝爾實驗室K-Modes算法時,突破點到來了。這個算法最早在1998年投入使用,是用來分析各地黃豆災(zāi)害的具體原因,它能夠根據(jù)大量的數(shù)據(jù)特征,慢慢地將所有對象細(xì)分再細(xì)分成不同的類型。有了這個算法,麥克金雷就能夠輕松地將他收割來的數(shù)據(jù)投入不同的類別里,在20000人中找到最適合他的女人。
他開始實踐。根據(jù)她們的問題和答案,20000人被逐步分成了7組。麥克金雷認(rèn)為這樣就夠了,他已經(jīng)對這個進(jìn)展感到欣喜若狂,“那是六月的最高點”。
然后他還需要做一次重復(fù)驗證,于是他給了這個程序一個新任務(wù):過去這一個月里,有5000個洛杉磯和舊金山地區(qū)的女性登錄了OkCupid。他又讓K-Modes來算了一遍,結(jié)果證明這些人也以一種相似的方式被分為了7組。也就是說,他的算法是可行的!
在不同類別中,他都選擇了一些檔案來研究,發(fā)現(xiàn)其中一個太年輕了,有兩個則太老,還有一個對于宗教過于虔誠。不過有一個類別看起來很不錯:里面都是25歲左右的女性,看起來很有個性,音樂家或者藝術(shù)家。她們是黃金類別,就是他所想要的那種。他覺得,在這里,他能找到真愛。
事實上,還有另外一個類別看起來也挺酷—這里面的女性年紀(jì)稍微大一點,都從事創(chuàng)造性的職業(yè),比如說編輯或者設(shè)計師。他決定兩者都試試看,于是他創(chuàng)建了兩個賬號,分別針對A類優(yōu)化和B類優(yōu)化。
他翻閱這兩個類別的女性檔案,尋找她們感興趣的東西。結(jié)果,原來教師還是很受歡迎的,所以他在介紹里強(qiáng)調(diào)自己是一名數(shù)學(xué)教授。當(dāng)然,最重要的部分還是那些問題。他選出在這兩個類別里最受歡迎的500個問題,然后如實作答—他不希望未來的戀愛和婚姻建立在虛假之上。但他決定讓計算機(jī)決定每個問題到底有多重要,他用了一種機(jī)器學(xué)習(xí)的算法,叫“自適應(yīng)增強(qiáng)”(adaptive boosting),以獲得最理想的分值。
這樣,他就創(chuàng)建了兩個賬號,其中一個的資料照片是他攀巖的樣子,而另外一個則是他在彈吉他!安还芪磥淼挠媱澣绾危悻F(xiàn)在更感興趣的是什么?性,還是愛?”他的答案是愛。但對于比較年輕的A類別,他按照機(jī)器的建議為這個問題評分為“非常重要”,對于B類別,則是“至關(guān)緊要”。
當(dāng)他答完最后一個問題,他在OkCupid上進(jìn)行了一項搜索,按匹配度來排序。最上面的:一整頁的99%匹配度。他翻頁,再翻頁,1萬人過去了,跟他的匹配度還在90%以上。
他還需要再做一件事來提升自己的受關(guān)注度。OkCupid是這樣的,如果有人訪問了你的頁面,你就會收到一條通知。所以麥克金雷寫了一個新程序,去自動訪問那些評分最高的匹配對象,按年紀(jì)降序進(jìn)行:星期一是1000個41歲的女性,周二是1000個40歲的女性,如此兩個星期后,是1000個27歲的女性,然后再重復(fù)。來訪問他的頁面的女性也很快增多了,有時候達(dá)到每天400人,而他的消息箱里也涌入了很多信息。
“我從來沒見過跟我匹配度這么高的人,而且我覺得你的資料還挺吸引人的,”有個女人寫道,“而且一個擅長數(shù)學(xué)的糙漢子感覺總會有些故事……我覺得自己得來跟你打聲招呼!
“嗨—你的資料看起來真的很吸引我,所以我過來打聲招呼!绷硪粋這樣寫,“我想我們之間有很多共同點,雖然數(shù)學(xué)方面不是,但其他方面像得驚人!”
“你真的可以翻譯中文?”還有一個問!拔以(jīng)上過一堂課,但實在太難了!
真愛在相遇之后開始
數(shù)學(xué)和算法的部分到此結(jié)束。在麥克金雷尋找真愛的道路上,他還需要做一件事:離開他的四方格工作間—約會。
2012年6月30日,麥克金雷在UCLA體育館洗了個澡,然后去見了他的第一個約會對象,Sheila。她是一個設(shè)計師,A類別,那種年輕的藝術(shù)家類型。他們在回音公園(Echo Park)的一家咖啡館進(jìn)行了午餐約會!捌鋵嵨矣悬c害怕,”麥克金雷回憶道,“到這個時間之前,這一直像是個學(xué)術(shù)項目!
但當(dāng)他跟Sheila告別時,很顯然,他們彼此都沒有動心。于是他第二天又進(jìn)行了他的第二次約會,是一個來自B類別的博客寫手。他本打算帶著女伴在回音公園的湖畔浪漫散步交談,但到了那里才發(fā)現(xiàn),正有一群人在湖里挖淤泥。更糟糕的是,她熱愛法國作家馬塞爾·普魯斯特,對生活的態(tài)度很不積極。麥克金雷表示,這次約會甚至感覺有些抑郁。
到第20次約會的時候,他發(fā)現(xiàn)A類別的人里面,有很多都有文身,或者養(yǎng)了中大型犬,而他對這些事都不是很能接受。一個月后,他認(rèn)為這些不合適的人妨礙了他的效率,于是他刪掉了自己的A類別賬號,專心約會B類別的人。他的效率提高了,但結(jié)果依然同樣。他已經(jīng)約會了55個人,但只跟三個人見了第二面,只有一個人約了第三次會。
大多數(shù)失敗的約會讓人懷疑人生,但對于麥克金雷來說,這更糟糕,他開始懷疑自己的算法。
直到他收到王恬(音譯)的信息。她是個28歲的藝術(shù)家,還是監(jiān)獄廢止運(yùn)動的積極分子。她正在UCLA讀藝術(shù)碩士,希望在UCLA附近尋找到身高180cm左右藍(lán)眼睛的家伙,然后,她就找到了麥克金雷。他們的匹配度是91。
他們約在校園的雕塑公園相見。從那里,他們一起走到了一家校園壽司連鎖店。他立刻就感受到了真愛的電力。他們從書籍討論到藝術(shù)和音樂,聊著聊著,她承認(rèn),在給他發(fā)信息之前,她特地在自己的資料上做了小小的改動;然后他給她講了他的愛情算法,從頭到尾,這一整個故事。
“這事兒可實在有點神經(jīng)質(zhì),”她說,“不過我喜歡!
她是麥克金雷約會的第88個人。但跟以前的87個人都不同,他們進(jìn)行了第二次約會,第三次,兩個星期后,他們都凍結(jié)了自己的OkCupid賬號。
“我想我做的與其他人沒有太大不同,只是一個基于算法、大數(shù)據(jù)和機(jī)器學(xué)習(xí)的版本,”麥克金雷表示。所有人都希望在相親網(wǎng)站上建立一個更優(yōu)化的賬號資料,他只是用數(shù)據(jù)和程序創(chuàng)建了一個。
對于王恬來說,麥克金雷的壯舉只是一個有趣的故事。她知道,這些數(shù)學(xué)和編程都只是讓他們相遇的故事前言,真正的挑戰(zhàn)是他們相遇之后的生活!叭祟惐荣~號上的那些資料要復(fù)雜多了,”她說,“所以,我們相遇的方式可能有某種不真實的成分,但那之后的每一刻都很真實!
麥克金雷也同意她的看法:“并不是因為我們匹配才有一個很好的關(guān)系,而是,這個算法能夠讓我們站在了彼此可以觸及的地方。我用OkCupid找到了對的人!
她不以為然地敲了敲他的手肘:“你沒有找到我,因為是我找到了你。”麥克金雷思考了一下,承認(rèn)她說的是對的。
現(xiàn)在麥克金雷已經(jīng)獲得了他的博士學(xué)位,繼續(xù)教授數(shù)學(xué);而王恬正在卡塔爾進(jìn)行一項為期一年的伙伴活動。在與記者見面后的一周,王恬回到了卡塔爾,而在他們每天的Skype對話里,麥克金雷突然掏出一枚鉆戒,放在攝像頭面前。
她說她愿意。
他們還沒決定具體的婚禮日期;也許他們還需要一個算法來進(jìn)行優(yōu)化。
來源:《連線》
相關(guān)文章
- 廣饒一中二校區(qū)高一15班突發(fā)縱火案件 致學(xué)生1人死亡3人受傷
- 朝陽區(qū)華僑城小區(qū)2號院北門口車禍 寶馬轎車撞翻路邊攤
- 合肥東二環(huán)路南淝河支路淝河佳苑小區(qū)男子墜樓身亡
- 網(wǎng)傳蘭州和平派出所民警暴力執(zhí)法用警棍毆打大學(xué)生
- 10歲女生進(jìn)群看黃片 出于好奇一天看三四部驚呆家長
- 女兒與繼父生下孩子 渣男竟然母女通吃淫蕩至極
- 開蘭博基尼上下班 公交司機(jī)多輛豪車輪流開驚呆網(wǎng)友
- 男子強(qiáng)奸侄女妻子幫忙按住女孩雙腳 瘋狂蹂躪太禽獸
- 主人猝死被狗啃尸 狗被關(guān)屋內(nèi)餓急了竟啃食主人尸體
- 教師遭詐騙自殺 騙子自稱公安騙走其23萬太猖狂
網(wǎng)友評論
評論加載中...贊助商推廣鏈接
文章隨機(jī)推薦
- 癱瘓哥哥逼妹妹相親:為我單身39年 再不嫁就老了
- 老漢抱來10斤香豬當(dāng)寵物養(yǎng)成120斤肥豬(圖)
- 大媽外媒登廣告尋子:不逼婚了 回家過年吧(圖)
- 改編歌《學(xué)霸去哪兒》走紅網(wǎng)絡(luò)引大學(xué)生共鳴
- 地稅局干部酒后在夜總會調(diào)戲婦女被處分
- 廣西玉林市博白縣2方迎親隊互不相讓 互射煙花打群架4小時
- 去年山東133名“縣官”9名“廳官”被查處
- 20萬彩禮嚇哭男友 婚姻成了明碼標(biāo)價的商品
- 安康市漢濱區(qū)高級中學(xué)安康漢濱高中一女生墜樓身亡
- 四川渠縣致21死交通事故結(jié)案6名干部被刑拘
- 掌摑快遞員男子遭人肉 無辜者躺槍不斷被騷擾恐嚇
- 呼和浩特北郊公園樹林中男子上吊身亡 原因不詳
- 34歲女一妻二夫三人同睡一張床 十分性福
- 老虎圍攻咬死狗熊 撕咬致死分食很恐怖
- 張馨予擁吻男制片 與三男一女摸胸激吻私生活混亂

