當(dāng)新冠疫情來(lái)襲時(shí),塞巴斯蒂安·馬丁正在Lyft公司擔(dān)任博士后研究員。突然之間,使用Lyft應(yīng)用程序的乘客與司機(jī)的數(shù)量發(fā)生了重大的變化,公司也試圖迅速因應(yīng)。
Lyft過(guò)去一直使用一種算法來(lái)匹配司機(jī)與乘客,因此公司以為或許將這個(gè)算法稍做調(diào)整便可以變成有效的新冠疫情方案。然而事與愿違,這項(xiàng)工作比預(yù)料的困難許多?!八C明了這套系統(tǒng)的局限性。”如今是凱洛格學(xué)院運(yùn)營(yíng)學(xué)助理教授的馬丁說(shuō)道。
馬丁解釋,主要問(wèn)題在于簡(jiǎn)單的算法,例如將距離最近的司機(jī)指派給乘客,事實(shí)上效果不是那么好。
于是馬丁開(kāi)始思考如何能夠改善這種匹配算法,甚至在共乘服務(wù)從新冠疫情中復(fù)蘇之后。如果算法可以教自己更好地調(diào)度司機(jī)然后做出實(shí)時(shí)調(diào)整會(huì)怎樣呢?
馬丁和一個(gè)Lyft團(tuán)隊(duì)實(shí)現(xiàn)了這樣的假設(shè)。他們用了一年多的時(shí)間創(chuàng)造出了一個(gè)能夠進(jìn)行“強(qiáng)化學(xué)習(xí)”的算法,這在科技公司簡(jiǎn)直就是永生,馬丁表示。而設(shè)計(jì)這個(gè)算法雖然困難,但要說(shuō)服公司上下去試用一樣很難。
畢竟,強(qiáng)化學(xué)習(xí)會(huì)要你“讓出一大部分的掌控權(quán)?!瘪R丁說(shuō)。“一臺(tái)可以做決定而不告訴你的機(jī)器?試想如果它做的決定關(guān)乎你賴以維生的工作呢?”
然而結(jié)果是值得的:Lyft公司開(kāi)始賺更多的錢,司機(jī)有了更多的工作,乘客給出了更多的五星評(píng)價(jià)。此外,他們的項(xiàng)目被提名為2023年弗蘭茲·厄德曼獎(jiǎng)(Franz Edelman Award)的六名決賽者之一,這是分析與運(yùn)營(yíng)研究領(lǐng)域里最負(fù)盛名的獎(jiǎng)項(xiàng)。如果你在過(guò)去一兩年內(nèi)用過(guò)Lyft,那么這個(gè)算法就幫助過(guò)你匹配給某個(gè)司機(jī),而你的出行數(shù)據(jù)反過(guò)來(lái)又幫助改進(jìn)算法。
在對(duì)自學(xué)習(xí)算法越來(lái)越憂懼的氛圍下(想想ChatGPT),Lyft的故事顯示在這些工具中,有些確實(shí)能夠改善每一個(gè)人的生活,馬丁表示。
“它不總是零和游戲”,輸與贏不是處于此消彼長(zhǎng)的狀態(tài)。他說(shuō)道?!俺丝透鼭M意,司機(jī)更忙碌,平臺(tái)賺錢更多?;旧鲜前倮鵁o(wú)一害?!?/p>
為什么最近的并不總是最好的
對(duì)大多數(shù)人而言,尤其是下雨天站在街頭等候共乘的我們來(lái)說(shuō),派出距離最近的司機(jī)似乎是最符合邏輯的做法。但實(shí)際上卻不總是如此。
當(dāng)生意繁忙而司機(jī)人手不足時(shí),問(wèn)題就出現(xiàn)了,馬丁解釋道。在這種情況下,離乘客最近的司機(jī)或許還相當(dāng)遠(yuǎn)。要是派遣這名司機(jī),他就要花很多時(shí)間“開(kāi)空車”,讓乘客苦苦等候,說(shuō)不定司機(jī)還在途中,乘客就已經(jīng)取消叫車。還有很關(guān)鍵的一點(diǎn)是這意味著試圖叫車的新乘客會(huì)需要等候更長(zhǎng)的時(shí)間,因?yàn)橛锌盏乃緳C(jī)正在花很多時(shí)間試圖開(kāi)車到下一個(gè)乘客那里,因此有空載客的司機(jī)越來(lái)越少。
“它像是平臺(tái)的死亡螺旋?!瘪R丁說(shuō)道。
因此,理想的解決方案會(huì)是一個(gè)可以預(yù)測(cè)接下來(lái)幾分鐘情況如何演變的匹配算法。會(huì)有一個(gè)新的、更近的乘客出現(xiàn)嗎?某條堵車的道路會(huì)變的通暢而縮短開(kāi)車時(shí)間嗎?如果司機(jī)去接載某個(gè)乘客,下車地點(diǎn)的附近是否會(huì)有另一個(gè)乘客,使得轉(zhuǎn)換到下一個(gè)乘客的效率更高嗎?
總之,這個(gè)算法要能夠預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么事情。馬丁和Lyft的團(tuán)隊(duì)成功地教算法去做這樣的工作。
他們著重于在任何時(shí)間有空的司機(jī)的“價(jià)值”,這個(gè)價(jià)值是司機(jī)工作當(dāng)天收入的估計(jì)值。然后,他們訓(xùn)練算法不間斷地分析實(shí)時(shí)情況,以便算法訓(xùn)練自己預(yù)期接下來(lái)最可能發(fā)生什么事情。
這類似于會(huì)下棋的強(qiáng)化學(xué)習(xí)算法,馬丁說(shuō)道。下棋算法接受數(shù)百萬(wàn)個(gè)實(shí)際棋局的訓(xùn)練,然后便可以用那些知識(shí)來(lái)預(yù)測(cè)對(duì)手的下一步走法。
該團(tuán)隊(duì)通過(guò)建立實(shí)驗(yàn)時(shí)段和對(duì)照時(shí)段來(lái)測(cè)試他們的算法。在實(shí)驗(yàn)時(shí)段,Lyft用強(qiáng)化學(xué)習(xí)算法來(lái)匹配司機(jī)與乘客,在對(duì)照時(shí)段,則用Lyft的一般算法進(jìn)行匹配。
在經(jīng)過(guò)一年多的調(diào)整改進(jìn)后,他們找到了一個(gè)在所有重要功能上都勝過(guò)舊算法的新算法。它一年為公司多增加相當(dāng)于超過(guò)3,000萬(wàn)美元的收益,司機(jī)的收入也相應(yīng)提高。乘客取消叫車的可能性減少了3%,叫車后沒(méi)有司機(jī)能夠接單的情況減少了13%。同時(shí),乘客的五星評(píng)價(jià)數(shù)量也變多。
馬丁說(shuō):“使用Lyft的人沒(méi)有增加。這些改善是由于司機(jī)獲得了更好的運(yùn)用?!?/p>
超越數(shù)學(xué)
他們的成功是共乘公司使用強(qiáng)化學(xué)習(xí)的第一個(gè)記載案例。不過(guò),設(shè)計(jì)算法不是唯一的困難點(diǎn)。
“比數(shù)學(xué)更重要的,是如何在公司內(nèi)做這件事情?!瘪R丁表示。
強(qiáng)化學(xué)習(xí)意味著涉及其中的人未必對(duì)事情的現(xiàn)況一清二楚。對(duì)一家公司而言,這變得有些棘手,馬丁說(shuō)道。比如,假設(shè)負(fù)責(zé)定價(jià)的團(tuán)隊(duì)想要進(jìn)行自己的實(shí)驗(yàn),那么他們就希望將所有其他因素保持不變以便了解實(shí)驗(yàn)數(shù)據(jù)。但如果與此同時(shí),一個(gè)匹配算法自行改變,要知道如何解讀定價(jià)實(shí)驗(yàn)的數(shù)據(jù)就變得很困難。
“它讓其他許多情況變得錯(cuò)綜復(fù)雜。”馬丁說(shuō)道。
此外,它使研發(fā)該算法的團(tuán)隊(duì)難以了解如何繼續(xù)創(chuàng)新?!叭绻藗儗?duì)正在發(fā)生的事情一無(wú)所知,他們?nèi)绾文軌蚶^續(xù)創(chuàng)新?”馬丁問(wèn)道。馬丁目前和一名博士生黃玉笛(音譯)合作,后者正在與Lyft合力研究這個(gè)問(wèn)題。
此外,在Lyft,這個(gè)算法的研發(fā)花費(fèi)了一年多的時(shí)間。“一年對(duì)科技公司是很長(zhǎng)的時(shí)間,兩個(gè)月就已經(jīng)很長(zhǎng)了!在一件效期不長(zhǎng)的事情上花一年時(shí)間是非常少見(jiàn)的。”他說(shuō)道。
最終,該團(tuán)隊(duì)保持士氣,終于說(shuō)服公司的其余部門讓他們繼續(xù)實(shí)驗(yàn)。他說(shuō),這不涉及高科技策略?!坝玫氖侨魏蔚胤蕉歼m用的相同方式,也就是去找合適的人商量,取得人家的信任。組織一個(gè)興致高昂的團(tuán)隊(duì),然后證明東西有效。在研究領(lǐng)域里,通常認(rèn)為構(gòu)想本身就已足夠,但對(duì)公司而言,真正可以帶來(lái)成果的是過(guò)程。”
事實(shí)是,至少在這個(gè)案例上,過(guò)程帶來(lái)“三贏”的情況,馬丁對(duì)此特別興奮。
每一次團(tuán)隊(duì)測(cè)試修改后的算法時(shí),他們會(huì)看著儀表板上各項(xiàng)重要指標(biāo)的顏色變化,紅色代表實(shí)驗(yàn)結(jié)果比現(xiàn)況糟,綠色代表比現(xiàn)況好。
“團(tuán)隊(duì)找到致勝算法的那一天,儀表板上出現(xiàn)了一整片綠色?!彼f(shuō),“這就是運(yùn)營(yíng)優(yōu)化真正要做到的事情:找出全綠的東西?!保ㄘ?cái)富中文網(wǎng))