時空預(yù)測技術(shù),迎來ChatGPT時刻。
時空預(yù)測致力于捕捉城市生活的動態(tài)變化,并預(yù)測其未來走向,它不僅關(guān)注交通和人流的流動,還涵蓋了犯罪趨勢等多個維度。目前,深度時空預(yù)測技術(shù)在生成精確的時空模型方面,依賴于大量訓(xùn)練數(shù)據(jù)的支撐,這在城市數(shù)據(jù)不足的情況下顯得尤為困難。
港大、百度聯(lián)合團(tuán)隊借鑒大型語言模型的思想,提出了一種新型的時空大型語言模型UbanGPT。
該模型在多種城市應(yīng)用場景中展現(xiàn)了出色的普適性。通過結(jié)合時空依賴編碼器和指令微調(diào)方法,該模型增強(qiáng)了對時間和空間復(fù)雜關(guān)系的理解,即使在數(shù)據(jù)稀缺的條件下也能提供更精確的預(yù)測。通過一系列廣泛的實驗,UrbanGPT在多個城市相關(guān)的任務(wù)上展現(xiàn)了其卓越的性能,并證明了其在零樣本學(xué)習(xí)領(lǐng)域的強(qiáng)大潛力。
時空大型語言模型UrbanGPT
挑戰(zhàn)1:標(biāo)簽稀缺和高昂的訓(xùn)練成本
盡管尖端的時空網(wǎng)絡(luò)在預(yù)測任務(wù)上表現(xiàn)出色,但它們的效能受限于對大量標(biāo)記數(shù)據(jù)的依賴。在城市應(yīng)用中,獲取數(shù)據(jù)通常非常困難,例如,要對整個城市的交通和空氣質(zhì)量進(jìn)行監(jiān)控,其成本是相當(dāng)高的。此外,這些模型在面對新地區(qū)或新任務(wù)時,其泛化能力通常不足,需要進(jìn)行重新訓(xùn)練以適應(yīng)不同的時空環(huán)境。
挑戰(zhàn)2:LLMs和現(xiàn)有的時空預(yù)測模型在零樣本泛化方面存在局限
如圖1所展示的,大型語言模型LLaMA能夠根據(jù)輸入的文本信息推斷出流量模式。但是,當(dāng)涉及到處理具有復(fù)雜時空依賴性的數(shù)字時間序列數(shù)據(jù)時,LLaMA的預(yù)測能力受限,有時可能會得出與實際相反的預(yù)測結(jié)果。與此同時,雖然預(yù)訓(xùn)練的基線模型能夠有效地編碼時空依賴關(guān)系,但它們可能會因為過度適應(yīng)原始訓(xùn)練數(shù)據(jù)而在沒有先前經(jīng)驗的新場景(零樣本場景)中表現(xiàn)不佳。
挑戰(zhàn)3:如何將LLMs的出色推理能力擴(kuò)展到時空預(yù)測領(lǐng)域:
時空數(shù)據(jù)具有其獨特的屬性,這與LLMs所編碼的信息之間存在差異??s小這一差異,并構(gòu)建一個能夠在多樣的城市任務(wù)中展現(xiàn)出卓越泛化性能的時空大型語言模型,是當(dāng)前面臨的一個重大挑戰(zhàn)。
時空大型語言模型UrbanGPT
據(jù)團(tuán)隊了解,這是首次嘗試創(chuàng)建一種時空大型語言模型,該模型能夠預(yù)測不同數(shù)據(jù)集上的多種城市現(xiàn)象,特別是在訓(xùn)練樣本受限的情境下。
本研究提出了名為UrbanGPT的時空預(yù)測框架,它賦予了大型語言模型深入理解時間和空間之間復(fù)雜相互依賴關(guān)系的能力。通過將時空依賴編碼器與指令微調(diào)策略巧妙結(jié)合,該框架成功地將時空信息與大型語言模型的推理能力融合在一起。
在現(xiàn)實世界數(shù)據(jù)基礎(chǔ)上進(jìn)行的廣泛實驗驗證了UrbanGPT在零樣本時空學(xué)習(xí)場景中的卓越泛化性能。這些實驗結(jié)果不僅凸顯了UrbanGPT模型的強(qiáng)大泛化潛力,也證實了它在精確預(yù)測和理解時空模式方面的有效性,即便在缺乏訓(xùn)練樣本的情況下。
時空依賴編碼器
LLMs在處理語言任務(wù)時表現(xiàn)出色,但它們在解析時空數(shù)據(jù)中固有的時間序列及其演化模式方面存在困難。為了克服這一難題,本文提出了一種創(chuàng)新方法,即整合時空編碼器來提升大型語言模型捕捉時空上下文中時間依賴性的能力。具體來說,所設(shè)計的時空編碼器由兩個核心組件構(gòu)成:一個是門控擴(kuò)散卷積層,另一個是多層次關(guān)聯(lián)注入層。
門控時間擴(kuò)散卷積層在不同層級上編碼了不同程度的時間依賴性,捕捉了具有不同粒度級別的時間演化特征。為了保留這些時間信息模式,團(tuán)隊引入了一個多層次的關(guān)聯(lián)注入層,該層旨在融合不同層級之間的相互關(guān)聯(lián)性。
為應(yīng)對可能出現(xiàn)的多樣化城市場景,本文提出的時空編碼器在模擬空間關(guān)聯(lián)性時不依賴于特定的圖結(jié)構(gòu)。這種做法考慮到在零樣本預(yù)測的情境下,實體間的空間聯(lián)系可能是未知的或難以明確界定的。這樣的設(shè)計確保了UrbanGPT能夠在廣泛的城市環(huán)境條件下保持其適用性和有效性。
時空指令微調(diào)框架
時空數(shù)據(jù)-文本對齊
為了讓語言模型能夠準(zhǔn)確捕捉時空模式,確保文本信息與時空數(shù)據(jù)的一致性是關(guān)鍵。這種對齊使得模型能夠整合多種類型的數(shù)據(jù),生成更豐富的信息表示。通過結(jié)合文本和時空領(lǐng)域的上下文特征,模型不僅能夠捕獲到補(bǔ)充性的信息,還能提煉出更具表現(xiàn)力的高級語義特征。
時空提示指令
在進(jìn)行時空預(yù)測時,時間與空間維度都蘊(yùn)含著豐富的語義信息,這些信息對于模型準(zhǔn)確理解特定情境下的時空動態(tài)至關(guān)重要。例如,早晨的交通流量特征與交通高峰時段顯著不同,同時商業(yè)區(qū)和住宅區(qū)的交通模式也各有特點。UrbanGPT框架通過整合不同粒度的時間數(shù)據(jù)和空間特征,作為其大型語言模型的指令輸入。具體來說,時間信息涵蓋了日期、具體時間等要素,而空間信息則包括了城市名稱、行政區(qū)劃分以及周邊的興趣點(POI)等數(shù)據(jù),如圖3所示。這種多維度的時空信息整合,使得UrbanGPT能夠精確地捕捉不同時間和地點的時空模式,顯著增強(qiáng)了其在未知樣本上的推理能力。