11 月 11 日消息,圖夫茨大學(xué)的研究人員發(fā)現(xiàn),大型語言模型在對話中的“插話”方面普遍表現(xiàn)不佳,這限制了它們的對話能力。
據(jù)IT之家了解,2024 年 11 月 12 日至 16 日在邁阿密舉行的自然語言處理經(jīng)驗方法會議(EMNLP 2024)上,圖夫茨大學(xué)的語言學(xué)和計算機科學(xué)研究人員將介紹一項研究,該研究揭示了人工智能對話能力的不足之處,并指出了改進其對話能力的可能途徑。這項研究結(jié)果已發(fā)表在 arXiv 預(yù)印本服務(wù)器上。
人類在對話中通常會避免同時說話,輪流發(fā)言和傾聽。每個人都會評估許多輸入線索,以確定語言學(xué)家所謂的“話輪轉(zhuǎn)換點”(TRP),可以理解為插話的合適時機。TRP 在對話中經(jīng)常出現(xiàn),許多時候我們會略過一個 TRP,讓說話者繼續(xù)。其他時候,我們會利用 TRP 來輪流發(fā)言,分享我們的想法。
長期以來,人們認為對話中的“副語言”信息 —— 語調(diào)、單詞和短語的延長、停頓和一些視覺線索 —— 是識別 TRP 最重要的信號。然而,圖夫茨大學(xué)心理學(xué)和計算機科學(xué)教授 JP de Ruiter 表示,如果去掉單詞,只給人們提供韻律 —— 就像你隔著襪子說話時傳出的那種言語的旋律和節(jié)奏,他們就無法再察覺出合適的 TRP。
相反,如果只以單調(diào)的語音提供語言內(nèi)容,研究對象將在其中找到大部分與自然語音中相同的 TRP。這表明,對話中輪流發(fā)言最重要的線索是語言內(nèi)容本身,而停頓和其他線索并不那么重要。
人工智能擅長檢測內(nèi)容中的模式,但無法以接近人類的能力檢測到合適的 TRP。
原因在于 AI 的訓(xùn)練數(shù)據(jù)。大型語言模型,包括最先進的 ChatGPT,都是基于互聯(lián)網(wǎng)上的大量書面內(nèi)容進行訓(xùn)練的,包括維基百科條目、在線討論組、公司網(wǎng)站、新聞網(wǎng)站等。
這些數(shù)據(jù)集中缺少大量轉(zhuǎn)錄的口語對話,這些對話是即興的,使用更簡單的詞匯和更短的句子,結(jié)構(gòu)也與書面語言不同。AI 不是在對話中“成長”起來的,因此它沒有能力以更自然、更人性化的方式建?;騾⑴c對話。
研究人員認為,可以通過對基于書面內(nèi)容訓(xùn)練的大型語言模型進行微調(diào),并用一小組對話內(nèi)容進行額外訓(xùn)練,使其能夠更自然地參與新的對話。然而,當(dāng)他們嘗試這樣做時,發(fā)現(xiàn)仍然存在一些限制,無法完全復(fù)制人類般的對話。
研究人員警告稱,AI 進行自然對話可能存在根本性的限制。它們是基于膚淺的統(tǒng)計相關(guān)性來預(yù)測下一個單詞,但輪流發(fā)言涉及到從對話更深層次的語境中汲取信息,也就是說,AI 可能無法真正理解對話的語境和意圖。
研究人員表示,可以通過對大型語言模型進行預(yù)訓(xùn)練,使其在更大規(guī)模的自然口語語料庫上進行訓(xùn)練,從而克服這些限制。然而,收集如此規(guī)模的數(shù)據(jù)來訓(xùn)練今天的 AI 模型仍然是一個重大挑戰(zhàn)。與互聯(lián)網(wǎng)上的書面內(nèi)容相比,可用的對話錄音和轉(zhuǎn)錄數(shù)量要少得多。