亞馬遜 Alexa Prize 比賽冠軍團隊專訪：聊天機器人的突破與創新

情感導師 2024-02-01 8309

添加導師LINE：jaqg

獲取更多愛情挽回攻略婚姻修復技巧戀愛脫單幹貨

在 2017 年底結束的第一屆亞馬遜 Alexa Prize 比賽上，由華盛頓大學博士生方昊擔任領隊的 Sounding Board 團隊在全球上百支隊伍中突出重圍，一舉奪得冠軍。

亞馬遜 Alexa Prize 比賽面向全球各地的學生，旨在創造一個能與人進行自然對話和互動的社交對話系統，為用戶提供新鮮、有趣的對話體驗。比賽分為初賽和決賽兩個階段，在初賽階段，選手需要創造出一個社交對話系統，而在決賽階段，他們會對系統進行不斷改進。

據主辦方亞馬遜介紹，「通過比賽中學生們的創新工作，Alexa 的客戶將會有全新的、有趣的對話體驗，而來自 Alexa 用戶的大量互動和反饋將幫助學生們比以前更快地改進他們的算法。」

亞馬遜為優勝團隊提供的獎金高達 50 萬美元，如果哪個團隊設計出一款可以與人持續聊天達到 20 分鐘的對話系統，那麼這個團隊將獲得高達 100 萬美元的 Grand Prize 獎。

在最後的決賽中，Sounding Board （https://sounding-board.github.io/）團隊的平均對話持續時間為 10 分 22 秒，遠超第二名的 3 分 55 秒。雷鋒網 AI 科技評論第一時間聯繫到團隊成員——華盛頓大學的在讀博士生方昊和程浩，針對此次比賽的箇中細節對其進行採訪。

據方昊介紹，初次接觸這次比賽，是在華盛頓大學的 Mailing List 上看到有教授在進行推廣。參加這次比賽的原因也很簡單，「我看到之後，覺得看起來很有意思，於是和程浩商量了一些想法，再嚮導師諮詢了一些意見，決定參加這次比賽。」

「Sounding Board 是一個 5 人團隊，除了我和程浩，其他 3 名成員分別是 Elizabeth Clark，Ari Holtzman，Maarten Sap，他們也都是華盛頓大學的博士生。」方昊對 AI 科技評論表示，「我們在比賽中的主要指導老師是 Mari Ostendorf，她同時也是我和程浩的博士生導師。此外，在比賽過程中，Yejin Choi 和 Noah Smith 作為其他三人的博士生導師，也為團隊提供了很多指導意見。」

上圖從左至右：方昊，程浩，Ari，Mari，Maarten，Elizabeth，Yejin

雷鋒網 AI 科技評論了解到，Sounding Board 團隊中每個人的研究都有不同的側重點，涵蓋機器學習、深度學習、人機協作、心理語言學，不過有一個共同點，大家都共同關注自然語言處理。

那麼，集合了這麼多不同背景的博士生團隊，在此次比賽中的策略是什麼？為了打造這樣一個開放式的聊天機器人，他們的方法又有哪些？以下為雷鋒網 AI 科技評論與 Sounding Board 團隊的對話詳情，相信大家可以從中一窺究竟：

圖：Sounding Board 對話系統

1、比賽從初賽到結束持續了多久？在初賽和複賽過程中，你們整體的時間點規劃如何？

比賽持續了大概一年。因為我們隊伍沒有任何已有的對話系統，所以我們的規劃是一邊實現一個可以上線的對話系統，一邊嘗試各種各樣的新功能。

2、在這次的比賽中，你們主要面臨的難點有哪些？你們的系統主要由自然語言理解（NLU）、對話管理（DM）和自然語言生成（NLG）這三個模塊組成，在構建這三個模塊的過程中，分別有哪些挑戰？

一個很大的難點在於之前基本上沒有任何人機社交對話的數據，很多已有數據集都是任務導向的或者純閒聊式的。所以我們需要很謹慎地構建自己的數據集和模型。

在自然語言理解方面，主要的挑戰在於系統需要從多方面理解用戶，包括用戶的目的（intent）、問題、命令、情感、提到的話題等，同時我們還需要考慮到語音交互和文本交互的不同。在對話管理方面，主要的挑戰在於設計最優的策略來響應用戶的需求並且吸引用戶與系統進行更多的有意思的對話。而自然語言生成方面的挑戰在於如何使生成的回覆更加人性化，比如我們經常需要明示或者暗示用戶我們聽到了用戶的問題、命令，或者他們表達的情緒，而不是生硬的說出一個問題的答案。

除了以上提到的三個模塊，在我們的系統中，還有一個至關重要的模塊--內容管理模塊。

Sounding Board 的一個主要策略是進行以內容為導向的對話，所以我們的內容管理模塊會在網上爬取大量有意思的，適合語音交互的內容，然後選取相關的內容來進行對話。這裡的挑戰在於我們需要排除掉很多爭議性的，歧視性的，或者不適合家庭對話的內容。

3、在此次比賽中，亞馬遜為你們提供的數據有哪些？除了亞馬遜提供的數據，你們提到一開始嘗試過電影和研討會上的文本，但它們和實際用戶有很大的差別，你們是怎麼處理的呢？在決賽中又引入了其他數據嗎？

在此次比賽中，亞馬遜為我們提供免費的 AWS 資源和一些雲計算方面的技術支持，此外，在數據方面亞馬遜還提供華盛頓郵報的 API。

我們發現很多已有的對話文本數據集和實際用戶的交互有非常大的區別，所以我們轉而構建自己的數據集。這裡就涉及到前面提到的內容管理模塊，我們在網上爬取各種適合對話的內容之後，進而構建自己的知識圖譜（Knowledge Graph）。

我們在使用各種數據的時候非常謹慎，對爬取的內容會進行很多處理，例如風格轉換以及簡化，從而使得它們適合於語音交互。並且我們會通過實時的用戶對話的反饋來改進我們的內容管理模塊。

在決賽階段中，一個很重要的工作是由程浩完成的——根據網上爬取的關於電影的知識圖譜來進行一小段比較有深度的對話。同時，在決賽階段，我們也改進了內容管理模塊，包括擴展內容爬取範圍，部署新的內容處理模型。

4、聊天機器人分為開放式和特定任務式，你們這次構造的聊天機器人需要既能同時滿足用戶的閒聊需求（開放式），又能解決用戶在特定領域的專業回答（特定任務式）嗎？

Alexa Prize 的目標是開發一個社交對話系統，從而使得機器人可以與用戶進行連貫的、吸引人的對話，比較偏向於開放式的對話。

Sounding Board 的策略是進行以用戶為中心，以內容為導向的對話。

以用戶為中心主要表現在我們會儘可能的響應用戶的命令或者問題，同時 Sounding Board 還會通過一些問題來了解用戶的性格，從而更好的規劃對話。以內容為導向表現在系統會不斷通過拋出新的內容來吸引用戶將對話進行下去。比如當用戶提了一個問題的時候，我們不僅僅會給出這個問題的答案，還會嘗試推薦和這個問題相關的其他內容。

5、為了構造這種能進行開放式話題的聊天機器人，你們是怎麼做的呢？

在開放式話題上，我們需要涵蓋很廣的內容，並且需要區分領域（domain）和話題（topic）。運動、政治、娛樂、技術都屬於「領域」，此外還要涵蓋各種各樣的話題（比如世界盃比賽，奧斯卡頒獎典禮等）。

我們使用了一些文本分析模型來對爬取的內容進行索引，並把他們組建成知識圖譜。同時，當用戶提出一些話題但是知識圖譜中暫時沒有相關的內容時，Sounding Board 會嘗試推薦相關的其他話題來吸引用戶。

總的來說，為了進行開放式的社交對話，Sounding Board 的對話管理模塊（DM）會首要響應用戶的需求，同時將內容推薦作為潛在任務來推進對話的進行。

6、由於用戶具有多樣性，為了讓產生的回答更符合用戶的喜好，這其中又面臨哪些挑戰？你們是如何處理的?

Sounding Board 的內容管理模塊會儘可能的剔除掉不適合對話的內容，保留有意思的內容。同時對話管理模塊會根據對話的歷史以及內容的屬性來選取最優的策略進行對話。

另外，Sounding Board 有一個用戶性格分析模塊，這個模塊會通過一些心理學的問題來了解用戶的性格從而更好地進行內容推薦。

7、除了以上提到的功能：能和用戶在多個話題上交談，產生出吸引用戶興趣的回答，這個系統還需要能滿足其他什麼功能，對於對話時長、對話輪數是否有要求？是否需要設計出一個具備「情感」的機器人？

主辦方對於對話時長和輪數沒有特別的要求。Grand Prize 獎要求系統能進行 20 分鐘的對話，今年還沒有隊伍達到這個目標。

由於這個系統是面向客戶的，一個很重要的要求是不能使用戶產生不適感，比如不能使用帶有咒罵或歧視性的語言，也不能產生對小孩或者宗教不友好的話題。

機器人的「情感」是一個開放的問題，大家普遍會為機器人設計一個背景故事，從而使得它能回答用戶的一些特定問題（比如它最喜歡的顏色、歌曲等）。

8、你們的工作結合了以前的哪些研究，具體做了什麼優化和改進？目前深度學習的方法應用很廣泛，你們在比賽中是否有用到深度學習的方法？

我們的工作結合了我們以前關於社交媒體、數據挖掘、語音處理、心理語言學的研究，其中一個主要的工作在於把這些研究應用到對話系統上。

在沒有足夠並且合適的數據前，深度學習的優勢很難被利用。我們在線下部署了一些深度學習的模型，但是由於比賽的時間限制，我們還沒有將它們部署到最終系統裡面。Sounding Board 採用了模塊化的設計，通過這次比賽，我們得到很多寶貴的交互數據，我們正在探索和開發新的模型來改進現有的各個系統模塊。

9、你們在決賽上平均得分是 3.17 分，排名第一，這個分數是依據哪些指標來評判的呢？

在決賽階段，亞馬遜邀請了 3 位裁判和 3 位交互者（interactor)。每位交互者會和每個系統進行 2 次對話，但是他們不知道系統是來自哪個隊伍。交互者會儘可能的和系統進行交流，3 位裁判會通過耳機聽到對話，然後會在他們覺得不需要再繼續進行對話的時候按下停止鍵。當有 2 位裁判按下停止鍵的時候，對話會被強制終止。3 位裁判會根據對話的質量給出 1-5 之間的一個分數。

10、你們團隊平均對話持續時間是 10 分 22 秒，而第二名的平均時間是 3 分 55 秒，在這裡你們占據了壓倒性的優勢，在這裡能遠遠領先的關鍵是什麼？

這裡主要涉及到前面提到的 Sounding Board 的策略：以用戶為中心，以內容為導向。

用戶能夠控制對話的走向，隨時轉化話題，給出命令。Sounding Board 會不斷推薦新的、高質量的內容，響應用戶的各種需求，回應用戶的情緒。構建了為對話設計的知識圖譜，裡面涵蓋了比較多樣化，高質量的內容，所以能進行一些風格多樣化的對話。

11、目前想要創造這種聊天機器人，你認為最大的難點在哪裡？而如果想要在工業中應用，你認為 Sounding Board 還有哪些需要改進和完善的地方？

現在對這種聊天機器人的研究還剛剛起步，所以存在很多挑戰。我們認為其中的一個難點在於理解用戶的語言和情緒，另一個難點在於組建高質量的知識圖譜。

Sounding Board 在這兩個方面還存在很大的改進空間。

此外，如何進行更加深度的對話也是一個很大的挑戰。雖然我們嘗試了一些方法，但離目標還有一段距離。

12、今年是第一屆比賽，你認為今年的比賽對能力的考察主要側重在哪些方面？對於接下來參加類似比賽的同學，有什麼好的建議和經驗分享呢？

想要在比賽中取得滿意的結果，首先需要注重用戶分析。我們在分析用戶交互方式和需求方面花了很多精力。而想要打造像 Sounding Board 這樣的系統，大家需要掌握自然語言處理和數據挖掘這兩個比較重要的技能。同時，也需要一定的系統工程方面的基礎——可以在短時間內開發一個能部署在雲端的系統，並且能夠響應海量用戶請求。

我們的策略是讓系統儘早上線，從而可以分析用戶的交互模式，進而對系統進行迭代更新。

13、今年主辦方提供給第一名的獎金是 50 萬美元，你們的獎金打算如何分配呢？接下來打算如何利用這些獎金？

根據比賽主辦方的規定，50 萬美元會平分給 5 個學生。我們暫時還沒有計劃如何使用這些獎金。

這個階段我們更注重在現有的系統上做出一些高質量的研究。

14、未來會考慮往什麼方向發展？

方昊：我大概在今年夏天畢業，我的研究方向主要是自然語言處理、對話系統和機器學習。未來會考慮往工業界發展，做更多比較前沿的，和用戶、產品有緊密聯繫的研究。

程浩：在這次比賽中，我們隊伍積累了很多寶貴的資源和經驗，我希望繼續在機器學習和自然語言處理方向做一些深入的研究，準備明年畢業。

（完）