深圳logo設(shè)計公司需要做出的第一個明確區(qū)分是我們是在談?wù)摽谡Z(語音)還是書面語言,即類似 Alexa 的系統(tǒng)上的語音機(jī)器人,還是 FB Messenger、網(wǎng)絡(luò)聊天或短信上的聊天機(jī)器人(文本機(jī)器人)。一個比另一個花費更多的時間和精力來構(gòu)建。(請注意,雖然英文單詞“to chat”并不意味著對話是以書面形式還是口頭形式進(jìn)行的,但該術(shù)語通常用于基于文本的系統(tǒng),因此我將在這里繼續(xù)使用這個含義。)
口語通過聲音信號變得生動起來。要理解用戶在說什么,深圳logo設(shè)計公司首先必須將他們的演講轉(zhuǎn)錄成文本。此過程通常稱為語音識別,縮寫為 ASR(“自動語音識別”)。此步驟的輸出是 text。但這就是事情很容易變得模糊的地方。將語音轉(zhuǎn)換為文本的過程實際上只是一個轉(zhuǎn)錄步驟——計算機(jī)知道(“識別”)你所說的單詞,但它還不知道如何處理這些單詞。
短暫的繞道?;氐酱髮W(xué)時代,我學(xué)習(xí)了兩個學(xué)期的韓語。韓語的書寫系統(tǒng)乍一看很復(fù)雜,幾乎像中文,但實際上非常簡單,因為它像我們的拉丁語系統(tǒng)一樣由字母組成——準(zhǔn)確地說是 24 個。在學(xué)習(xí)韓語的過程中,我學(xué)習(xí)了各種詞匯。到現(xiàn)在,15 年過去了,我已經(jīng)忘記了大部分,但我仍然記得如何讀寫韓語。我們錯過了讓計算機(jī)與我們進(jìn)行有意義的對話的一大步:理解用戶所說的行為。一旦我們進(jìn)入文本域,我們就需要計算機(jī)來理解. 該階段被稱為自然語言理解。此步驟的輸出是所謂的語義表示或語義解釋。雖然消除對語音識別的需求確實讓聊天機(jī)器人的工作變得更容易,但構(gòu)建功能性機(jī)器人的主要挑戰(zhàn)在于自然語言理解。理解句子到語義表示沒有 1:1 的映射是很重要的。這與語境、語言知識、世界知識和對話歷史有關(guān)。人類語言是高度模棱兩可的。
在構(gòu)建語音機(jī)器人時,您現(xiàn)在可以將語音識別技術(shù)視為商品。不管什么花里胡哨,工作很明確:接收語音信號并告訴我說出的話。有很多供應(yīng)商在做這項工作,而且做得很好。深圳logo設(shè)計公司和所有其他產(chǎn)品現(xiàn)在成為大眾市場現(xiàn)象的原因是因為語音識別的準(zhǔn)確性已達(dá)到可接受的水平??紤]為了構(gòu)建機(jī)器人而解決這個問題。(這可能是我在這篇文章中做出的最具挑釁性的聲明,因為我知道很多人會在這里反對。)
如前所述,機(jī)器人成功的關(guān)鍵不是語音識別,而是正確理解和解釋用戶話語。這就是深圳logo設(shè)計公司仍處于起步階段的地方。在我看來,這里最重要的見解是,構(gòu)建一個有用的機(jī)器人更多是好的設(shè)計而非好的技術(shù)的結(jié)果。如果您真正站在用戶的角度,仔細(xì)考慮對話流程并預(yù)測機(jī)器人給出的每一個響應(yīng),用戶接下來會說什么或輸入什么(基于有限的語義可能性集,而不是選擇)的詞?。?,并為這些中的每一個提供響應(yīng)或觸發(fā)的動作,那么您很可能會成功。沒有什么比機(jī)器人回應(yīng)“對不起,不確定你剛才說的話”更令人沮喪的了。
深圳logo設(shè)計公司為自然語言理解任務(wù)選擇的技術(shù)框架應(yīng)該支持您對用戶話語進(jìn)行正確的語義解釋——但作為機(jī)器人的設(shè)計者,做正確的事情的工作仍然是您的工作。計算機(jī)可能會模擬對句子的“理解”,但它是根據(jù)你給它的規(guī)則來進(jìn)行的,無論是通過使用機(jī)器學(xué)習(xí)的大量訓(xùn)練工作,還是大量的規(guī)則編碼工作。這兩種方法都有助于最終產(chǎn)生令人滿意的結(jié)果。