Google和幼兒有什么共同之處??jī)烧叨夹枰獙W(xué)習(xí)良好的聆聽(tīng)技巧
Google和幼兒有什么共同之處??jī)烧叨夹枰獙W(xué)習(xí)良好的聆聽(tīng)技巧
投稿人和專(zhuān)利探險(xiǎn)家戴夫戴維斯回顧了最近發(fā)表的一篇文章,該文章建議谷歌將實(shí)體分組并利用他們的關(guān)系來(lái)傾聽(tīng)更好的多部分問(wèn)題答案。
在第六屆學(xué)習(xí)代表國(guó)際會(huì)議上,Google AI的研究人員Jannis Bulian和Neil Houlsby 發(fā)表了一篇論文,闡述了他們正在測(cè)試的改進(jìn)搜索結(jié)果的新方法。
雖然發(fā)表論文當(dāng)然不意味著這些方法正在被使用,甚至?xí)皇褂茫?dāng)結(jié)果非常成功時(shí),這可能會(huì)增加可能性。當(dāng)這些方法與谷歌正在采取的其他行動(dòng)相結(jié)合時(shí),幾乎可以肯定。
我相信這種情況正在發(fā)生,而這些變化對(duì)于優(yōu)化專(zhuān)家(優(yōu)化)和內(nèi)容創(chuàng)建者來(lái)說(shuō)意義重大。
發(fā)生什么了?
讓我們從基礎(chǔ)開(kāi)始,并且看看正在討論的內(nèi)容。
據(jù)說(shuō)一張圖片勝過(guò)千言萬(wàn)語(yǔ),所以讓我們從紙張的主要圖像開(kāi)始。

這張圖片絕對(duì)不值一千字。事實(shí)上,沒(méi)有這些字眼,你可能很迷茫。您可能想像一個(gè)搜索系統(tǒng)看起來(lái)更像是:

在最基本的形式中,搜索系統(tǒng)是:
- 用戶(hù)提出問(wèn)題。
- 搜索算法解釋問(wèn)題。
- 算法應(yīng)用于索引數(shù)據(jù),并提供答案。
我們?cè)诘谝粡垐D片中看到的,它說(shuō)明了論文中討論的方法,卻有很大的不同。
在中間階段,我們看到兩部分:重構(gòu)和總結(jié)?;旧?,這個(gè)新流程發(fā)生的是:
- 用戶(hù)向積極提問(wèn)問(wèn)題(AQA)代理的“重新配置”部分提出問(wèn)題。
- “重構(gòu)”階段帶著這個(gè)問(wèn)題,并且使用下面討論的各種方法創(chuàng)造一系列新問(wèn)題。
- 這些問(wèn)題中的每一個(gè)都被發(fā)送到“環(huán)境”(我們可以松散地將其視為核心算法,就像您今天會(huì)想到的那樣)以獲得答案。
- 每個(gè)生成的查詢(xún)的答案在“Aggregate”階段提供給AQA。
- 獲勝的答案被選擇并提供給用戶(hù)。
看起來(lái)很簡(jiǎn)單,對(duì)吧?這里唯一真正的區(qū)別是產(chǎn)生多個(gè)問(wèn)題和一個(gè)系統(tǒng),找出哪個(gè)是最好的,然后提供給用戶(hù)。
哎呀,有人可能會(huì)爭(zhēng)辯說(shuō),這是已經(jīng)發(fā)生的算法評(píng)估一些網(wǎng)站,并共同努力找出查詢(xún)的最佳匹配。輕微的扭曲,但沒(méi)有革命性的,對(duì)嗎?
錯(cuò)誤。這篇論文和方法還有很多不僅僅是這張圖片。所以讓我們繼續(xù)前進(jìn)?,F(xiàn)在是時(shí)候添加一些...

機(jī)器學(xué)習(xí)
這種方法的真正威力來(lái)自于機(jī)器學(xué)習(xí)的應(yīng)用。以下是我們需要詢(xún)問(wèn)的有關(guān)初始故障的問(wèn)題:
系統(tǒng)如何從各種問(wèn)題中進(jìn)行選擇?
哪個(gè)問(wèn)題產(chǎn)生了最佳答案?
這是它變得非常有趣的地方,結(jié)果令人著迷。
在他們的測(cè)試中,布魯恩和豪爾斯比開(kāi)始了一系列“危險(xiǎn)!”的問(wèn)題(如果你看節(jié)目,你就知道這些問(wèn)題真的是答案)。
他們這樣做是為了模擬人腦需要推斷正確或錯(cuò)誤反應(yīng)的場(chǎng)景。
如果您對(duì)游戲節(jié)目“Jeopardy!”不熟悉,請(qǐng)點(diǎn)擊此處快速剪輯以幫助您了解“問(wèn)題/答案”概念:
從論文:面對(duì)復(fù)雜的信息需求,人們通過(guò)重新構(gòu)建問(wèn)題,發(fā)布多次搜索和匯總響應(yīng)來(lái)克服不確定性。受到人類(lèi)提出正確問(wèn)題的能力的啟發(fā),我們向?qū)W員展示學(xué)習(xí)如何為用戶(hù)執(zhí)行此過(guò)程。
這是算法提出的“危險(xiǎn)!”問(wèn)題/答案之一。我們可以看到問(wèn)題如何轉(zhuǎn)化為查詢(xún)字符串:
旅行似乎不是這個(gè)巫師和一次性外科醫(yī)生的問(wèn)題; 星界投影和傳送是沒(méi)有問(wèn)題的。
這不是一個(gè)容易回答的問(wèn)題,因?yàn)樗枰占鞣N數(shù)據(jù),并且還要解釋自己經(jīng)常隱晦的問(wèn)題的格式和背景。事實(shí)上,沒(méi)有人發(fā)布“危險(xiǎn)!” - 就像問(wèn)題一樣,我不認(rèn)為Google目前的算法能夠返回正確的結(jié)果,這正是他們正在尋求解決的問(wèn)題。
Bulian和Houlsby用“Jeopardy!”編寫(xiě)了他們的算法 - 就像問(wèn)題一樣,并將一個(gè)成功的答案計(jì)算為給出正確或錯(cuò)誤答案的答案。該算法是從來(lái)沒(méi)有意識(shí)到的,為什么一個(gè)答案是正確的還是錯(cuò)誤的,所以它沒(méi)有給出任何其他信息來(lái)處理。
由于缺乏反饋,算法無(wú)法通過(guò)任何其他方式學(xué)習(xí)成功指標(biāo),而不是獲得正確答案。這就像在一個(gè)類(lèi)似于現(xiàn)實(shí)世界的黑盒子里學(xué)習(xí)一樣。
他們從哪里得到問(wèn)題?
測(cè)試中使用的問(wèn)題來(lái)自哪里?他們被送到Reformulate階段的“用戶(hù)”。一旦問(wèn)題被添加,流程:
- 從查詢(xún)中刪除了停用詞。
- 將查詢(xún)置為小寫(xiě)。
- 添加了wh-短語(yǔ)(誰(shuí),什么,何地,何時(shí),為什么)。
- 增加了釋義的可能性。
對(duì)于釋義,該系統(tǒng)使用聯(lián)合國(guó)平行語(yǔ)料庫(kù),該語(yǔ)料庫(kù)基本上包含1100多萬(wàn)個(gè)與六種語(yǔ)言完全一致的短語(yǔ)。他們制作了各種英文到英文的翻譯器,可以調(diào)整查詢(xún)但保持上下文。
結(jié)果
所以這就是所有這一切降落我們的地方:

訓(xùn)練完系統(tǒng)后,結(jié)果非常壯觀。他們開(kāi)發(fā)和訓(xùn)練的系統(tǒng)擊敗了所有變體并大幅提高了性能。事實(shí)上,做得更好的唯一系統(tǒng)是人類(lèi)。
以下是最終生成的查詢(xún)類(lèi)型的一小部分示例:

他們所開(kāi)發(fā)的系統(tǒng)能夠準(zhǔn)確地理解復(fù)雜而復(fù)雜的問(wèn)題,并通過(guò)訓(xùn)練以驚人的準(zhǔn)確度產(chǎn)生正確答案。
那么,戴夫?這對(duì)我有什么幫助?
你可能會(huì)問(wèn)為什么這很重要。畢竟,在搜索和持續(xù)改進(jìn)方面不斷發(fā)展。為什么這會(huì)有什么不同?
最大的區(qū)別是它對(duì)搜索結(jié)果意味著什么。谷歌最近還發(fā)布了一份ICLR會(huì)議的文件,建議Google可以根據(jù)其他內(nèi)容制作者提供的數(shù)據(jù)制作自己的內(nèi)容。
我們都知道,僅僅因?yàn)閷?xiě)了一篇論文,并不意味著搜索引擎實(shí)際上正在實(shí)施這個(gè)概念,但讓我們暫停一下,以便了解以下情況:
- Google有能力提供自己的內(nèi)容,而且內(nèi)容寫(xiě)得很好。
- Google對(duì)確定正確答案的能力非常有信心。事實(shí)上,通過(guò)調(diào)整其功能,它可能會(huì)超越人類(lèi)。
- Google有多個(gè)例子可以讓用戶(hù)留在自己的網(wǎng)站上,并通過(guò)點(diǎn)擊布局和內(nèi)容更改的搜索結(jié)果。
隨著這一切堆積如山,我們需要問(wèn):
- 這會(huì)影響搜索結(jié)果嗎?(它可能會(huì)。)
- 它會(huì)阻礙網(wǎng)站管理員的內(nèi)容制作工作嗎?
- 它會(huì)限制我們的內(nèi)容向更大的公眾傳播嗎?
再次,僅僅因?yàn)檎撐谋话l(fā)表,并不意味著內(nèi)容將被實(shí)施; 但谷歌是獲得的在超過(guò)人體的方式與語(yǔ)言理解復(fù)雜的細(xì)微差別的能力。Google也有興趣讓用戶(hù)留在谷歌地產(chǎn)上,因?yàn)樵谝惶旖Y(jié)束時(shí),他們首先是一家出版公司。
你能做什么?
你做同樣的事情,你一直做。推銷(xiāo)您的網(wǎng)站。
無(wú)論您是優(yōu)化進(jìn)入有機(jī)結(jié)果的前10名還是優(yōu)化語(yǔ)音搜索或虛擬現(xiàn)實(shí),都會(huì)銷(xiāo)售相同數(shù)量的藍(lán)色小部件。你只需要適應(yīng),因?yàn)樗阉饕娼Y(jié)果頁(yè)面(SERP)變化很快。
我們?cè)谶@里看到的方法提出了一個(gè)重要的主題,每個(gè)對(duì)優(yōu)化(優(yōu)化)感興趣的人都應(yīng)該密切關(guān)注,這就是實(shí)體的使用。
如果您查看由Bulian和Houlsby創(chuàng)建的系統(tǒng)生成的以上查詢(xún)集,您會(huì)注意到一般情況下,越精確地理解實(shí)體之間的關(guān)系,答案就越好。
事實(shí)上,具體措辭是無(wú)關(guān)緊要的。完全部署后,系統(tǒng)不需要使用您或我理解的文字。值得慶幸的是,它們使我們能夠看到,通過(guò)將實(shí)體及其關(guān)系進(jìn)行分組,使得以這些關(guān)系為基礎(chǔ)的答案更加可靠,可以實(shí)現(xiàn)成功。
如果你只是理解實(shí)體,那么這里有一段介紹概念和涵義的內(nèi)容。我保證你很快就會(huì)看到它們之間的聯(lián)系,而當(dāng)我們進(jìn)入下一代搜索領(lǐng)域時(shí),你需要關(guān)注這個(gè)領(lǐng)域。