講真,再熟悉不過的搜索引擎,正影響著我們的思考方式。
正如TCP/IP協(xié)議之父、圖靈獎獲得者溫頓·瑟夫(Vinton Cerf)認為:
搜索引擎,已傾向于成為人類基本記憶的替代品。
怎么理解?
簡單來說,就是很多情況下,我們不再記憶所需的信息本身,而是記住能把它們搜索出來的方法和關鍵詞。
而隨著我們對搜索引擎的越發(fā)依賴,對其性能也提出了更多要求。
那么站在當下,未來的搜索,應該是怎樣的呢?
未來的搜索方式:腦機接口
提到腦機接口,或許你會想到馬斯克,想到猴子用“意念”打游戲。
但它也能還跟我們常用的“搜索”聯(lián)系起來?
是的,而且二者的結(jié)合,還是可能“加強人類自身思考能力”的那種。
△ 清華大學計算機系黨委書記,劉奕群
這就是由清華大學計算機系黨委書記劉奕群教授所做的極具未來感的研究。
先來簡單了解一下腦機接口的原理:
腦機接口通過設備采集大腦中的信號,而后對信號進行特征提取、轉(zhuǎn)譯,變成計算機可以理解的“人腦命令”,最后通過腦機接口的一些應用,實現(xiàn)對外部世界的操控。
那它與搜索的結(jié)合點,又是什么呢?當前的搜索過程大致是這樣的:
用戶產(chǎn)生了“搜索信息”的需求,然后通常會用“關鍵詞”的形式在引擎中進行搜索;而后搜索引擎會反饋給用戶結(jié)果,用戶看到之后便會產(chǎn)生相應的感受,也就是“是否滿足了自己想要的答案”。
這是傳統(tǒng)搜索的一個流程,但卻存在三個問題。
首先,是查詢。
簡單來講,用戶搜索需求是非常豐富的,但查詢本身是受到表現(xiàn)形式的影響,換言之,絕大部分人還是依賴關鍵詞形式的查詢。
其次,是搜索結(jié)果的滿意度。
雖然在查詢過后,搜索引擎會呈現(xiàn)很多結(jié)果,但這種形式是非常間接的。
具體而言,用戶可能會去點擊結(jié)果,或者在結(jié)果頁面上停留一段時間,但這種反饋毫無疑問,是帶有非常強的歧義性。
最后,是上下文環(huán)境。
用戶在搜索過程中,是具備完整的上下文環(huán)境,包括用戶自身的信息、時空位置,而對于這些信息,搜索引擎在很多情況下是沒有利用起來的。
而通過腦機接口的能力,能做到的事情要比傳統(tǒng)搜索更多。
例如在需求方面,腦機接口能夠給搜索引擎,除了關鍵詞之外的更多信息。劉奕群教授表示:
我們想到什么,就能提供給搜索引擎,如此一來,所提供的信息是非常精準的。
而且不僅僅是查詢的需求內(nèi)容,還有可能是用戶當時的情感信息、周圍環(huán)境對用戶產(chǎn)生影響的信息等等。
更重要的是,這種提供查詢需求的方式還是近乎實時的,因此也更具真實性。
簡單來講,腦機接口+搜索引擎,要做的工作就是:
通過腦機,擁有用戶的情感,感知用戶的情緒,便可以建立良好的心智模型,提供用戶在搜索關鍵詞之外更加精準的用戶信息需求描述,更好的提升搜索的體驗。
當然,這是一件具備未來感的事情,那是否有點“天方夜譚”、可否實現(xiàn)?
劉奕群教授認為,應當先來思考一下當前通過腦機接口可以實現(xiàn)的功能。
例如現(xiàn)在可以腦機接口以高精準度控制鼠標的移動、可以把人要說的話“解譯”出來、高端的思考和認識轉(zhuǎn)變成文字,以及通過功能性核磁共振等輔助工具,來研究信息需求產(chǎn)生的過程。
基于此,劉奕群教授提出了對“腦機接口搜索”所面臨的三大挑戰(zhàn)。
第一個難點,是需要對搜索的交互范式進行重新定義。
人腦思考方式非常復雜,很難做到聚精會神地思考一個問題,如何提煉相關性的上下文,還能過濾掉無關的信息,是另外一個難點。
第三點,就是在提升用戶個性化體驗的同時,如何做到保護用戶的隱私。
未來的搜索算法:深度語義學習
而除了“搜索方式”之外,未來的“搜索算法”,又該是怎樣的?
舉一個例子,“Future and Options”在普通語境下是“未來與選擇”的意思,在金融語境下卻是“期貨與期權”。
搜索引擎如何處理這種問題?
搜狗CEO王小川認為,未來的搜索將從關鍵詞搜索走向深度語義搜索。
△ CCF企工委副主任、CCF CTO Club主席、搜狗CEO,王小川
使用稠密向量表示的檢索模型,深度語義特征匹配排序以及自動提取搜索答案,實現(xiàn)深度檢索、深度排序和深度展現(xiàn)。
深度語義搜索雖好,但對于互聯(lián)網(wǎng)海量的數(shù)據(jù)和紛繁復雜的用戶意圖,在應用中還面臨著三大技術挑戰(zhàn)。
檢索挑戰(zhàn):語義漂移
人的語言表達是很隨意的,如果搜索“炒股的炒字是怎么來的”,既可能匹配到與炒股一詞的由來相關的結(jié)果,但還可能匹配到股票是怎么被炒起來的。
這就是深度語義學習在檢索層面的一大挑戰(zhàn)“語義漂移”,使得檢索出的結(jié)果與用戶實際查詢意圖不完全相符。
排序挑戰(zhàn):結(jié)構(gòu)丟失
傳統(tǒng)倒排索引方式搜索結(jié)果的排序有人工參與,可以對整篇文檔的結(jié)構(gòu)清晰度、所屬站點的權威性等特征進行提取和打分。
而使用深度語言模型對檢索結(jié)果提取特征有一定的字數(shù)限制,難以覆蓋到整篇文檔。這會造成排序依據(jù)的“結(jié)構(gòu)丟失”。
展現(xiàn)挑戰(zhàn):價值稀疏
現(xiàn)在的搜索引擎給出一些結(jié)果條目,需要用戶主動在其中瀏覽挑選。而據(jù)統(tǒng)計有1/4的搜索請求都是問題式,搜索結(jié)果不能直接給出答案是結(jié)果展現(xiàn)的“價值稀疏”。
搜狗針對這些問題,采用將傳統(tǒng)倒排索引的結(jié)果和深度語義稠密向量搜索的結(jié)果結(jié)合起來的辦法。
進一步的,將兩路結(jié)果的特征相互交叉融合。對稠密向量檢索結(jié)果計算內(nèi)容匹配特征,對倒排檢索結(jié)果計算語義特征。
最終達到超過BERT的效果。
除了技術挑戰(zhàn)之外,深度語義搜索還面臨三個工程問題。
兩種搜索結(jié)果結(jié)合的辦法增大了運行成本,如何做到低系統(tǒng)開銷、可復用。
如何做到高性能、在高并發(fā)計算時如何保障低延遲。
面對峰值壓力如何做到高可靠性。
如何解決這些問題就是搜狗今后要探索的道路。
CCF C³:連接學界與產(chǎn)業(yè)界
以上精彩內(nèi)容,全部出自CCF C³的第三期活動,主題為“深度語義學習在搜索的應用”,由搜狗承辦。
C³活動是由中國計算機學會CCF CTO Club發(fā)起的,旨在聯(lián)結(jié)企業(yè)CTO及高級技術人才和資深學者,每次以一個技術話題為核心,走進一家技術領先企業(yè)。
第一站走進京東,主題為“智能客服”,清華大學的黃民烈、劉知遠教授與京東技術副總裁何曉冬共同探討了下一代智能對話系統(tǒng)。
第二站走進小米,主題為“智能家居”,小米副總裁崔寶秋、小米AI實驗室主任王斌與清華大學徐迎慶教授分享了AIoT的歷史與智能家居的發(fā)展方向。
本次第三站走進搜狗報告結(jié)束后舉辦了承辦單位旗幟交接儀式,揭曉了下一次活動承辦單位是百度,具體時間是5月14日晚上6:30-9:30。
參考鏈接:
[1]https://dl.acm.org/doi/fullHtml/10.1145/2563407
[2]https://mp.weixin.qq.com/s/zrOR42Gm4xRZASAWik1DOQ