u1s1是什么意思?干飯人又是個啥?
當(dāng)在北戴河阿那亞的劇場里被突然問到類似稀奇古怪的問題,一時發(fā)懵的我只想當(dāng)場掏出手機(jī),給對方來個“百度一下”。
說起來,搜索這項(xiàng)“舊技術(shù)”最近的討論聲浪還真有點(diǎn)大。
君不見那邊新搜索工具廣告天天見,這廂聽著海風(fēng)看話劇的百度萬象大會現(xiàn)場,老牌搜索引擎也打出了“百度一下 生活更好”的新Flag。
其實(shí),正如百度集團(tuán)執(zhí)行副總裁沈抖現(xiàn)場所說,大家對搜索太過熟悉,以至于感受不到其中技術(shù)的變革,搜索的技術(shù)存在感那是真“感知不強(qiáng)”。
但實(shí)際上,“AI技術(shù)為搜索提供了持續(xù)進(jìn)化的動力”。
要知道,從古早的文本檢索到今天的人工智能,網(wǎng)絡(luò)世界的網(wǎng)頁數(shù)量已經(jīng)從千萬級別,增長到了千億級別,其中囊括的內(nèi)容可能比世界上所有圖書館加起來還要豐富。
在今天,想要高效連接今天的互聯(lián)網(wǎng)用戶和海量信息,搜索引擎其實(shí)真的沒那么簡單。
那么,究竟是怎樣的技術(shù)在驅(qū)動搜索引擎更智能地讀懂你的需求,連接豐富而又準(zhǔn)確的信息?
技術(shù)本身在海量信息增長面前,又經(jīng)歷了怎樣的進(jìn)化?
今天,不如就借著這陣勢,我們來好好說道說道。
從文本檢索到人工智能
現(xiàn)在,在使用搜索引擎時,你可能不只會用幾個關(guān)鍵詞,還會直接輸入你想問的問題。
但其實(shí)早期的搜索引擎采用的是文本檢索的方式,只能做到用戶查詢關(guān)鍵詞和網(wǎng)頁文本內(nèi)容的匹配。
可想而知,雖然這樣的方式也能把不同網(wǎng)頁的關(guān)聯(lián)度進(jìn)行排序,但總體的搜索質(zhì)量是比較差的。
而實(shí)際上,網(wǎng)頁之間有著豐富的鏈接關(guān)系,就像高引論文往往本身質(zhì)量更高,高質(zhì)量的網(wǎng)頁通常也會被更多的網(wǎng)頁鏈接。
為了進(jìn)一步挖掘和利用這種鏈接信息,1996年,李彥宏開發(fā)了Rankdex,即超鏈分析算法。這是世界上首個使用超鏈接來衡量網(wǎng)站質(zhì)量的搜索引擎。
也就是說,搜索引擎在收到一個用戶查詢之后,不僅僅會去匹配網(wǎng)頁的內(nèi)容,還會看看其他網(wǎng)頁對這個頁面的“評價”。
在此之后,谷歌也提出并使用了類似的PageRank技術(shù),并大獲成功。
超鏈分析算法,可以說是當(dāng)今每個主要搜索引擎排名算法的基礎(chǔ)。值得一提的是,在谷歌創(chuàng)始人拉里·佩奇的第一項(xiàng)網(wǎng)頁排名專利申請中,也引用了Rankdex。
如果說早期的搜索技術(shù)門檻不算高,從超鏈分析這個階段開始,一些今天大家伙普遍依賴的搜索引擎,就開始一騎絕塵,拉開差距了,比如谷歌,比如百度。
并且這些做搜索引擎起家的公司,如今也都成為了人工智能領(lǐng)域的先行者。
而事實(shí)上,甚至在人工智能未成顯學(xué)之時,為了讓搜索結(jié)果更快、更精準(zhǔn)、更個性化,搜索領(lǐng)域的巨頭們就已經(jīng)著手將機(jī)器學(xué)習(xí)的方法引入到搜索引擎中。
谷歌就在2016年上線了基于反向傳播技術(shù)的RankBrain算法。該算法可以基于語義分析和詞庫聯(lián)想,幫助用戶更快地搜索冷門的搜索結(jié)果。
而如今在NLP領(lǐng)域大火的BERT,也已被部署到谷歌搜索當(dāng)中。有了預(yù)訓(xùn)練語言模型的加持,即使你輸入的是一大段文字,搜索引擎也能夠get到你想查什么。
根據(jù)谷歌的數(shù)據(jù),BERT的引入為至少10%的搜索結(jié)果帶來了改善。
國內(nèi),百度同樣是最早投入人工智能技術(shù)研發(fā)的科技公司,在2010年就成立了單獨(dú)的NLP部門。
以搜索引擎技術(shù)為核心,在過去十余年中,百度演化出了語音、圖像、知識圖譜、自然語言處理等人工智能技術(shù)。這些長期的技術(shù)積累,甚至在今天進(jìn)一步拓展到了自動駕駛、AI芯片等領(lǐng)域。
這也是為什么,在今天,搜索引擎不僅僅能按照你輸入的文字進(jìn)行搜索,甚至直接給一張圖、一段音樂,AI也能理解你想要獲取怎樣的信息。
正如沈抖所說,打開百度App,你說出想問的問題,可能旁邊的人還沒聽清,百度搜索已經(jīng)能夠提供精準(zhǔn)的答案。而當(dāng)你在阿那亞的任何一個角落,看到不認(rèn)識花草苗蟲,打開相機(jī)使用視覺搜索,也能快速得到答案。
智能搜索時代背后的關(guān)鍵技術(shù)
所以,進(jìn)化到智能搜索時代,讓搜索引擎高效連接你和信息的核心技術(shù),具體又有哪些?
正好,在百度萬象大會上,沈抖也介紹了百度AI是如何推動搜索持續(xù)進(jìn)化的。我們一項(xiàng)一項(xiàng)來看個仔細(xì)。
深度語義匹配模型
2013年,百度搜索就上線了基于百億級用戶行為數(shù)據(jù)的SimNet語義匹配模型,使得搜索結(jié)果的相關(guān)性得到明顯提升。
簡單來說,SimNet利用詞向量技術(shù)解決了關(guān)鍵詞匹配失敗的問題,可以有效得到同義詞、近義詞之間的相似度,并且具有較強(qiáng)的泛化能力。
在實(shí)際應(yīng)用場景下,海量的用戶點(diǎn)擊行為數(shù)據(jù)會被轉(zhuǎn)化為大規(guī)模弱標(biāo)記數(shù)據(jù),再搭配并行訓(xùn)練算法,SimNet首次實(shí)現(xiàn)了可完全取代基于字面匹配的策略,而且可以直接建模非相似度類的匹配問題。
其核心網(wǎng)絡(luò)結(jié)構(gòu)形式,包括BOW、CNN、RNN、MMDNN等。
而基于這樣的深度語義模型,百度搜索已經(jīng)將一次全庫語義檢索的時間優(yōu)化到了10ms。
跨模態(tài)深度閱讀理解技術(shù)
前文也說到,有AI加持的搜索引擎,不僅僅能讀懂文字,還能聽懂語音、看懂圖片。
其實(shí),機(jī)器認(rèn)知世界的方式,也不僅僅局限在自然語言,還包括對語音、視覺等多模態(tài)信息的綜合應(yīng)用。
為此,百度重點(diǎn)研發(fā)了知識增強(qiáng)的跨模態(tài)深度語義理解技術(shù)。
一方面,打造擁有超過50億實(shí)體和5500億事實(shí)的多元異構(gòu)知識圖譜。通過將知識作為背景信息,增強(qiáng)了模型的語義推理能力。
另一方面,通過知識關(guān)聯(lián)跨模態(tài)信息,運(yùn)用語言描述不同模態(tài)信息的語義,進(jìn)而讓機(jī)器實(shí)現(xiàn)圖像和語言、語音和語言的一體化理解。
基于這項(xiàng)閱讀理解技術(shù),百度還在EMNLP-MRQA 2019閱讀理解國際測評中,以超出第二名近2個百分點(diǎn)的優(yōu)勢獲得冠軍。
智能化多模搜索技術(shù)
2015年,百度就提出了多模搜索的理念,探索從文本搜索向語音、視覺、視頻等多模態(tài)搜索的演進(jìn)。
而這或許也是智能化搜索在用戶層面最直觀的體現(xiàn)——在百度App中,你可以體驗(yàn)語音搜索、拍照搜索、實(shí)時翻譯、植物識別、視頻搜索等豐富的搜索方式。
除了前面提到的跨模態(tài)語義理解,在語音搜索上,百度搜索還集成了語音識別、語音合成等多項(xiàng)AI技術(shù),讓搜索引擎能“聽”會“說”,不僅能夠聽清、聽懂,還能深入理解語義,給出繪“聲”繪色的最佳搜索答案,讓搜索引擎與用戶之間的交互方式變得更加自然、流暢、便捷。
在視覺搜索上,百度搜索綜合了圖像識別、人臉識別、OCR、物體檢測、實(shí)體匹配等多項(xiàng)視覺技術(shù),并依托于搜索系統(tǒng)對全網(wǎng)圖像、視頻內(nèi)容的索引以及用戶行為,得以細(xì)粒度的識別用戶實(shí)時錄制的視頻流、拍照及上傳圖片中的實(shí)體和文字,進(jìn)而圍繞實(shí)體在用戶視覺場景下的需求,鏈接并組織相關(guān)內(nèi)容及服務(wù)提供給用戶,實(shí)現(xiàn)諸如拍題搜索、商品搜索、實(shí)時翻譯、植物識別等智能視覺搜索能力。
是的,不僅僅是圖文,作為當(dāng)前最紅火的通用信息載體,視頻現(xiàn)在也可以直接用來搜索,并且結(jié)合百度超大規(guī)模的知識圖譜,能實(shí)現(xiàn)精準(zhǔn)的搜索、定位。
本次萬象大會上,百度短視頻生態(tài)平臺總經(jīng)理宋健還最新發(fā)布了好看視頻知識圖譜產(chǎn)品功能,并提出“幀視頻”的概念。
“幀視頻”能延伸知識信息的密度,讓短視頻的知識含量濃縮到“幀”的顆粒度,推動短視頻成為更好的知識獲取的載體。
智能搜索不只是搜索
說了這么多,有沒有覺得日常的搜索背后,涉及到的信息量屬實(shí)龐大?
在今天,信息的獲取方式看似便捷,但海量資訊涌來的同時,也帶來了越來越多的無效信息。
這也是為什么我們會希望搜索的結(jié)果更加精準(zhǔn)。
而在此之外,我們還更希望搜索更能讀懂人的意圖,更節(jié)省時間、更高效地解決問題。
基于這樣的用戶需求,如百度,一方面在持續(xù)增強(qiáng)搜索本身的屬性,形成知識服務(wù)產(chǎn)品體系,提高首條搜索滿意度。
而另一方面,因?yàn)樗阉魈烊慌c各種服務(wù)場景具有連接性,百度也在圍繞“搜索+服務(wù)”做加法,以進(jìn)一步降低用戶的決策成本,提升服務(wù)能力。
所以,這也就解釋了為什么百度App品牌升級為“百度一下 生活更好“。
在這樣的背景之下,智能時代的搜索不再是簡單的信息檢索,而是人們與信息、服務(wù)等各種解決方案之間的高效連接方式。
此外,智能搜索和智能推薦融合,還會進(jìn)一步擴(kuò)大化這種效率的提升。
沈抖對此解釋說:
互聯(lián)網(wǎng)基礎(chǔ)設(shè)施日益完善,整個社會信息度在提升,用戶希望更快速地完成閉環(huán)需求。
百度正是基于這一需求的變化,提出了“人格化”和“服務(wù)化”戰(zhàn)略。
所謂“人格化”,是放大每一個創(chuàng)作者的才能,并把生態(tài)里的創(chuàng)作者和用戶直接相連,更快速地滿足用戶需求。
百度副總裁、百度App總經(jīng)理平曉黎就舉了這樣的例子:在知識分享領(lǐng)域,以往通過搜索,人們只能找到相關(guān)的靜態(tài)頁面;而搜索進(jìn)化后,百度還可以直接將搜索結(jié)果連接到能提供該結(jié)果的人,如專家、自媒體、知識博主等,進(jìn)一步消除信息差。
而“服務(wù)化”,則是讓用戶“所見即所得”。
圍繞這樣的核心戰(zhàn)略,基于搜索,百度把短視頻和重點(diǎn)垂類放在了關(guān)鍵位置上,百度健康、百度電商業(yè)務(wù)也在萬象大會上首次公開亮相。
歸根結(jié)底,從搜索到服務(wù)的落地,有很多的場景可以選擇,而這些場景的服務(wù)實(shí)現(xiàn),又恰恰需要搜索不斷進(jìn)化,從搜索到智能搜索。而想要做到這一點(diǎn),背后對技術(shù)能力的要求著實(shí)不低。
事實(shí)上,也有不少業(yè)內(nèi)人士認(rèn)為,搜索自誕生之初,就擁有類似于人工智能的屬性:你在搜索框中提問題,機(jī)器來找出答案提供服務(wù)。
而作為人工智能技術(shù)的第一塊試驗(yàn)田,不論是搜索還是機(jī)器都在不斷進(jìn)化,搜索現(xiàn)在也確實(shí)成為了人工智能技術(shù)的集大成者。
其越來越“機(jī)智”的進(jìn)化背后,驅(qū)動力正是來自百度這樣的企業(yè)、研究機(jī)構(gòu)長期積累的AI能力,讓搜索從原來的搜索分發(fā),到提供服務(wù),提供人格化的內(nèi)容和交互體驗(yàn)。
下一個十年,搜索技術(shù)還會有怎樣的超進(jìn)化?
你還有怎樣的期待,不妨在評論區(qū)一起聊一聊~
參考鏈接:
[1]https://en.wikipedia.org/wiki/Robin_Li
[2]https://lusongsong.com/info/post/406.html?__SAKURA=11996c0e2fcf9a9a499373a06e725a6ea1618368577_198393
[3]https://zhuanlan.zhihu.com/p/80491738
[4]https://blog.google/products/search/search-language-understanding-bert