在智能搜索時代,搜索引擎日益成為高效連接我們和信息的核心技術,而隨著移動設備智能化程度也越來越高,搜索的過程除了逐漸從PC端轉到了移動設備,比如智能手機中,搜索方式也正發生轉變,文字、聲音已無法滿足人們的搜索要求,視覺搜索則顯得更加符合人們隨時隨地搜索的特性。
要知道,人類有近80%的信息獲取來自雙眼,人們對所看到的事物總是充滿了好奇心。而當圖像遇到搜索引擎,視覺搜索便應運而生,給到人們想要的答案。如今,貼近自然的搜索模式正在取代傳統的搜索方式,帶來智能搜索的新變。
從文本搜索到視覺搜索
互聯網發展到今天,人們已經對搜索太過熟悉,人們習慣了搜索技術的存在,以至于感受不到其中技術的變革。但實際上,從古早的文本檢索到今天的人工智能,網絡世界的網頁數量已經從千萬級別,增長到了千億級別,其中囊括的內容甚至比世界上所有圖書館加起來還要豐富。
我們都知道,早期的搜索引擎采用的是文本檢索的方式,只能做到用戶查詢關鍵詞和網頁文本內容的匹配。雖然這樣的方式也能把不同網頁的關聯度進行排序,但總體的搜索質量卻是比較差的。
相較于文本檢索,網頁之間有著更豐富的鏈接關系,就像高引論文往往本身質量更高,高質量的網頁通常也會被更多的網頁鏈接。為了進一步挖掘和利用這種鏈接信息,1996年,李彥宏開發了Rankdex,即超鏈分析算法。這是世界上首個使用超鏈接來衡量網站質量的搜索引擎。
也就是說,搜索引擎在收到一個用戶查詢之后,不僅僅會去匹配網頁的內容,還會看看其他網頁對這個頁面的“評價”。在此之后,谷歌也提出并使用了類似的PageRank技術,并大獲成功??梢哉f,超鏈分析算法,就是當今每個主要搜索引擎排名算法的基礎。
在搜索引擎從文本搜索轉向網頁搜索的同時,智能手機也加快了普及。相比較于傳統PC的搜索,智能手機的移動搜索發生了許多的變化,除了搜索方式從PC端的Web網頁演變為App外,人們的搜索訴求也不再是僅單純地獲取信息,而是對本地化、生活化的具體實體展開搜索。
在新的搜索需求下,再加上智能手機豐富的傳感器,人們搜索的輸入方式開始從傳統的文字輸入演變為文字、聲音、圖像、位置、體感等的綜合輸入,因搜索場景的移動性和網絡環境的變化而發生變化。
如今,在移動端,基于語音的搜索技術已經較為成熟,具有代表性的就是蘋果的“Siri”,它可利用人們的口述信息進行檢索,Siri的出現讓搜索更加符合人們的自然需求,使人與機器的交互演變為人與人的自然交流。此外,還有基于位置的搜索,當人們旅游至某地后,就可以收到相應的酒店、餐館等方面的提示信息,快速讓我們熟悉所在地。在文字、聲音、位置等搜索外,視覺搜索則是一種更加深度影響人們生活的搜索,并日益成為搜索技術的未來。
視覺搜索是通過搜索視覺特征,為人們搜索互聯網上相關圖形、圖像資料檢索服務的專業搜索引擎系統。簡單來理解的話,視覺搜索就是當我們拍攝一張照片后系統會提取此圖片的信息,然后和圖片庫中的圖片進行比對,最終找出和圖片具有極高相似度的一張圖片。
相較于視覺搜索來講,語音搜索識別率低,對使用者的說話語速、語氣、口音等具有較高的要求;語音搜索適合相對獨立和安靜的空間使用,受使用場景局限,使用手機語音會干擾周圍的人,也極容易被周圍環境干擾。而視覺搜索則是在移動場景下對“線下實體”的搜索,包括環境、商鋪、餐廳、招牌、商品、圖書、菜品、景點等,具有天然的技術優勢。
比如,當我們對路邊一只小狗感興趣時,使用視覺搜索軟件進行識別,我們就會知道它屬于哪一種狗,它的成長歷史和基因信息,它的生活習性,如何養好它,周圍是否有寵物醫院,在什么地方可以買到這種狗等一系列的相關信息。就像PC時代的搜索框一樣,攝像頭就是移動互聯網時代的入口,而流量入口又是搜索引擎之源,這也是谷歌和百度等搜索巨頭都對視覺搜索投入大量資源的原因。
不只是搜索
如果說視覺搜索在PC端上的優勢還是有限的,那么,當把視覺搜索技術“移動”起來,其功能便顯得異常強大。
移動智能手機幾乎已經成為了人們生活的必須,借助移動終端在生活中發現新東西的概率,遠比在網頁瀏覽時發現新東西的概率要大得多,而利用傳統搜索無法準確地完成對事物的描述,很多時候這就成了一個有頭無尾的搜索過程。但在移動端選用視覺搜索的話,借助所拍影像或圖片資料,馬上就能得到我們想要的結果,快捷、高效且符合人們的自然習慣。
阿里巴巴于2014年推出了視覺搜索引擎Pailitao, Pailitao用戶可以使用圖像進行搜索,并在阿里巴巴的在線購物網站淘寶上找到數十億項目中的匹配產品。 Pailitao幾乎涵蓋所有淘寶產品類別,包括時裝,鞋子,包包,家具,化妝品和食品。 比如,在淘寶的前20大類別之一的時尚服飾中,顧客經常使用Pailitao來搜索名人或影響者在照片中所穿的服裝或配飾。 Pailitao通過使用與顏色,樣式,品牌等相關的術語消除描述目標項目的需要,極大地改善了用戶體驗。
谷歌則更進一步。他們于2017年發布了一個通用的視覺搜索引擎——谷歌鏡頭(Google Lens)。它不僅可以識別出待售的產品,而且還能解碼整個景觀。你可以利用它學到任何你想學的東西。
谷歌之后,還有宜家。宜家在這方面取得的進展更大。在智能手機中安裝好他們利用增強現實技術開發的應用程序后,宜家就可以繪制我們家客廳的效果圖了,這個數字版本的效果圖中包含了所有家具的確切尺寸。
此外,盡管視覺搜索技術的基本功能是查找相似圖片、識別圖片中的事物,但當這種神奇的搜索能力與移動端的穿戴設備、社交網絡以及數以萬計的App結合起來時,這種搜索方式就會立刻變得強大,影響我們生活的方方面面。
當前,Google、Yandex、YouTube、Instagram或Pinterest中的視覺搜索及推薦正把無窮無盡的圖像和視頻推送到我們面前,而大型博物館的網站提供了大量藝術品和歷史文物的數字影像。
在社交領域,視覺搜索有助于我們結識與我們有相同興趣愛好的人,擴展深化社交網絡。Clickpic就是這樣的產品,人們拍攝自己的照片上傳后,可以看見社交網絡中其他用戶的相似圖片,通過這種相似的圖片便可建立起話題式討論小組,結識具有相同興趣愛好的人們,擴大上傳者的社交網絡。
不僅如此,視覺搜索還將更新智能終端的新模式——自然環境中的物體、圖片信息,對于視覺搜索來說,都是將真實的物理世界信息映射為互聯網信息的方式。基于此,再加上類似于谷歌眼鏡的可穿戴設備,人們的眼睛無疑多了一項視覺搜索功能。之前人們看到環境,然后通過大腦來對環境做出反應,但現在我們又增加了海量的云端信息。在這個過程中,終端設備的攝像頭就是下一個移動互聯網時代的入口。
視覺搜索的現在和未來
從文本搜索到網頁搜索,再到語音搜索和如今的視覺搜索,搜索技術的進步也能幫助我們得以更好地認識世界,增進我們獲取知識的手段。
當前,就視覺搜索來說,它還能識別現實生活中的更多事物,比如書籍、電影、DVD、植物和動物,等等。
另外,視覺搜索也提供了人們結識更多人的機會。可以說,視覺搜索雖然依舊是一項搜索技術,但它也已經不再是一個簡簡單單的搜索引擎了,它還承載了社交的功能。用戶利用百度的相似臉識別功能進行自拍,可以結識和自己相像的明星、朋友或附近的人,這使人們之間有了更多的聯系,人與人之間進行的分享也從線上順理成章地發展到線下。
雖然視覺搜索的未來令人期待,但現實技術的實現仍不盡如人意。李彥宏曾指出,視覺搜索目前仍是待解的技術難題。視覺搜索的關鍵技術密集,并且面臨與以往的搜索技術完全不同的背景技術難題,比如,移動端相機水平的參差不齊,照片信息模糊、色彩失衡、過度曝光、數據量大等問題,技術發展相對遲緩。
目前,在對平面或剛性物體(油畫、書籍、建筑物、CD、明星照片等)的搜索方面,視覺搜索的準確率已超過90%,而對于非剛性物體的圖像識別,則還需要更加有效的機器算法(比如,活動中的動物)。
部分軟件的人臉識別性能已做到極高的精度,主要是由于人臉的規則性及海量的人臉照片庫。但在常規圖像/影像資料等方面,視覺搜索的識別率顯著低于二維碼和條形碼的識別率。正如常規文字搜索引擎尚無法完全解析人類自然語言一樣,視覺搜索技術也無法完全了解圖像的語義內容,對影像賦予的語義理解較為困難,憑借目前的識別技術,僅僅是將獲取的資源進行清晰明確地羅列,然后讓用戶自行篩選,后續機器預處理數據量巨大。
與此同時,視覺搜索的人機交互性有待進一步改善。蘋果公司的Siri的語音搜索是在對話中完成的,而現在視覺搜索仍采用傳統文字檢索的方式,即使用者提交待檢索的內容,然后進行檢索的方式,交互的自然性依然有待提高。
此外,視覺搜索的數據傳輸量極大,對網絡傳輸質量提出較高的要求,隨著Wi-Fi覆蓋加強及5G時代的到來,網絡環境更好,視覺搜索性能也會大幅提升,李彥宏曾預言,當搜索時長變為0.1秒以內后,視覺搜索就將迎來大規模應用。
在今天,信息的獲取方式看似便捷,但海量資訊涌來的同時,也帶來了越來越多的無效信息。這也是為什么我們會希望搜索的結果更加精準。而在此之外,我們還更希望搜索更能讀懂人的意圖,更節省時間、更高效地解決問題。顯然,視覺搜索的進步不僅僅是搜索技術的進步,更是人類對于智能的探索的進步——智能搜索對于人類社會的影響,或許遠比我們今天想象的還要深刻。