作為未來科技發(fā)展的前沿領(lǐng)域,人工智能在技術(shù)應(yīng)用方面有很多細分領(lǐng)域,比如深度學(xué)習(xí)、推薦引擎、計算機視覺、智能機器人、自然語言處理、實時語音翻譯、視覺內(nèi)容自動識別等。其中的自然語言處理,是人工智能領(lǐng)域中的一個重要方向。從整體來看,人工智能自然語言處理推動著語言智能的持續(xù)發(fā)展和快速突破,并越來越多地應(yīng)用于各個行業(yè)。
綜合來看,自然語言處理是人工智能的一種應(yīng)用程序,它為需要快速可靠地分析文本數(shù)據(jù)的公司提供了各種各樣的應(yīng)用程序。這有效地實現(xiàn)了人機交互,并允許對以前未使用的大量數(shù)據(jù)進行分析、格式化。
從2008年到現(xiàn)在,在圖像識別和語音識別領(lǐng)域的成果激勵下,人們也逐漸開始引入深度學(xué)習(xí)來做自然語言處理研究,由最初的詞向量到2013年word2vec,將深度學(xué)習(xí)與自然語言處理的結(jié)合推向了高潮。
近兩年,人工智能自然語言處理已實現(xiàn)的應(yīng)用包括機器翻譯、信息檢索、智能問答系統(tǒng)。在智能問答方面,借助人工智能自然語言處理,人們能夠精確地分析用戶所需要的知識,通過與用戶交互,為用戶提供個性化、實時性的信息服務(wù)。例如,瀏覽知乎時,會有相關(guān)問答推送、熱點詞、焦點問題排行等。
企業(yè)進軍人工智能自然語言處理領(lǐng)域,也為相關(guān)產(chǎn)業(yè)發(fā)展注入了更多活力,百度就是其中之一。當前,百度不僅在自然語言處理技術(shù)和產(chǎn)業(yè)應(yīng)用中取得豐碩成果,更秉承開源開放、合作共贏的理念,構(gòu)建了以飛槳深度學(xué)習(xí)平臺為基礎(chǔ)、集成語言與知識核心技術(shù)及多樣化場景解決方案的開源開放大生產(chǎn)平臺,這就為廣大開發(fā)者技術(shù)創(chuàng)新提供了相應(yīng)支持。
放眼國外,在閱讀理解領(lǐng)域,斯坦福大學(xué)于2016年通過Amazon眾包平臺建立了基于維基百科的數(shù)據(jù)集SQuAD,Microsoft亞洲研究院于2016年開放了基于必應(yīng)搜索記錄的數(shù)據(jù)集MSMARCO。
在醫(yī)療領(lǐng)域,基于云端平臺,使用人工智能和自然語言處理,實時為患者護理過程中的關(guān)鍵算法提供支持?;诩呻娮咏】涤涗浀能浖?,并直接在照顧病患的當下使用預(yù)測建模、機器學(xué)習(xí)、臨床NLP和人工智能就可以輔助醫(yī)療人員進行實時決策。
有分析人士指出,面對當前人工智能自然語言處理模型規(guī)模與計算機算力需求的日益增長,軟件和計算機硬件層面的協(xié)同創(chuàng)新具有重大意義。多模態(tài)融合的核心模態(tài),應(yīng)由具體的任務(wù)所決定,自然語言可視為符號系統(tǒng)。但如果不探究符號所表示的實際對象,將很難學(xué)習(xí)符號潛在本質(zhì)。
隨著人類進入智能時代,智能設(shè)備和各類數(shù)據(jù)數(shù)量都快速增長。自然語言處理領(lǐng)域經(jīng)過多年發(fā)展,雖然取得了長足的進步但同時也面臨很多挑戰(zhàn),其中最主要的主要問題有兩個:即語義理解(知識、常識的學(xué)習(xí)問題)和低資源問題。
面對標注數(shù)據(jù)資源貧乏的問題,比如客服系統(tǒng)、小語種的機器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、多輪問答系統(tǒng)等,自然語言處理尚無通用的高效解決辦法。而要想攻克相關(guān)難題,還需要一定的時間。
自然語言處理是人工智能禮帽上的明珠,而填補語言鴻溝的機器翻譯則是自然語言處理十分典型的應(yīng)用技術(shù)之一。機器翻譯的發(fā)展從剛開始運用規(guī)則系統(tǒng),到統(tǒng)計的機器學(xué)習(xí)方法,后又解決算法、算力等各方面的問題,不斷邁上新臺階。
隨著技術(shù)的快速發(fā)展,人們會越來越深入地理解自然語言、掌握知識,推動人工智能技術(shù)發(fā)揮更大的價值,以此為社會進步和產(chǎn)業(yè)發(fā)展提供更多的推動力。