“2013年至今,大數據處于修跑道階段!北本┥裰萏┰儡浖煞萦邢薰荆ㄒ韵潞喎Q神州泰岳)副總裁楊凱程認為,大數據產業在這一階段的發展中還存在一些問題,如文本等非結構化分析挖掘領域還缺少有效的工具。而造成這一現狀的癥結在于,“技術的投入和創新力度不夠,又缺乏現成的近道可走!

圖北京神州泰岳軟件股份有限公司副總裁楊凱程
當下,業界對于大數據概念性的討論已越來越少,進入相對靜默期,部分企業開始沉下來思索大數據能做什么,亦逐漸意識到技術優勢的重要性。
“現在是大數據場景創新的重要階段。有幸的是,鼎富科技(神州泰岳旗下成員企業)起初就意識到場景創新的重要性。在過去的2~3年積累了較多的場景和產品創新經驗,已具備了很好的技術和產品優勢,這是很多初創公司希望達到的。”楊凱程道出了鼎富科技能搶占眾人覬覦的大數據高地的關鍵所在。
“2+2”戰略:推進創新和轉型
人工智能和大數據是神州泰岳“2+2”全新業務格局中的重要部分。楊凱程介紹道,“6月收購鼎富科技后,公司正式推進‘2+2’發展戰略。第一個‘2’是指ICT運營管理和手機游戲,今年這兩項業務整體較好,構成了當下的主要利潤;第二個‘2’是指人工智能與大數據、物聯網與通訊技術應用,是泰岳未來著力打造的戰略業務,希望通過努力,在未來三年形成四輪驅動!
未來,神州泰岳將把人工智能和大數據作為重要的轉型方向之一。
楊凱程透露,神州泰岳并購鼎富科技的原因就在于公司對于大數據和人工智能領域未來發展前景的高度認可,而鼎富科技在非結構化文本大數據領域擁有自身的核心技術。
“因此,我們希望將自身在大數據產業鏈的現有資源和成果與鼎富科技的技術優勢進行整合,從而,擴大神州泰岳在整個大數據產業鏈上的實力,并希望,未來能夠在大數據和人工智能方向上有所作為!睏顒P程道出了并購的緣由。
為此,神州泰岳將以鼎富科技的技術為核心,對人工智能、大數據相關的業務進行整合!霸趥鹘y的ICT業務中如果我們導入人工智能,那么人工智能在運維管理等領域就會產生一些創新的機會和場景,比如運維知識庫的提升、運維工單的自動分揀和幫助臺的智能機器人等!睏顒P程分析了神州泰岳在人工智能和大數據方向與現有業務整合后的一個可能的發展途徑。
另外,神州泰岳子公司—神州泰岳智能數據公司和運營商合作較多,可以依托運營商的數據提供大數據的數據服務,在應用方面主要是幫助客戶做精準營銷、客戶分析和客戶畫像等業務,例如向出國咨詢公司提供精準營銷。
在“2+2”戰略下,神州泰岳的整體實力會得以再加砝碼,楊凱程說:“神州泰岳已積累了大量的行業客戶資源,尤其在運營商領域,使我們相對容易地在原有運營商的運維管理業務和其他延伸業務中疊加人工智能和大數據技術,從而使原有業務得以提升和創新。加之現在運營商對人工智能、大數據已有較充分的認識和逐漸明確的需求,也使得神州泰岳有可能成為該領域主要的供應商之一!
“不僅如此,結合鼎富科技在文本技術上的領先性以及原有金融行業等領域的先期優勢,神州泰岳的整體實力將在整合中得以進一步加強!睏顒P程補充道。
語義理解技術才是人工智能的關鍵
楊凱程認為,從某種角度上看,人工智能就是大數據,所以神州泰岳在往人工智能方向發展時,亦是在往大數據方向拓展。
鼎富科技的核心技術是非結構化文本的分析挖掘,即語義理解技術,并圍繞這個方向展開非結構化大數據業務。在該領域,自然語言的語義理解是人工智能認知技術的核心。IBM、微軟、BAT都在布局人工智能,而人工智能最離不開、也最具挑戰性的環節就是自然語言的語義理解技術,因此這些公司都希望在語義理解技術上實現突破。
目前,深度學習的出現使得自然語言處理領域在傳統的規則方法和統計方法之外,有了更為領先的技術手段。
應該說深度學習的出現,有效地促進了語音識別、圖像識別等領域的快速發展,使其可用性達到了可廣泛應用的條件,但是在自然語言語義理解領域通過深度學習來達到與語音識別等類似的效果,目前看還比較困難,尤其是中文的語義理解。
眾所周知,深度學習和統計方法都需要語料學習,高質量的數量龐大的語料就變得極為重要,這也是深度學習在自然語言語義理解方面所面臨的挑戰。
而在行業領域,積累和準備可供學習的語料這項工作仍較繁重,而且需要時間積累,但好的方面是行業領域具有邊界,所以在某些行業領域中如果樣本數據豐富或者易于積累的情況下,或者在特定的功能范圍內,深度學習是會有較好效果的。
“目前,我們在自然語言的語義理解方面,處于一個相對領先地位。鼎富科技自2011年成立就一直在研發基于概念計算、能夠解決中文歧義性和支持多語種的‘智慧語義認知技術’。該技術不同于深度學習和統計方法,不需要學習大量語料,這是不同公司在底層的自然語言語義理解技術的差異。”楊凱程解釋道。
“我們對非結構化文本大數據行業的另一貢獻是,研發了DINFO-OEC非結構化大數據的分析挖掘平臺。它是完全面向業務建模的,讓研發人員將注意力放在業務理解和業務表達上,而將鼎富科技的智慧語義認知技術進行了封裝,因此極大地縮短了行業應用場景創新的研發周期和提高了應用質量!痹跅顒P程看來,DINFOOEC平臺還存在不斷完善的要求,但它的出現推動了行業在文本處理技術的應用,促使大家開發應用時專注于業務的大數據創新,而不是成為語義技術和文本技術的困獸。
“近幾年,DINFO-OEC平臺推出后在工行、中行、順豐、軍工、政府中都得到很好的應用。2014年,中國工商銀行呼叫中心的客服工單分析挖掘系統、順豐的呼叫中心工單智能分檢系統都上線了。其中智能分類的準確率達到95%以上,并支持多語種,這在國際上也是遙遙領先!睏顒P程介紹。
“大數據時代,不能紙上談兵,而是要扎扎實實地結合行業進行場景的創新。”楊凱程認為,埋頭苦干、真有創新遠比空有噱頭來的重要。
三大戰略助推大數據優勢
依托在自然語言的語義理解上的技術領先優勢,神州泰岳大數據戰略主要分為三個層面:
楊凱程認為,推出泰岳語義云目的是因為自然語言語義理解技術的投入是十分巨大的,需要的技術研發時間也是長期的,而大數據和人工智能的發展離不開自然語言語義技術的應用,各行各業的大數據和人工智能創新除了技術創新的同時,也離不開業務場景的創新。
只有整合行業背景資源和語義技術資源才可能做好這件事,所以神州泰岳希望通過泰岳語義云的推出,將自然語言語義技術開發給市場,開發給合作伙伴和行業客戶,大家一起共同推動行業大數據和人工智能應用的發展,當然也希望有更多志同道合的同仁一起,圍繞泰岳語義云建設一個領先的自然語言語義處理的生態圈。
眾所周知,大數據尤其是非結構化大數據的分析挖掘,需要的投入和技術準入門檻很高,神州泰岳不可能覆蓋各行業的業務或創新。但現在社會化數據80%都是非結構化數據,非結構的文本數據在各行各業有大量需求。
“就此,我們希望通過語義云的方式,將非結構化數據的技術和人力向社會開放,也希望客戶和合作伙伴能通過使用這種能力,再結合自身對行業的創新理解和行業的背景、經驗,在行業中不斷創新,從而共同推動非結構化大數據產業的發展。”楊凱程如是說。
“我們現在雖未理清語義云開源的政策和策略,我們也還在學習中,但這是個方向。我們也希望集合更多的資源,共同推動語義云的創新。同時,我們也希望通過語義云的方式給神州泰岳帶來新的業務盈利模式。”為此,楊凱程表示,目前神州泰岳也已成立了神州泰岳人工智能研究院,研究院匯聚了鼎富科技的核心技術力量,以持續推動自身在自然語言的語義理解技術上的領先性。
人工智能的核心是認知,而認知的核心是語義理解技術。我們依托領先的語義技術,重點推出了兩款人工智能產品—統一業務知識庫和小富機器人。楊凱程指出,“現在的機器人還不能完全實現自然的交流,而未來機器人應該跟人溝通、交流時更像人,所以我們希望小富機器人能夠推動機器人在認知領域的進一步發展。”
知識庫也是人工智能的重要環節,F在知識庫的加工基本是人工的參與為主,由人工進行知識的加工、入庫,這會給知識庫的應用領域帶來大量的困擾和挑戰。
“我們希望能夠生產出新一代的知識庫系統,可以支持加工智能化,為行業帶來巨大的改變!睏顒P程如是說。
云服務戰略是神州泰岳希望服務好行業客戶的戰略,同時也是希望未來更多地采用SaaS服務的方式提供云服務,將服務對象向中小企業甚至個人傾斜的戰略。行業客戶具有較多的差異性,在一段時間內,服務行業的商業模式可能是多種模式的混搭,不排除傳統的解決方案交付方式,但是我們會盡可能尋找服務模式的機會和機遇,甚至在時機恰當的時候引導客戶選擇服務模式。
從目前來看,行業的大數據和人工智能機遇已經來臨,關鍵問題是,如何選擇機遇和如何落實落地的問題。
“工欲善其事,必先利其器”,對于神州泰岳來說,優勢在于“器”已經在手中了。楊凱程表示,“我們根據不同行業對文本技術的依賴度選擇行業。對文本技術依賴度很強,或文本是其重要業務的行業,如媒體、證券等行業將重點開拓!
對于文本的堅守與期待
要擁有國際影響力,核心競爭力是關鍵。就此,楊凱程認為,神州泰岳人工智能和大數據業務的核心競爭力就是自然語言語義理解技術的領先,尤其是對中文的分析處理能力。

楊凱程認為,“從某種角度上說,掌握中文語義理解技術對于中國人來說是一次重要機遇,不論是鼎富科技突破還是其它國內的友商突破都是值得慶賀的事情。長期以來與國外的IT巨頭相比,中國非常缺乏領先的IT技術領域,而‘中華民族是以漢字為記的偉大民族’,中文是我們祖先留下的最為寶貴的財富,而中文自身的歧義性等難于攻克的難題,也使得國外IT巨頭難于短時間突破,如果我們能夠領先,就能夠將中文的處理能力留在中國人手中。泰岳人希望看到這樣的情況,不希望喪失這個可以領先的機遇。”
因此,我們成立了神州泰岳人工智能研究院,使鼎富科技的技術人員可以專注地研究自然語言語義技術和人工智能的產品,由集團的其它分子公司來落實行業的應用創新和市場營銷。
“當我們擁有很強的中文處理能力同時又具有完全自主知識產權的時候,就為神州泰岳服務于軍隊、安全和公安等部門創造了機遇。例如我們在軍工行業做了一個類似于情報系統的知識庫,目前已經同時支持12個主要國家的語言,且其知識處理能力具有較好的領先性。再比如在公安刑偵文本分析挖掘中,對作案手段、時間、地點、物品、當事人和嫌疑人等信息的抽取水平的準確率和召回率都達到了90%以上,而這一技術能力通過優化是完全可以達到98%以上的,這將對提升刑事案件偵破的效率、線索的發現等提供極大的幫助。”楊凱程表示。
楊凱程認為,在未來大數據創新中,國內大數據企業還是具有很大優勢的!耙驗榇髷祿膶傩允潜镜鼗,和生活、工作具有較強的相關性。而國外企業在國內數據方面的獲取應該還是有一定挑戰的,這也給國內企業提供了競爭的便利。”
其次,應用產品的優勢明顯!罢菙祿谋镜鼗萍s和對于國內行業的理解,我們在產品創新上依然具有優勢。我們與國外在工具的研發等技術領域確實有差距,所以我們希望在中文這個細分領域,做得比國外更強!睏顒P程道出了產品的優勢和未來的戰略所在。
優勢和困境總是如影隨形。大數據面臨的難題就是需要大量而持續地投入!岸Ω豢萍荚陂_始的幾年中,將70~80%的資金都投入了研發,雖然保持了每年接近300%的收入增長,但還是不一定能夠完全滿足研發投入的要求。而大數據和人工智能的發展極其迅速,IT和互聯網巨頭們紛紛加入,若沒有及時把握,就可能喪失機會,我們不希望喪失機會,所以才與神州泰岳進行整合!睏顒P程道出了發展大數據的困局和堅守之難。
文本技術需要承載公司未來商業模式的轉型。但楊凱程認為,在這個過程中,需要有所為、有所不為。相信有這份有所為、有所不為的魄力,神州泰岳將在人工智能和大數據領域開拓出一片新天地。