程國艮,現任中譯語通科技股份有限公司首席技術官。2013年加入中譯語通,從零開始組建團隊,曾經帶領團隊先后承擔了公司的譯云、譯庫和譯見等重大科技項目,在機器翻譯、人工智能和大數據分析等技術領域取得了重要的技術成果,其中機器翻譯技術達到世界領先水平;2014年程國艮帶領團隊開始向自然語言處理技術中最難的機器翻譯技術發起攻堅,并確定了要做最好機器翻譯的目標;2016年程國艮帶領團隊利用深度學習的方法開始了語音識別、圖像識別和視頻分析技術的研究。
01
跨語言大數據平臺推動機器翻譯發展
人類的認知正在隨著技術形態的改變而不斷變化。隨著大數據、人工智能時代的到來,數據驅動與知識引導體系相融合已成為新的發展方向,并將為未來的技術革新帶來更多啟示。程國艮認為,當下人工智能再次被推到風口浪尖,這也讓以大數據、人工智能為代表的第四次工業革命變得與眾不同。
機器翻譯,又稱為自動翻譯,是指計算機程序將一種書寫形式或聲音形式的自然語言翻譯成另一種書寫形式或聲音形式的自然語言。機器翻譯形式包括詞典翻譯、計算機輔助翻譯和文本或語音的句子以及段落翻譯。它是計算語言學的一個分支,是人工智能的終極目標之一,具有重要的科學研究價值。
程國艮表示,現階段中國機器翻譯行業并未誕生出專門的數據供應商,數據并不對外出售,多數機器翻譯算法供應商以及數據供應商與機器翻譯軟件供應商集成一體。
2015年跨語言大數據的概念被提出,至今各家公司已經擁有了更加完善的數據版圖。通過跨語言大數據平臺,不僅完成了產品的升級與重構,同時也將服務深入到各個領域。程國艮認為,要打造完備的跨語言大數據平臺,主要是將大數據平臺與大數據應用進行分離,以組合拳的方式提供技術輸出,并將數據范圍由多語言的文本數據擴展到語音、影像等更多媒體的非結構化數據,并注入更強大的語言、視覺、語義等相關認知智能能力。跨語言大數據平臺應該包括數據采集平臺、數據治理平臺、數據分析和可視化平臺、DaaS數據服務平臺、大數據管理平臺和數據地圖,覆蓋大數據分析的全生命周期,為各個行業提供“一站式”解決方案,通過對海量數據進行深度挖掘,實現對數據價值的喚醒。他指出,跨語言大數據平臺作為機器翻譯技術生態的核心,將為各行業打造更加智能的大數據平臺,突破無監督學習、綜合深度推理等數據算法、分析難點問題,建立數據驅動、以自然語言理解為核心的認知計算模型,形成從大數據到知識、從知識到決策的能力升級。
02
機器翻譯技術目前面臨的問題
程國艮指出,雖然目前國內的機器翻譯技術已經達到了很高的水平,但是現在依然面臨著一些問題。圖形處理器(GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像、圖形相關運算工作的微處理器。
從1956年至1976年的符號智能,到1976年至2006年的計算智能,再到2006年至今的認知智能,隨著技術的不斷突破和發展,人工智能經歷了幾輪發展高潮。他認為,隨著深度學習在圖像識別領域的成功應用,全行業迎來了認知人工智能的飛速發展。在這一輪人工智能發展浪潮中,推動其高速發展的關鍵因素是數據和計算力。在新一輪技術發展面前,GPU更加適用人工智能所需的大規模通用并行計算能力。因此GPU成為很多人工智能公司的選擇。“當今是GPU驅動的大數據和AI技術。”程國艮表示。
但是,當前GPU的基礎——傳統Z-buffer算法不能滿足新的應用需求。在實時圖形和視頻應用中,需要更強大的通用計算能力,比如支持碰撞檢測、近似物理模擬;在游戲中需要圖形處理算法與人工智能和場景管理等非圖形算法相結合。當前的GPU體系結構不能很好地解決電影級圖像質量所需要解決的透明性、高質量反走樣、運動模糊、景深和微多邊形染色等問題,不能很好地支持實時光線跟蹤、Reyes(Renders everything you ever saw)等更加復雜的圖形算法,也難以應對高質量的實時3D圖形需要的全局光照、動態和實時顯示以及陰影、反射等問題。需要研究新一代的GPU體系結構突破這些限制。隨著 VLSI 技術的飛速發展,新一代GPU芯片應當具有更強大的計算能力,可以大幅度提高圖形分辨率、場景細節(更多的三角形和紋理細節)和全局近似度。圖形處理系統發展的趨勢是圖形和非圖形算法的融合以及現有的不同染色算法的融合。新一代的圖形系統芯片需要統一靈活的數據結構、新的程序設計模型、多種并行計算模式。我們認為發展的趨勢是在統一的、規則并行處理元陣列結構上,用數據級并行、操作級并行和任務級并行的統一計算模式來解決當前圖形處理系統芯片面臨的問題。
他提到,當前集成電路發展到納米級工藝,不斷逼近物理極限,出現了紅墻問題:一是線的延遲比門的延遲越來越重要。長線不僅有傳輸延遲問題,而且還有能耗問題。二是特征尺寸已小到使芯片制造缺陷不可避免,要從缺陷容忍、故障容忍與差錯容忍等三個方面研究容錯與避錯技術。三是漏電流和功耗變得非常重要,要采用功耗的自主管理技術。現代的圖形處理器芯片在克服紅墻問題的幾個方面有了顯著的進步:利用了大量的規則的SIMD陣列結構;它的分布存儲器接近了運算單元,減少了長線影響;它的硬件多線程掩蓋了部分存儲延遲的影響。但是隨著工藝進一步發展,當前GPU的體系結構難以適應未來工藝發展,沒有在體系結構上應對長線問題、工藝偏差和工藝缺陷問題的措施,特別是沒有考慮如何適應三維工藝。當前最先進工藝的晶體管的柵極厚度已經大約是五個原子。在制造時,少了一個原子就造成20%的工藝偏差。因此工藝的偏差成為SoC設計不能不考慮的問題。特別是到2018年后的納米級電子集成電路,可以通過隨機自組裝產生規則的納米器件。因此,新一代系統芯片的體系結構必須利用規則的結構并且容忍工藝偏差,具有容錯、避錯和重組的能力。我們認為采用大量同構處理器元之間的鄰接技術,適應納米級工藝和未來的三維工藝,采用新型體系結構和相關的低功耗、容錯和避錯的設計策略,對于未來的圖形處理系統芯片具有重要的科學意義。
03
機器翻譯未來的發展方向
程國艮表示,大數據發展的未來,必定是開放與共融的,在此基礎上,他提到了未來機器翻譯發展的方向。在數據共享的時代,真正能夠去挖掘數據的價值,能夠推動大數據產業發展的引擎是人工智能。談到機器翻譯的發展前景和出路,離不開三個關鍵詞:語料庫、大數據和云計算。
語料庫的開發和應用,開創了機器翻譯一個全新的思路,語料庫可以用于查詢,也可以對語料進行分類和分析,對翻譯實踐和翻譯研究都非常有幫助。翻譯平行語料庫的原理是呈現原文和譯文進行對比,我們可以通過輸入所需要翻譯的原文,計算機在語料庫中查詢與此相同或相近的表達,語料庫不一定給提供直接的譯文,但是能夠提供大量可供選擇的參考資料,語料越豐富,與對比的原文就有更多更高的相似度,語料庫的發展使得原文與語料的相似度無限接近。
由于翻譯的復雜性,影響翻譯的因素很多,現在很多翻譯軟件都已經考慮到這一點,在語料庫的操作上加入了很多參數標簽,縮小搜尋的范圍,這些標簽包括各種語境標簽、文化標簽、文體標簽、行業術語標簽、技巧策略標簽等,往往標簽越詳細,得到的結果越精確。應用語料庫的優勢在于翻譯會更加統一,討論和借鑒的空間會更大,不再存在句法語義的錯亂問題。
“云”指的是系統中的計算機群,其規模和能力理論上不受限制,而且可以在網絡中任意地方,如谷歌的網絡服務(包括搜索引擎谷歌地球等)架構在由多達200多萬臺計算機構成的云計算平臺之上,Amazon、微軟、IBM等的云計算平臺也都達到了幾十萬臺計算機的規模。借助云計算,網絡服務提供者可以在瞬息之間,處理數以千萬計甚至億計的信息,實現和超級計算機同樣強大的效能。傳統的數據存放和處理都在本地電腦或某個固定的網絡服務器上,云計算則把這一切都放在互聯網上,只有通過賬戶和特別的加密和安全系統保護的賬戶信息,除擁有權限的人以外,其他人都無法接觸,這是非常安全的。所以,語料庫規模越來越龐大,云翻譯將是未來機器翻譯的發展方向。云翻譯可以對海量的語料庫信息進行采集、傳輸、存儲和利用。在云翻譯平臺上,翻譯公司可以將人才儲備達到數萬人,還有涵蓋各行各業的專家隊伍,翻譯的速度和效率會倍增。
資料來源
1. 中譯語通參加“英偉達GTC 2018” 程國艮副總裁暢談GPU驅動的大數據和AI技術革命.中譯語通.2018-11-22.
2.中譯語通程國艮:人工智能——推動大數據產業發展的新引擎.銀河教育.2017-08-04.
整理撰文 | CTO學院智庫團隊
華東師范大學工程管理碩士專業學位點于2021年設立,由華東師范大學實體教學科研機構上海國際首席技術官學院負責招生和培養。學院聚焦人工智能、集成電路、生物醫藥和若干戰略性新興產業,培養首席技術官和未來科技型戰略企業家,服務國家科技創新發展戰略。
1、凡本網注明“來源:中國MBA教育網”的所有作品,均為中國MBA教育網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:中國MBA教育網”。違反上述聲明者,本網將追究其相關法律責任。
2、凡本網注明“來源:XXX(非中國MBA教育網)”的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
3、本網不保證向用戶提供的外部鏈接的準確性和完整性,該外部鏈接指向的不由本網實際控制的任何網頁上的內容,本網對其合法性亦概不負責,亦不承擔任何法律責任。
您的每一個有效信息都至關重要
服務熱線:010-8286 3124