進入21世紀(jì),面對網(wǎng)絡(luò)時代信息的爆炸式增長,中文信息處理作為一項基礎(chǔ)性、普適特性的信息技術(shù),面臨著挑戰(zhàn)和再次發(fā)展的機遇,在互聯(lián)網(wǎng)時代則顯示出其優(yōu)勢。它的開發(fā)利用關(guān)系到我國今后信息產(chǎn)業(yè)乃至社會經(jīng)濟的發(fā)展和安全,具有巨大的經(jīng)濟**和社會**。 中文信息處理包括了有關(guān)中文信息的采集、存儲、傳輸和利用,是指利用電子計算機和現(xiàn)代通信、照明、排版、等自動化技術(shù)對漢字信息進行輸入輸出整理、加工、轉(zhuǎn)換、傳輸、復(fù)制、等各種處理的一項新興的科學(xué)技術(shù)。其交叉性使之成為“信息科學(xué)”的分支;其綜合性應(yīng)用使之成為“系統(tǒng)工程”的一個實例。它涉及到語言文字學(xué)、計算機科學(xué)、信息科學(xué)、工程心理學(xué)、數(shù)理統(tǒng)計學(xué)、聲學(xué)、自動識別技術(shù)、人工智能、網(wǎng)絡(luò)技術(shù)、文獻檢索學(xué)等等。中文信息網(wǎng)已逐漸成為我國現(xiàn)代化社會的神經(jīng)系統(tǒng),它將促進人民文化和社會生產(chǎn)效率*提高。中文信息處理工程已建立起現(xiàn)代化中文語言文字信息系統(tǒng),使凝聚在語言文字中的知識信息發(fā)揮較大效能,使?jié)h語漢字得到較佳利用。 中字信息處理的應(yīng)用范圍非常廣泛,如編輯文稿整理文件檔案資料和排版印刷等,可以說凡是要文字表達信息的場所,都可以使用文字信息處理技術(shù)。文字信息處理的實質(zhì)就是把文字信息數(shù)字,就是用一個固定的數(shù)碼代表一個字母或文字,這一數(shù)碼就叫做代碼。這樣,在計算機內(nèi)部處理文字信息時,就可以像處理純數(shù)字一樣來進行。需要輸出時,再把替代的數(shù)碼還原成相應(yīng)的字母或文字。也就是說,漢字信息處理就是計算機對漢字代碼的數(shù)據(jù)處理。 中文信息處理應(yīng)用研究的問題,比如信息輸入中的鍵盤輸入和漢字識別發(fā)展已經(jīng)成熟,但語音識別卻很實現(xiàn),困難是要適應(yīng)不同人之間的語音變化以及外界的噪音干擾;中文信息處理研究分散而且存在著低層次重復(fù)、缺乏統(tǒng)一規(guī)范和標(biāo)準(zhǔn)的問題;現(xiàn)代漢語研究領(lǐng)域和計算機領(lǐng)域的隔絕狀態(tài)沒有出現(xiàn)根本性改變;漢語文和少數(shù)民族語言文字的信息處理技術(shù)與**水平相比,還有相當(dāng)大的差距。特別是自主知識產(chǎn)權(quán)的成果還不多;語言資源和成果的共享還有很大局限,網(wǎng)絡(luò)上對公眾開放的中國語言文字資源還很少,遠不能滿足我國國民經(jīng)濟發(fā)展和信息化事業(yè)對中文信息處理技術(shù)的要求等等。 北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。 NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。 隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有較加廣闊的市場。這將促使中文信息處理方面的高效中文搜索引擎、實時機器翻譯、大規(guī)模中文文本處理、跨平臺中西文自動識別轉(zhuǎn)換、泛中文語義理解、中文電子商務(wù)等技術(shù)實現(xiàn)重大突破。中文信息處理已成為我國信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),在互聯(lián)網(wǎng)日益成長的今天,中文信息處理技術(shù)將會較加成熟并創(chuàng)新。
詞條
詞條說明
靈玖軟件:NLPIR-Parser語義挖掘技術(shù)挖掘商業(yè)“石油”
面對信息社會中數(shù)據(jù)和數(shù)據(jù)庫的爆炸式增長,人們分析數(shù)據(jù)和從中提取有用信息的能力,遠遠不能滿足實際需要。但目前所能做到的只是對數(shù)據(jù)庫中已有的數(shù)據(jù)進行存儲、查詢、統(tǒng)計等功能,但它卻無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,較不能根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。這種現(xiàn)象產(chǎn)生的主要原因就是缺乏挖掘數(shù)據(jù)背后隱藏的知識的有力手段,從而導(dǎo)致“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并*發(fā)展起來
全文索引用于處理大文本集合,利用它人們可以在海量文本中快速獲取需要的信息。全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,此外現(xiàn)代的全文檢索系統(tǒng)還需要具有方便的用戶接口、面向WWW的開發(fā)接口、二次應(yīng)用開發(fā)接口等等。功能上,全文檢索系統(tǒng)**具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等等功能,外圍則由各種不
大數(shù)據(jù)九眼智能技術(shù)網(wǎng)絡(luò)信息治理新方向
當(dāng)下,**信息技術(shù)創(chuàng)新日新月異,以數(shù)字化、網(wǎng)絡(luò)化、智能化為特征的信息化浪潮蓬勃興起。沒有信息化就沒有現(xiàn)代化。截至2017年6月,我國網(wǎng)民規(guī)模已達到7.51億,伴隨著移動互聯(lián)網(wǎng)的普及程度不斷提高,上網(wǎng)人數(shù)和上網(wǎng)便捷程度不斷增加,我國互聯(lián)網(wǎng)上每日產(chǎn)生的違法有害信息數(shù)量隨之變得十分巨大,發(fā)現(xiàn)和處理這些違法有害信息的難度也隨之增加。如何控制網(wǎng)絡(luò)有害信息泛濫蔓延,實施精確打擊,規(guī)范凈化網(wǎng)絡(luò)空間,較大限度降
進入2l世紀(jì),計算機硬件和軟件較新的速度越來越快,計算機這個以往總給人以冷冰冰的機器的形象也得到了徹底的改變。人機交互的情形越來越普遍,計算機被人類賦予了越來越多的智能因素。伴隨著人類把較新的計算機技術(shù)應(yīng)用于各個學(xué)科,對這些學(xué)科的認知也進入了日新月異的發(fā)展階段,促使大量的新的研究成果不斷涌現(xiàn)。 隨著計算機這個人類有史以來較重要的工具的不斷發(fā)展,伴隨著不斷有新理論的出現(xiàn),人類必須重新對它們進行分析
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機: 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com