八方資源網(wǎng) > 八方資訊 > 商務(wù)服務(wù)資訊網(wǎng)

靈玖：Nlpir Parser智能語(yǔ)義平臺(tái)提升文本挖掘效果

時(shí)間：2017-06-19

　　大數(shù)據(jù)挖掘是伴隨者互聯(lián)網(wǎng)的普及應(yīng)用和傳統(tǒng)信息檢索技術(shù)的不足提出并發(fā)展起來(lái)的。大數(shù)據(jù)挖掘是從大數(shù)據(jù)中發(fā)現(xiàn)有用的模式(其中的數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中)，它旨在解決數(shù)據(jù)挖掘、信息檢索、知識(shí)抽取以及較廣泛的商業(yè)問(wèn)題。
　　作為大數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要研究分支，文本挖掘與處理主要研究從非結(jié)構(gòu)化及半結(jié)構(gòu)化的海量Web文本信息中挖掘有**的信息，處理其中可能隱藏著的概念及其聯(lián)系，并完成可能的知識(shí)發(fā)現(xiàn)。
　　文本挖掘與處理的主要對(duì)象是自然語(yǔ)言。自然語(yǔ)言的多樣性和復(fù)雜性決定了計(jì)算機(jī)往往很難實(shí)現(xiàn)對(duì)自然語(yǔ)言的完全理解。在語(yǔ)言的深層挖掘上，目前的語(yǔ)言學(xué)研究和計(jì)算語(yǔ)言學(xué)研究尚不能充分地理解語(yǔ)言的內(nèi)在含義，而精細(xì)語(yǔ)言分析也往往并不能充分解決復(fù)雜的現(xiàn)實(shí)問(wèn)題。因此，淺層語(yǔ)言分析可能是目前可行的一條研究路線。一方面，它能夠針對(duì)需求抽取語(yǔ)言表層之下特定的關(guān)鍵信息;另外一方面，它兼顧了分析結(jié)果的準(zhǔn)確性和系統(tǒng)的實(shí)用性?！　§`玖軟件Nlpir Parser智能語(yǔ)義平臺(tái)是針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的需要，融合了自然語(yǔ)言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù)，提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺(tái)由多個(gè)中間件組成，各個(gè)中間件API可以無(wú)縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中，也可以作為小規(guī)模數(shù)據(jù)的處理加工工具。
　　1、漢語(yǔ)詞法分析
　　漢語(yǔ)詞法分析中間件能對(duì)漢語(yǔ)語(yǔ)言進(jìn)行拆分處理，是中文信息處理*的**部件。靈玖綜合了各家所長(zhǎng)，采用條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)模型，分詞準(zhǔn)確率接近99%，具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢(shì);特色功能包括：切分粒度可調(diào)整，融合20余部行業(yè)專有詞典，支持用戶自定義詞典等。
　　2、新語(yǔ)自動(dòng)發(fā)現(xiàn)
　　靈玖采用基于語(yǔ)義的統(tǒng)計(jì)語(yǔ)言模型，所處理的文檔不受行業(yè)領(lǐng)域限制，能夠有效地挖掘出新出現(xiàn)的特征詞匯，所輸出的詞匯可以配以權(quán)重。
　　3、文本內(nèi)容去重
　　文本內(nèi)容去重中間件能夠?qū)ξ谋具M(jìn)行查重處理，同時(shí)能找出所有的重復(fù)文件。能夠快速準(zhǔn)確地判斷文件集合或數(shù)據(jù)庫(kù)中是否存在相同或相似內(nèi)容的記錄。靈玖采用高效的文章指紋算法，能夠在較短的時(shí)間內(nèi)與歷史指紋庫(kù)進(jìn)行對(duì)比，從而發(fā)現(xiàn)重復(fù)記錄。
　　4、文本分類過(guò)濾
　　文本過(guò)濾功能能夠從大量文本中快速識(shí)別和過(guò)濾出符合特殊要求的信息，可應(yīng)用于品牌報(bào)道監(jiān)測(cè)、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。
　　5、文本聚類
　　文本聚類是基于相似性算法的自動(dòng)聚類技術(shù)，自動(dòng)對(duì)大量無(wú)類別的文檔進(jìn)行歸類，把內(nèi)容相近的文檔歸為一類，并自動(dòng)為該類生成標(biāo)題和主題詞。適用于自動(dòng)生成熱點(diǎn)輿論專題、重大新聞事件追蹤、情報(bào)的可視化分析等諸多應(yīng)用。
　　6、文檔關(guān)鍵詞提取
　　采用基于語(yǔ)義的統(tǒng)計(jì)語(yǔ)言模型，所處理的文檔不受行業(yè)領(lǐng)域限制，且能夠識(shí)別出較新出現(xiàn)的新詞語(yǔ)，所輸出的詞語(yǔ)可以配以權(quán)重。
　　7、文本摘要
　　自動(dòng)摘要中間件不僅可以針對(duì)一篇文檔生成連貫流程的摘要，還能夠?qū)⒕哂邢嗤黝}的多篇文檔去除冗余、并生成一篇簡(jiǎn)明扼要的摘要;用戶可以自由設(shè)定摘要的長(zhǎng)度、百分比等參數(shù);處理速度達(dá)到每秒鐘20篇。
　　8、網(wǎng)頁(yè)正文提取
　　靈玖基于統(tǒng)計(jì)分布規(guī)律模型判定網(wǎng)頁(yè)的特征，所適用的網(wǎng)頁(yè)不受類型和領(lǐng)域的限制，不需要配置抽取規(guī)則，能夠全自動(dòng)地對(duì)海量互聯(lián)網(wǎng)頁(yè)信息進(jìn)行高效處理。
　　9、全文搜索
　　全文搜索中間件內(nèi)核經(jīng)過(guò)精心設(shè)計(jì)，具有高擴(kuò)展性和高通用性。可支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型的高效索引，支持豐富的查詢語(yǔ)言和查詢類型，支持少數(shù)民族語(yǔ)言的搜索。
　　Nlpir Parser智能語(yǔ)義平臺(tái)涉及到的文本挖掘與處理技術(shù)也多是以自然語(yǔ)言表示的文本信息，從中挖掘出諸如新特征詞、有意義串、關(guān)鍵詞等，并在此基礎(chǔ)上完成對(duì)文本信息的信息抽取、分類、聚類、檢索、話題跟蹤等處理工作。

詞條
詞條說(shuō)明
靈玖軟件效力北京外事辦友城課題
隨著經(jīng)濟(jì)**化的加速，**城市成為**經(jīng)濟(jì)系統(tǒng)的**和網(wǎng)絡(luò)體系中的組織結(jié)點(diǎn)?！侗本┦袊?guó)民經(jīng)濟(jì)和社會(huì)發(fā)展*十二個(gè)五年規(guī)劃綱要》中明確指出要“以建設(shè)世界城市為努力目標(biāo)，不斷提高北京在**城市體系中的地位和作用，發(fā)展友好城市成為北京走向世界的重要途徑。深化**友城交往，制定友好城市發(fā)展戰(zhàn)略，不斷擴(kuò)大友好城市的范圍，擴(kuò)展合作領(lǐng)域;完善高層互訪和對(duì)話機(jī)制，推進(jìn)城市間經(jīng)濟(jì)、科技、文化、教育、體育、環(huán)境、城市
Nlpir Parser智能平臺(tái)靈玖軟件新推出的文本挖掘系統(tǒng)
文本挖掘已經(jīng)成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的研究領(lǐng)域。與一般數(shù)據(jù)挖掘以關(guān)系、事務(wù)和數(shù)據(jù)倉(cāng)庫(kù)中的結(jié)構(gòu)數(shù)據(jù)為研究目標(biāo)所不同的是，文本挖掘所研究的文本數(shù)據(jù)庫(kù), 由來(lái)自各種數(shù)據(jù)源的大量文檔組成。這些文檔可能包含標(biāo)題、作者、出版日期、長(zhǎng)度等結(jié)構(gòu)化數(shù)據(jù), 也可能包含摘要和內(nèi)容等非結(jié)構(gòu)化的文本成分，而且這些文檔的內(nèi)容是人類所使用的自然語(yǔ)言，計(jì)算機(jī)很難處理其語(yǔ)義。因此傳統(tǒng)的信息檢索技術(shù)已不適應(yīng)日益增加的大量文
靈玖軟件：NLPIR機(jī)器學(xué)習(xí)技術(shù)深度理解語(yǔ)義信息
自然語(yǔ)言處理技術(shù)主要是讓機(jī)器理解人類的語(yǔ)言的一門領(lǐng)域。在自然語(yǔ)言處理技術(shù)中，大量使用了編譯原理相關(guān)的技術(shù)，例如詞法分析，語(yǔ)法分析等等，除此之外，在理解這個(gè)層面，則使用了語(yǔ)義理解，機(jī)器學(xué)習(xí)等技術(shù)。作為一由人類自身創(chuàng)造的符號(hào)，自然語(yǔ)言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。大數(shù)據(jù)的**是利用數(shù)據(jù)的**，機(jī)器學(xué)習(xí)是利用數(shù)據(jù)**的關(guān)鍵技術(shù)，對(duì)于大數(shù)據(jù)而言，機(jī)器學(xué)習(xí)是不可或缺的。相反，對(duì)于機(jī)器學(xué)習(xí)而言，越
語(yǔ)義分析：靈玖大數(shù)據(jù)文本挖掘
大數(shù)據(jù)挖掘是伴隨者互聯(lián)網(wǎng)的普及應(yīng)用和傳統(tǒng)信息檢索技術(shù)的不足提出并發(fā)展起來(lái)的。大數(shù)據(jù)挖掘是從大數(shù)據(jù)中發(fā)現(xiàn)有用的模式（其中的數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中），它旨在解決數(shù)據(jù)挖掘、信息檢索、知識(shí)抽取以及較廣泛的商業(yè)問(wèn)題。面向大數(shù)據(jù)的挖掘比面向數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜，因?yàn)榇髷?shù)據(jù)往往是無(wú)結(jié)構(gòu)的，通常是用長(zhǎng)的句子或短語(yǔ)來(lái)表達(dá)文檔類信息；有些則可能是半結(jié)構(gòu)化的，當(dāng)然也包括大量的異構(gòu)信息、

標(biāo)簽：靈玖：Nlpir Parser智能語(yǔ)義平臺(tái)提升文本挖掘效果

聯(lián)系方式聯(lián)系我時(shí)，請(qǐng)告知來(lái)自八方資源網(wǎng)！

公司名：靈玖中科軟件（北京）有限公司

聯(lián)系人：張寶

電　話： 010-62648216

手　機(jī)： 13681251543

微　信： 13681251543

地　址：北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層

郵　編：

網(wǎng)　址： ljrj123.cn.b2b168.com

八方資源網(wǎng)提醒您：
1、本信息由八方資源網(wǎng)用戶發(fā)布，八方資源網(wǎng)不介入任何交易過(guò)程，請(qǐng)自行甄別其真實(shí)性及合法性；
2、跟進(jìn)信息之前，請(qǐng)仔細(xì)核驗(yàn)對(duì)方資質(zhì)，所有預(yù)付定金或付款至個(gè)人賬戶的行為，均存在詐騙風(fēng)險(xiǎn)，請(qǐng)?zhí)岣呔瑁?

聯(lián)系方式