我們很高興推出 WordStat 2022。從 WordStat 9 到新版本 WordStat 2022(以及新版本號方案)意味著快地引入每年發(fā)布一次的新功能,而不是每 2 或 3 年發(fā)布一次,并且很可能甚至每年不止一次。
新的 WordStat 2022 實現(xiàn)了幾個重要的功能,雖然沒有以前的主要版本那么多,但我們認為它們具有重要意義,特別是對于開發(fā)分類模型、分類法或詞典。
在 WordStat 2022 中,我們實施了一個新的多線程因素分析例程,比以前的版本快 65 倍。這意味著現(xiàn)在可以在不到一分鐘的時間內解決需要一個小時計算的大型問題。我們還能夠將因素分析容量增加到 10,000 個單詞(之前版本為 3,000 個)。
我們自己的研究工作表明,與依賴 LDA 和神經(jīng)網(wǎng)絡技術的主題建模技術相比,使用因子分析的主題建模產(chǎn)生的主題解決方案加連貫和多樣化(Peladeau & Davoodi,2018 年;Peladeau,2022 年)。它還具有穩(wěn)定性的額外好處,每次都會產(chǎn)生相同的結果。然而,它的主要不便一直是它的速度和容量。這使我們在 WordStat 8 中實現(xiàn)了一個使用非負矩陣分解(或 NMF)的特殊主題提取例程。這種技術可以地產(chǎn)生結果,這些結果與使用因子分析獲得的結果非常相似。然而,它的概率實現(xiàn)會導致每次運行的結果略有不同,這讓一些研究人員感到有些不安。重要的是要注意,計算機科學中幾乎所有其他流行的主題建模技術產(chǎn)生的主題解決方案甚至比我們自定義的 NMF 實現(xiàn)不穩(wěn)定。那些尋求佳和穩(wěn)定的主題解決方案的人可能會喜歡新的因素分析主題建模例程的速度和容量大大提高。
WordStat 早期版本中的“建議”面板顯示同義詞庫可用的語言的同義詞、反義詞和相關詞。它還提供了以相同首字母開頭的單詞,使人們能夠識別一些拼寫錯誤以及相關的單詞。一個新的關聯(lián)詞部分現(xiàn)在從文本語料庫中檢索與頻率表中所選詞在語義、句法和統(tǒng)計上相關的其他詞。這個新功能應該適用于任何語言。默認情況下,條目將按相關性降序排列。同義詞、反義詞和相關詞也會按照相關性降序排列,便于識別合適的建議。人們仍然能夠按字母順序或頻率降序對這些條目進行排序。此外,一個新的頻率過濾選項可以讓人們過濾掉低頻建議,讓人們專注于頻繁的建議。
由于這種提取相關詞和排序建議的新方法與語言無關,因此對于分析沒有詞庫的語言的人來說尤其有用。然而,我們發(fā)現(xiàn),即使有這樣的語言資源,基于單詞上下文使用的額外建議,以及根據(jù)相關性對現(xiàn)有同義詞和相關單詞進行排序,也應該較大地促進適當項目的識別。
重疊面板已替換為建議面板,除了重疊短語外,還顯示與短語頻率表中所選行在語義、句法或統(tǒng)計上相關的短語。此功能也與語言無關。
命名實體識別頁面中添加了一個新的相關面板。選擇單個命名實體將帶來相關的命名實體,以及屬于同一類(人、地點、組織等)的命名實體。選擇一個特定類別的多個示例(例如,多個城市)也將檢索屬于該類別的多項目。上下文菜單還允許將任何項目移動到分類詞典或排除列表中。還可以對選定的建議執(zhí)行上下文中的關鍵字搜索。
在評估分類詞典中的詞或候選詞時,通常需要查看在目標詞或短語出現(xiàn)的上下文中是否存在其他關鍵字。一種新的**顯示功能允許人們*要在單詞的周圍上下文中查找的單詞和短語列表。當從主題建模或樹狀圖中調用 KWIC 列表時,或者在評估包含多個條目的內容類別中的項目時,會自動填充此列表。
過幾百個項目的對應圖可能會在圖的中心(原點)創(chuàng)建一大堆重疊的項目。添加了一個新的滑塊控件以隱藏不太頻繁或接近此原點的項目。除非有人想確定一個自變量的所有類的共同點,否則有趣的項目是那些遠離原點的項目,因為它們是不同類的特征。過濾掉這些項目可以讓人們容易地識別不同的項目。
關鍵字搜索的結果現(xiàn)在按相關性降序排列,同時考慮匹配項的頻率和種類與檢索到的文本段的長度的關系。新的頻率列也可用于僅按頻率排序。
一種新的數(shù)據(jù)轉換命令允許人們通過連接幾個現(xiàn)有變量(數(shù)字、字符串、日期等)的值以及鍵入的文本來計算字符串變量。這樣的過程也可用于用常量字符串值初始化字符串變量。
這些比較圖表的圖表類型和統(tǒng)計數(shù)據(jù)以及調色板現(xiàn)在鏈接到變量名稱并存儲在項目設置中。這些選項應該跨頁面(頻率、短語、主題建模、樹狀圖等)和會話之間保持不變,從而減少不斷重新調整這些選項的需要。
軟件鏈接:
//www.uone-/wordstat.html
詞條
詞條說明
Stata 17 中引入了許多新功能。在同版本之間我們也不斷添加新功能。下面,我們將介紹 Stata 17 發(fā)布以來我們添加的新功能。Interface◎Do-file Editor 有許多新的增強功能。??●現(xiàn)在您可以通過在書簽注釋中添加字符#,來增加導航控件中書簽標簽的縮進級別。例如,書簽注釋?**## Bookmark 2將比書簽注釋?**## Boo
【Stata專欄】南開大學經(jīng)濟學院:在授課、研究與學生工作中是如何使用Stata軟件
南開大學經(jīng)濟學院背景南開大學經(jīng)濟學院是擁有學士、碩士、博士等多層次教學和學位授予權的教學科研單位?,F(xiàn)有理論經(jīng)濟學、應用經(jīng)濟學2個一級學科國家重點學科,擁有政治經(jīng)濟學、世界經(jīng)濟、金融學、區(qū)域經(jīng)濟學、經(jīng)濟史、貿(mào)易等6個二級學科國家重點學科,擁有**實驗教學**中心、**虛擬仿真實驗中心和教育部首批哲學社科實驗室(試點)南開大學經(jīng)濟行為與政策模擬實驗室,學院設有經(jīng)濟學、經(jīng)濟與貿(mào)易、財政學、國
【Stata會議】2023 Stata 用戶會議主題報告征集
加入Stata在加利福尼亞2023 年 Stata 會議將于 7 月 20 日至 21 日在斯坦福大學舉行。由 StataCorp 組織的年度 Stata 會議是一個難得的機會,可以與來自各個學科的研究人員建立聯(lián)系,與 StataCorp 的開發(fā)人員互動,并學習 Stata 的新的和令人興奮的應用程序。徒步穿越紅木公園,在舊金山灣沐浴陽光,享受為期兩天的網(wǎng)絡交流和與 Stata 社區(qū)的 Sta
【友萬課堂】Minitab 官方免費網(wǎng)絡研討會—下一代制造 SPC:減少廢品、預測缺陷并實現(xiàn)利潤較大化
每個人都可以使用的功能強大的統(tǒng)計軟件——Minitab質量管理統(tǒng)計工具,**六西格瑪實施的共同語言, 供您在遇到較棘手的業(yè)務問題時用來分析數(shù)據(jù)并找出優(yōu)質的解決方案。?數(shù)據(jù)無處不在,而您能否真正發(fā)揮出所擁有數(shù)據(jù)的**?Minitab Statistical Software 會審視當前及過往的數(shù)據(jù),以找出趨勢并預測規(guī)律、發(fā)現(xiàn)變量之間隱藏的關系并創(chuàng)建令人震撼的可視化,從容應對較嚴峻的挑戰(zhàn)和機
公司名: 北京友萬信息科技有限公司
聯(lián)系人: 陳
電 話:
手 機: 18600528290
微 信: 18600528290
地 址: 北京昌平城南中興路21號院硅谷SOHO C-516
郵 編:
網(wǎng) 址: uonetech.b2b168.com
公司名: 北京友萬信息科技有限公司
聯(lián)系人: 陳
手 機: 18600528290
電 話:
地 址: 北京昌平城南中興路21號院硅谷SOHO C-516
郵 編:
網(wǎng) 址: uonetech.b2b168.com