單詞列表是許多領域的大量研究的基礎。ComplexityScienceHub的研究人員現已開發出一種算法,可以應用于不同的語言,并且可以比其他算法更好地擴展單詞列表。
許多項目都是從創建單詞列表開始的,不僅在創建思維導圖的公司中如此,而且在所有研究領域也是如此。想象一下,您想通過分析Twitter帖子來了解人們在哪幾天心情特別好。僅僅尋找“快樂”這個詞是不夠的。
相反,您將不得不使用一種算法來檢測所有表明某人快樂的推文?!耙虼?,第一步是創建一個包含所有表明這一點的詞的列表。整個研究都是這樣做的,”維也納復雜性科學中心的研究員AnnaDiNatale解釋說。但是如何得出最準確、最完整的單詞列表呢?
【資料圖】
一個很多人都關心的問題
這個普遍存在的問題不僅涉及想要了解公眾如何接受政客言論的輿論研究人員。公司也想通過情緒分析了解他們的產品是如何被感知的。
為了改進,DiNatale現在開發了一種名為LEXpander的新方法,該方法在兩種不同語言(德語和英語)中的性能優于以前的算法。此外,有史以來第一次,她開發了一種完全可以比較不同工具的方法。
提高性能
與其他四種詞表擴展算法(WordNet、Empath2.0、FastText和GloVe)相比,LEXpander的表現要好得多,尤其是在德語中。例如,研究人員發現,LEXpander在擴展英語單詞列表以獲得積極意義時,猜對了43%的單詞。相比之下,現有的流行模型FastText只有28%的時間是正確的。
獨立于語言本身
原因是該工具獨立于語言工作。它不是基于一種語言,而是基于所謂的colexification網絡。這一公認的語言概念基于同音異義詞和多義詞,即具有兩個或更多不同含義的單個詞。例如:古希臘詞φìρμακον(pharmacon)可以表示藥物或毒藥。這是兩件不同的事情,但主題很接近。但還有其他一些并不暗示親屬關系——例如作為金融機構的“銀行”或河流沿岸的土地。
“如果你用多種語言收集它們——在這里我們分析了大約19種不同的語言——你可以看到它們之間的聯系,”DiNatale說。當這些并置化以跨不同語系的多種語言發生時,網絡就形成了,從而建立了聯系。
這種與語言本身的獨立性允許LEXpander在不同語言中取得更好的效果?!坝性S多針對英語開發的方法。它們工作得非常好,而且很快,每個人都在使用它們。嘗試將它們應用于其他語言是可行的,但如果你已經開始為德語或語開發方法,效果可能會差很多,”迪納塔萊解釋道。
對于COVID等新主題很重要
對于許多主題,已經有很好的單詞列表。但對于新主題(例如COVID),必須創建新主題。到目前為止,它們通常是在同事之間集思廣益時手工創建的,并使用了多種工具來提供幫助。但直到現在還沒有辦法比較它們。
AnnaDiNatale和她的團隊現在創造了這種可能性,并且還開發了一種性能優于其他工具的新工具。這可以成為未來各個領域許多研究項目的重要基石。
關鍵詞: