无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

自然語言處理 02語料庫與詞匯知識庫

2022-02-28 16:30 作者:你晗真好看  | 我要投稿

1.語料庫與知識庫定義?

語料庫就是存放語言材料的倉庫(語言數(shù)據(jù)庫)

知識庫是以描述性方法來存儲和管理知識的機構(gòu),由知識和知識處理機構(gòu)行成一個知識域。

2.什么是平行語料庫?什么是平衡語料庫?

平行語料庫有兩種含義,一種是指在同一種語言的語料上平行,例如“國際英語語料庫”涵蓋了不同國家的英語。其平行性表現(xiàn)為語料選取的時間、對象、比例、文本數(shù)、文本長度等幾乎是一致的。建庫的目的是對不同國家的英語進行對比研究。

另一種平行語料庫是指在兩種或多種語言之間的平行采樣和加工,例如,機器翻譯中的雙語對齊語料庫。

平衡語料庫著重考慮語料的代表性與平衡性。語料采集的七項原則:語料的真實性、可靠性、科學(xué)性、代表性、權(quán)威性、分布性和流通性。其中語料的分布性還要考慮語料的科學(xué)領(lǐng)域分布、地域分布、時間分布和語體分布。

3.什么是共時語料庫?什么是歷時語料庫?

共時語料庫 是為了對語言進行共時(同一時段)研究而建立的語料庫。研究大樹的橫斷面所見的細(xì)胞和細(xì)胞關(guān)系,即研究一個共時平面中的元素與元素的關(guān)系。

歷時語料庫 是為了對語言進行歷時研究而建立的語料庫。研究一個歷時切面中元素與元素關(guān)系的演化。

4.什么是熟語料庫?什么是生語料庫?

語料 指在自然語言單位上添加人工的標(biāo)簽標(biāo)注,如經(jīng)過分詞、詞性標(biāo)注、命名實體識別、依存句法標(biāo)注形成的語料)。

生語料 指直接收集而未經(jīng)加工形成的語言資源集,如常見的微博語料,新聞?wù)Z料等。

自然語言處理 02語料庫與詞匯知識庫的評論 (共 條)

分享到微博請遵守國家法律
扎鲁特旗| 湖州市| 景东| 太保市| 阜宁县| 讷河市| 永新县| 波密县| 安义县| 烟台市| 古田县| 无锡市| 鄂托克旗| 韶关市| 韩城市| 攀枝花市| 桐柏县| 舟山市| 乌拉特前旗| 长汀县| 汉沽区| 车致| 武宣县| 顺昌县| 安国市| 北海市| 荆州市| 西乌珠穆沁旗| 门头沟区| 罗田县| 和平区| 廊坊市| 衡东县| 手游| 绵竹市| 禄劝| 霍城县| 齐齐哈尔市| 加查县| 浮山县| 嵊州市|