。Donald E. Walker 在《語言生態學》一文中, 將語料庫劃分成四種類型:

1 異質型(Heterogeneou s)。

這種類型的語料庫廣泛收集和存儲各種語料, 語料選取並不要求依據某個事先確定的選材原則,所選語料一般只按其原貌存儲。如美國計算語言學會倡議建立的ACLöDC I 大型語料庫, 英國牛津大學計算中心建立的OTA 文本檔案庫, 都是異質的語料庫;

2 同質型(homogeneous)。

與異質語料庫相反, 這類語料庫所收語料必須具有同一屬性。如美國TIPSTER 語料庫只存儲與軍事有關的文本, 德國波恩大學建立的Kant 語料庫只收集作家Kant 的著作;

3 系統型(systematic)。

依據事先確定的選材原則和比例選取語料, 這類語料庫強調語料選取的系統性、均勻性和合理性, 力求具有廣泛的代表性, 以真實反映一個特定語種或特定範圍的語言事實全貌。如英國的BNC 語料庫, 美國的Brown語料庫, 以及由英國Lancaster大學倡議、由挪威Oslo大學完成的LOB語料庫, 都屬於這一類型;

4 專用型(specialized)

專門服務於某個特定用途的語料庫, 如美國為研究兒童心理語言學而建立的CHILDES語料庫, 為珍藏人文科學重要著作和資料而建立的北美人文科學語料庫等, 都屬於專用型語料庫。

arrow
arrow
    全站熱搜

    julisliao 發表在 痞客邦 留言(2) 人氣()