Xử lí ngôn ngữ

Ngôn ngữ học máy tính và việc xây dựng từ điển
     

PGS. TS. ĐINH ĐIỀN - HỒ HẢI THUỴ

SUMMARY
The great benefits from applying the research outcomes of Computational Linguistics to compiling dictionaries in the world today have ever been more and more confirmed. This achievement is resulted from the close coordination among informatists, linguists, lexicographers in building resources (databases, vocabularies, language labels, etc.) and tools (pre-treatment, morphologic analysis, language labels assignment, language statistics…) initially necessary for compiling dictionaries. The article also provides a viable roadmap, from building up resources , tools to developing and applying them to different specific jobs in making large-sized Vietnamese Dictionary and Vietnam Encyclopedia as well.

TÓM TẮT
Hiệu quả to lớn của việc áp dụng các kết quả nghiên cứu của ngành ngôn ngữ học máy tính (viết tắt: NNHMT, tiếng Anh là CL: Computational Linguistics) vào công tác biên soạn từ điển trên thế giới hiện nay ngày càng được khẳng định. Có được thành quả này là do có sự kết hợp chặt chẽ giữa các nhà tin học, các nhà ngôn ngữ học, các nhà từ điển học trong việc xây dựng các nguồn tài nguyên (kho ngữ liệu, danh sách từ, bộ nhãn ngôn ngữ,…) và các công cụ (tiền xử lí, phân tích hình thái, gán nhãn ngôn ngữ, thống kê ngôn ngữ,…) cần thiết ban đầu cho việc biên soạn từ điển. Trong khi đó, việc áp dụng các kết quả nghiên cứu của ngành NNHMT vào việc biên soạn từ điển tiếng Việt hiện nay vẫn còn hạn chế do nhiều nguyên nhân chủ quan và khách quan. Trong bài viết này, chúng tôi muốn nêu lên một lộ trình khả thi, từ việc xây dựng các nguồn tài nguyên, các công cụ, đến việc khai thác chúng và ứng dụng trong các công việc cụ thể khác nhau trong công tác xây dựng Từ điển tiếng Việt cỡ lớn, cũng như Bách khoa toàn thư Việt Nam.

1. GIỚI THIỆU

Do đặc thù của công tác biên soạn từ điển, đòi hỏi phải xử lí khối lượng dữ liệu rất lớn với độ chính xác cao và quan trọng là phải đảm bảo tính nhất quán, tính hợp lí, khả năng tra cứu và tính hiệu quả trong toàn bộ từ điển. Chính vì vậy mà các nhà từ điển học đã nghĩ ngay đến việc khai thác những năng lực vốn có (bộ lưu trữ lớn, tốc độ xử lí nhanh, chính xác) của ngành NNHMT trong các công tác trên. Tuy nhiên, để đáp ứng được các yêu cầu khắt khe của công tác biên soạn từ điển nói trên, ngành NNHMT đầu tiên phải có được các nguồn tài nguyên và công cụ cần thiết thì mới vận hành được. Nguồn tài nguyên ở đây cụ thể là các kho ngữ liệu được thu thập từ nhiều nguồn khác nhau, thuộc nhiều lĩnh vực khác nhau và phương ngữ khác nhau; các tư liệu có liên quan đến mục từ trong từ điển (văn bản, hình ảnh, âm thanh, đoạn phim,…); các danh sách đặc biệt (gazetteer) như tên riêng của danh nhân, địa danh, tổ chức, từ viết tắt; danh sách mục từ theo tần số; các ontology theo lĩnh vực. Các công cụ ở đây là các phần mềm tin học để xử lí tự động các khối tư liệu lớn hay gán nhãn ngôn ngữ cho các kho ngữ liệu dựa trên các nguồn tài nguyên nói trên làm cơ sở tri thức bên trong của máy tính.

Để có những bước đi cần thiết và hợp lí trong việc ứng dụng NNHMT vào công tác biên soạn các loại từ điển ngôn ngữ cũng như Bách khoa toàn thư Việt Nam, trong bài báo này chúng tôi sẽ trình bày các vấn đề sau:

- Tổng quan về việc ứng dụng NNHMT vào công tác biên soạn từ điển;

- Xây dựng kho tài nguyên và các công cụ cho công tác biên soạn từ điển;

- Nhận xét và Kết luận.

2. TỔNG QUAN

Ngay từ những năm của thập niên 60 thế kỉ 20, máy tính đã được sử dụng trong quá trình làm từ điển và từ đó đến nay vai trò của máy tính trong việc xây dựng từ điển ngày càng được khẳng định. Trong thế kỷ 21 này, tất cả các từ điển có uy tín trên thế giới đều có khai thác từ các kho ngữ liệu lớn và sử dụng các công cụ tin học để nhập liệu, xử lí và tra cứu dữ liệu trong quá trình làm từ điển và thậm chí cho cả người sử dụng cuối (end-user) khi từ điển đã hoàn thành [Atkins 2008:3].

Tại sao các nhà từ điển học phải cần tới sự trợ giúp đắc lực của ngành NNHMT? Vì từ điển là sự miêu tả vốn từ vựng được sử dụng bởi các thành viên của một cộng đồng ngôn ngữ (chẳng hạn như những ‘người nói tiếng Anh’). Và điểm xuất phát cho sự miêu tả này là nguồn ngữ liệu sống mà các thành viên của cộng đồng ngôn ngữ ấy sử dụng trong khi họ giao tiếp với nhau [Atkins 2008:2].Từ đây, chúng ta thấy có những vấn đề sau:

- Miêu tả vốn từ vựng (cấu trúc vĩ mô và cấu trúc vi mô của từ điển)

- Nguồn ngữ liệu sống (chứng cứ sử dụng ngôn ngữ trên thực tế)

Cấu trúc vĩ mô của từ điển là một sự cắt gọn biệt lập tương đối của mỗi mục từ đối với những mục từ khác. Do số lượng rất lớn của các mục từ được sắp xếp theo một trật tự hình thức nào đó (theo vần hay theo chủ đề) kéo dài dọc suốt quyển từ điển, cho nên những mô tả về hình thức, về cấu tạo của các đơn vị, tính chất và mức độ khác nhau về phạm vi, sắc thái của các đơn vị cần phải tuân theo các tiêu chí nhất quán. Về nguyên tắc, cấu trúc vĩ mô phải là một chỉnh thể nghiêm ngặt, phải trả lời được mọi vấn đề xuất hiện trong cuốn từ điển đó, cho nên mọi từ ngữ, mọi kí hiệu xuất hiện trong các lời giải thích phải được thu thập trong bảng từ của từ điển. Các bộ phận từ vựng trong cấu trúc vĩ mô phải hình thành mối quan hệ hữu cơ. Bộ phận hạt nhân của bảng từ trong từ điển ngôn ngữ phổ thông là vốn từ vựng cơ bản, các thành phần khác bao quanh hạt nhân đó. Yêu cầu cơ bản là cân đối giữa các lớp từ vựng, tránh phiến diện hay bỏ sót những yếu tố quan trọng [Viện Ngôn ngữ học 1997: 5-10].

Cấu trúc vi môcủa từ điển là cấu trúc bao gồm toàn bộ những thông tin được trình bày một cách có hệ thống trong mỗi mục từ, như: thông tin về ngữ âm, hình thái, ngữ pháp, ngữ nghĩa, ngữ dụng của từ; định nghĩa hay giải thích của từ; có thể có cả từ nguyên (etymology), các ví dụ, tri thức bách khoa, từ đồng nghĩa, đồng âm, phản nghĩa, từ cùng họ, dẫn xuất, biến thể,… của từ đó. Nguyên tắc quan trọng là tránh giải thích vòng (A là B; rồi B là A) và tất cả các từ dùng trong định nghĩa phải có mặt trong cấu trúc bảng từ (vĩ mô), trừ một số rất ít ngoại lệ. Một số từ điển (như Oxford Advanced Learner’s Dictionary) còn chặt chẽ hơn khi chỉ dùng 3.000 từ cơ bản để định nghĩa mọi mục từ trong từ điển của họ (nhằm tránh cho người sử dụng khi đọc định nghĩa của một mục từ lại gặp phải một từ khó hiểu hơn trong chính định nghĩa đó). Ngoài ra, trong ví dụ của mục từ bắt buộc phải có chứa mục từ cần minh hoạ đó và nghĩa của mục từ phải khớp với nghĩa cần minh hoạ.

Người làm từ điển cần phải chỉ cho người dùng cách sử dụng một cách khách quan một từ như thế nào cho đúng với cộng đồng ngôn ngữ đương đại đang sử dụng, chứ không phải chỉ đưa ra nghĩa của từ theo cách chủ quan của mình. Nghĩa của từ hay chức năng của từ không hẳn đúng như các nhà làm từ điển đã ghi trong từ điển, vì trên thực tế, có nhiều từ dùng với nghĩa hoặc với chức năng mà trong hầu hết các từ điển trước đây đều không ghi. Ví dụ: mục từ “fond of” trong tiếng Anh được hầu hết các từ điển ghi là “nâng niu, vuốt ve, thích” với nghĩa tích cực. Trong khi đó, theo thống kê trên ngữ liệu thực tế thì hơn 60% [Tony 1996:27]nghĩa của mục từ “fond of” là tiêu cực (với nghĩa là “quấy rối tình dục” !).

Ngoài ra, sau khi đã xây dựng xong nội dung của từ điển, chúng ta còn phải chuẩn hoá hình thức của từ điển, như: mục từ phải dùng font chữ nào, kích thước bao nhiêu, màu sắc thế nào, độ đậm nhạt, kiểu chữ ra sao. Tương tự cho phần phiên âm, từ loại, định nghĩa, ví dụ,… mỗi thông tin sẽ có font, kích thước, màu sắc, kiểu chữ khác nhau, có kí hiệu gì ở phía trước các thông tin đó,… Cả cách viết tắt (không thể lúc thì viết là “informal”, lúc thì “infml” hay “inf.” hay “colloq.” hay “thân” hay “thân mật”;…), tên các lĩnh vực cũng phải nhất quán (không thể lúc thì “y học”, lúc thì “y” hay “med.” hay “medicine”,…) để người sử dụng dễ “đọc” được từ điển.

Từ những phân tích trên, chúng ta thấy để đảm bảo hết các nguyên tắc chặt chẽ, nhất quán, khách quan nói trên cho số lượng hàng chục, hàng trăm ngàn mục từ trong từ điển thì nhất thiết chúng ta phải cần đến sự trợ giúp của ngành NNHMT.

3. XÂY DỰNG KHO TÀI NGUYÊN VÀ CÁC CÔNG CỤ

Trước khi tiến hành xây dựng từ điển, chúng ta nhất thiết phải xây dựng được các kho tài nguyên và các công cụ cần thiết cho quá trình biên tập, xử lí và tra cứu ngữ liệu [Điền 2005:56-60]

3.1. Xây dựng kho ngữ liệu

Thuật ngữ “ngữ liệu” ở đây được tạm dịch từ thuật ngữ tiếng Anh “corpus” (danh từ số nhiều là “corpora”) và trong tiếng Hi Lạp có nghĩa là “thân thể” (body). Nghĩa của từ “corpus” được hiểu là “phần thân của văn bản” và là tập hợp của nhiều văn bản. Chính vì vậy, từ “corpus” được dịch là “kho dữ liệu, kho sưu tập tài liệu,...”. Ngữ liệulà những “dữ liệu, cứ liệu của ngôn ngữ”, tức là những chứng cứ thực tế sử dụng ngôn ngữ. Những chứng cứ sử dụng ngôn ngữ này có thể là của ngôn ngữ nói (spoken language) hoặc ngôn ngữ viết (written language). Ngữ liệu của ngôn ngữ viết thường được hiểu là tập hợp các văn bản. Ngữ liệu này có thể tồn tại dưới nhiều dạng khác nhau: như dạng giấy (hardcopy), dạng điện tử (softcopy) và hiện nay, các nhà ngôn ngữ học – ngữ liệu chủ yếu xét đến ngữ liệu dạng điện tử. Ngữ liệu có thể là ngữ liệu đơn ngữ (monolingual corpus) hoặc ngữ liệu đa ngữ (multilingual corpus) và nói chung có 2 dạng: dạng chỉ gồm các ngữ liệu thô thu được, không có chú thích (unannotated corpus) và dạng có chú thích (annotated corpus) thêm thông tin về ngôn ngữ cho các đơn vị ngôn ngữ trong ngữ liệu thô đó. Dạng thứ nhất thì dễ xây dựng (vì thường có sẵn) còn dạng thứ hai thì chúng ta phải tốn nhiều công sức và thời gian để gán thêm thông tin về ngôn ngữ cho ngữ liệu thô để sau này khai thác thông tin được hiệu quả hơn.

3.1.1. Thu thập ngữ liệu

Hiện nay, với sự ra đời của máy tính điện tử, thì việc thu thập ngữ liệu đã được tự động hoá rất nhiều. Hầu như người ta không còn cần phải gõ lại các ngữ liệu, vì phần lớn các ngữ liệu đó đã tồn tại dưới dạng điện tử (như trên Internet), người ta chỉ việc tổ chức, sắp xếp lại theo mục đích nghiên cứu. Hiện nay các nhà ngôn ngữ học máy tính chủ yếu dựa vào một số ngữ liệu chuẩn đã được chọn lọc kỹ lưỡng từ các văn bản chuẩn, như bên tiếng Anh thì dùng Wall Street Journal trong PTB [Mitchell 1993], Brown, BNC, ANC, OEC… Trong tiếng Việt cũng đã có rất nhiều trang mạng để có thể trích xuất ngữ liệu.Trong quá trình thu thập, các nhà ngôn ngữ học – máy tính phải tuân theo các tiêu chí nhất quán trong việc lấy mẫu ngữ liệu, như: chủng loại (ngôn ngữ nói/ngôn ngữ viết, báo chí, sách vở, tạp chí, phim ảnh, chat, blog, văn bản pháp quy,…) của ngữ liệu, lĩnh vực của ngữ liệu, tỉ lệ giữa các lĩnh vực, phương ngữ của ngữ liệu, độ lớn của ngữ liệu và độ dài từng văn bản trong kho ngữ liệu, thời gian lưu hành của ngữ liệu, đặc điểm (tuổi tác, nghề nghiệp, giới tính,…) về tác giả của ngữ liệu,… Chẳng hạn kho ngữ liệu OEC (Oxford English Corpus) có chứa 190 triệu từ từ các bản tin tức (hình 1).

Hình 1. Phân bố lĩnh vực của ngữ liệu OEC (trích từ [Atkins 2008:79]).

Một điều mà chúng ta cũng cần chú ý khi thu thập ngữ liệu là tính hợp pháp của việc thu thập đó (bản quyền, giấy phép, tính riêng tư,…).

3.1.2. Chuẩn hoá ngữ liệu

Do ngữ liệu được thu thập từ nhiều nguồn khác nhau, nên chúng ta nhất thiết phải có công đoạn chuẩn hoá ngữ liệu để đưa về một dạng thống nhất cho dễ xử lí tự động. Việc chuẩn hoá ngữ liệu gồm các nhiệm vụ chính như: đưa về đúng dạng điện tử, định dạng tập tin (TXT, SGML, XML), mã/font (unicode, utf-8), chuẩn chính tả (bao gồm cả việc ghi dấu phụ, biến thể,...). Việc kiểm tra tính chuẩn của ngữ liệu được thực hiện tự động bởi chương trình máy tính, còn việc kiểm lỗi chính tả cũng được người thực hiện với sự trợ giúp của chương trình máy tính.

3.1.3. Gán nhãn ngữ liệu

Mục tiêu của việc xây dựng kho ngữ liệu là để từ đó có thể khai thác phục vụ cho các mục đích nghiên cứu khác nhau. Để có thể khai thác hiệu quả, nhất thiết kho ngữ liệu đó phải được gán các thông tin về ngôn ngữ (như: hình thái, ngữ pháp, ngữ nghĩa,…) mà các nhà ngôn ngữ học - ngữ liệu gọi là nhãn ngôn ngữ. Hệ thống nhãn ngôn ngữ bao gồm các nhãn về hình thái, ngữ pháp (từ pháp) và ngữ nghĩa của từ, ngữ và câu. Nhãn hình thái ở đây bao gồm các nhãn về ranh giới của từ, ranh giới ngữ và ranh giới câu. Nhãn hình thái từ cũng bao gồm các trường hợp viết tắt, tỉnh lược. Đối với các tiếng đơn lập như tiếng Việt, việc xác định ranh giới từ không phải là chuyện đơn giản. Nhãn ngữ pháp ở đây bao gồm các nhãn phân loại căn cứ theo mặt ngữ pháp của từ (hay còn gọi là từ pháp), ngữ pháp của ngữ và ngữ pháp của câu (cú pháp). Cụ thể bao gồm hai phạm trù ngữ pháp của từ như sau: phạm trù phân loại từphạm trù ngữ pháp biến đổi từ. Phạm trù phân loại từ là một phạm trù ngữ pháp chung, bao gồm việc phân từ thành các từ loại (như: danh từ, động từ, tính từ,…) và các tiểu từ loại (như: danh từ chung/riêng, động từ nội động/ngoại động,…). Phạm trù biến đổi từ là phạm trù ngữ pháp bộ phận bao gồm việc phân chia từ ứng với các nhãn của các phạm trù ngữ pháp như: cách (mood), giống (gender), số (number), thì (tense), lối (voice),… Để ngắn gọn và chính xác, từ đây trở đi, chúng ta có thể gọi chung cho các loại nhãn trên là nhãn từ pháp.

Về nhãn ngữ nghĩa. Qua khảo sát ý nghĩa từ vựng của mỗi từ thực, ta thấy nói chung mỗi từ có thể mang nhiều nghĩa khác nhau, nhưng trong một ngữ cảnh cụ thể, thì chúng sẽ mang một nghĩa nhất định nào đó. Chẳng hạn, danh từ “bank” trong tiếng Anh có thể là “ngân hàng”, hoặc “bờ sông” hoặc “dãy”; danh từ “đường” trong tiếng Việt có thể có nghĩa là “đường ăn” (sugar) hay “đường đi” (line),… Để dễ phân biệt các nghĩa từ vựng khác nhau, các nhà ngữ nghĩa học từ vựng học và tâm lí học – ngôn ngữ đã phân chia toàn bộ các ý nghĩa từ vựng có thể có thành hệ thống các ý niệm (cây ý niệm) và mỗi ý niệm như vậy được coi như là một nhãn ngữ nghĩa của từ. Chẳng hạn, với danh từ “bank” nói trên, các nghĩa tương ứng của chúng sẽ là: “ngân hàng” thuộc về ý niệm “công trình xây dựng nhân tạo” (nhãn HOU); “bờ sông” sẽ thuộc về ý niệm “công trình thiên tạo” (nhãn NAT); “dãy” sẽ thuộc về ý niệm “sự sắp xếp tổ chức” (nhãn GRP). Tương tự cho danh từ “đường” trong tiếng Việt, nghĩa “đường ăn” sẽ được xếp vào ý niệm “hoá chất” (nhãn CHM); còn nghĩa “đường đi” sẽ được xếp vào ý niệm “đường nét, dấu vết” (nhãn LIN);…

Về phương pháp gán nhãn ngôn ngữ. Một từ (hay một đơn vị ngôn ngữ nào đó) trong một phương diện nào đó (hình thái, ngữ pháp, ngữ nghĩa,...) thường mang nhiều hơn một nhãn ngôn ngữ, vì vậy, vấn đề khó khăn nhất trong việc gán nhãn ngôn ngữ cho ngữ liệu chính là việc làm thế nào để chọn được nhãn đúng trong số các nhãn khả dĩ của một đơn vị ngôn ngữ? Đây chính là bài toán khử tính nhập nhằng (disambiguate) cho ngôn ngữ tự nhiên ở hầu hết các cấp độ (từ, ngữ, câu) và các khía cạnh (hình thái, ngữ pháp, ngữ nghĩa, ngữ dụng). Đây cũng là công việc khó khăn, tốn kém thời gian và công sức nhất. Để giải quyết bài toán này, người ta đã tìm cách xây dựng các chương trình sử dụng nhiều mô hình xử lí (thống kê, suy luận,…) phức tạp trong lĩnh vực trí tuệ nhân tạo, tính toán thông minh để giải quyết tự động bài toán nói trên. Đến nay, đối với tiếng Anh, các bài toán về gán nhãn hình thái và ngữ pháp đã đạt kết quả khả quan (trên 90%, có bài toán đạt 98% như bài toán gán nhãn từ loại). Đối với tiếng Việt, thì kết quả này tuy chưa bằng nước ngoài nhưng ngày càng được cải thiện do có sự đầu tư xây dựng các kho ngữ liệu lớn đã được gán nhãn ngôn ngữ để dùng làm ngữ liệu huấn luyện cho máy tính cũng như áp dụng các thuật giải, các mô hình xử lí ngày càng chính xác hơn.

3.2. Xây dựng kho tư liệu

Bên cạnh kho ngữ liệu (chủ yếu là dạng văn bản, text), chúng ta còn có các kho thông tin khác về từ, như: ngữ âm của mục từ (tập tin âm thanh chứa giọng phát âm của người bản xứ chuẩn cho mục từ đó), hình ảnh (tĩnh và động) minh hoạ cho mục từ đó, các tri thức ngôn ngữ (hình thái, ngữ pháp, ngữ nghĩa, ngữ dụng, từ nguyên) của mục từ; tri thức bách khoa có liên quan đến mục từ đó.

Toàn bộ các thông tin nói trên, chúng ta cần lưu dưới dạng chuẩn và được gán nhãn theo quy tắc nhất quán bằng các thẻ (tag) trong tập tin XML để sau này chương trình máy tính có thể tham chiếu hai chiều (double-link) dễ dàng và chính xác. Các dạng chuẩn nên chọn dạng gốc và có thể hiệu chỉnh (edit) được, như:

- Hình ảnh: cùng dạng bitmap và cùng độ phân giải (chẳng hạn: 320x240 pixel)

- Âm thanh: cùng dạng wav, stereo, 2 channels, 44100 Hz, PCM

- Video: AVI

- Text: utf-8

Để cho máy tính có cơ sở tri thức trong việc suy diễn và xử lí tự động, chúng ta phải xây dựng các danh sách đặc biệt, như: danh sách các mục từ theo tần suất xuất hiện, danh sách các từ gốc, danh sách các từ cơ bản, danh sách tên riêng, danh sách viết tắt, danh sách các thẻ, các nhãn; danh sách các ngoại lệ; các quy tắc suy diễn (quy tắc bỏ dấu thanh tiếng Việt, viết hoa, chấm câu) để máy tính mới có thể trợ giúp chúng ta trong việc kiểm lỗi chính tả, chuẩn hoá văn bản, tập tin mô tả cấu trúc (DTD: Document Type Definition) của tập tin dữ liệu (XML),…

3.3. Xây dựng các công cụ

Với các kho tài nguyên và tư liệu nói trên, chúng ta nhất thiết phải xây dựng các công cụ tin học đi kèm để mới có thể xử lí, khai thác, nhập liệu, kiểm tra ngữ liệu từ điển được.

3.3.1. Công cụ thu thập ngữ liệu và tư liệu

Để thu thập ngữ liệu, chúng ta nhất thiết có các công cụ tìm kiếm tự động trên các trang web, blog,… Do các trang web này có cấu trúc khác nhau, nhiều định dạng tập tin khác nhau (văn bản, hình ảnh, âm thanh, video,…) nên chúng ta cần có chương trình tự động tìm kiếm các trang web, tự động phân tích cấu trúc để tự rút trích từng loại nội dung khác nhau và lưu thành các các tập tin chuẩn theo quy định.

Bên cạnh việc thu thập từ Internet, chúng ta còn có thể thu thập ngữ liệu và tư liệu từ các nguồn khác (sách, báo, lời nói, phim ảnh, chat,…) do đó chúng ta cũng cần có các công cụ tương ứng để quét văn bản (như OCR: Optical Character Recognization), các công cụ chuẩn hoá hay biến đổi hình ảnh, âm thanh, video từ các môi trường định dạng khác nhau (sách, băng từ, microfilm,…) thành môi trường số (digital) trên máy tính và lưu lại dưới các định dạng chuẩn để dễ kết nối vào từ điển sau này.

3.3.2. Công cụ gán nhãn ngôn ngữ cho kho ngữ liệu

Từ kho ngữ liệu thu thập được, chúng ta cần xây dựng hoặc kế thừa các chương trình của bên NNHMT có sẵn, như: chương trình phân đoạn câu, phân đoạn ngữ, phân đoạn từ; chương trình phân tích hình thái (chuyển các biến thể khác nhau của từ về một dạng gốc), chương trình gán nhãn từ loại (POS-Tagger), gán nhãn thực thế có tên riêng (NER: Named Entity Recognization) [Dien 2007], chương trình phân tích cú pháp (parser), chương trình gán nhãn ngữ nghĩa (WSD: Word Sense Disambiguation hay Sense Tagger), chương trình phân loại văn bản (Text Classifier),…

3.3.3. Công cụ khai thác kho ngữ liệu

Từ kho ngữ liệu đã được gán nhãn ngôn ngữ nói trên, chúng ta có thể khai thác được rất nhiều thông tin, như: tìm từ theo ngữ cảnh (concordancer), tìm từ đồng hiện (collocation), truy vấn từ theo từ loại và/hay ngữ nghĩa của nó, xác định tính thông dụng của từng từ loại, từng nghĩa trong mỗi mục từ (để có thể xếp lên đầu). Chính các công cụ này sẽ giúp nhà biên soạn từ điển chọn lựa được các ví dụ có thật để minh hoạ cho các nghĩa của mục từ. Điều này khiến cho người sử dụng từ điển tin tưởng vào từ điển hơn.

Hình 2. Công cụ tìm từ theo ngữ cảnh (trích từ [Atkins 2008:104]).

3.3.3. Công cụ nhập liệu từ điển

Chúng ta cũng phải xây dựng các công cụ nhập liệu từ điển để người nhập có thể nhập chính xác vào trường (field) thông tin của mục từ và trong quá trình nhập, máy tính cũng vừa kiểm tra về chính tả, về tính logic, tính nhất quán của trường thông tin đang nhập đó. Ngoài ra, trong quá trình nhập liệu, chúng ta có thể sử dụng công cụ này để kết nối với các kho tư liệu đã được gán nhãn để dễ dàng tích hợp thông tin tương ứng vào trong cấu trúc vi mô của từ điển. Công cụ này cũng còn giúp chúng ta tham chiếu đến các mục từ có liên quan (đồng nghĩa, phản nghĩa, đồng âm, đồng tự, phái sinh, biến thể,…).

Để giúp người sử dụng thuận tiện hơn trong quá trình nhập, mỗi trường thông tin sẽ có màu sắc, font chữ, kiểu chữ riêng để tránh người sử dụng nhập nhầm vào trường thông tin khác.

Ngoài ra, trong quá trình nhập thông tin cho các trường, máy tính cũng sẽ giúp người sử dụng chọn các mục theo danh sách (menu list), không bắt người sử dụng chương trình phải nhớ hết các kí hiệu viết tắt.

3.3.4. Công cụ kiểm tra từ điển

Khi đã xây dựng xong từ điển, máy tính cũng sẽ kiểm tra tổng thể về cấu trúc, về nội dung và về hình thức.

- Về cấu trúc. Kiểm tra xem sự tổ chức, sắp xếp các mục từ có đúng thứ tự chưa; các trường thông tin trong mỗi mục từ có đúng thứ tự, vị trí chưa. Chẳng hạn: một mục từ có thể có nhiều từ con, mỗi từ con có thể có nhiều từ loại, ứng với một từ loại có thể có nhiều nghĩa, ứng với mỗi nghĩa sẽ có ví dụ tương ứng, các thành ngữ tương ứng; hay: phiên âm được đặt trước từ loại, từ loại đặt trước định nghĩa, ...

- Về nội dung. Cấu trúc bảng từ đã đầy đủ chưa, có thiếu hay bị trùng lặp mục từ nào không; cấu trúc vi mô đã đầy đủ chưa (trường nào có thể vắng mặt, trường nào không thể vắng mặt, có mục từ nào bị rỗng thông tin không…); kiểm tra xem từ điển chúng ta có vi phạm nguyên tắc nào của bên từ điển học không (chẳng hạn trong định nghĩa có chứa các từ mà trong cấu trúc mục từ không có; hay bị định nghĩa vòng; có tham chiếu đến từ không có mặt trong từ điển hay không, hay trong ví dụ là không có chứa mục từ cần minh hoạ);

- Về hình thức. Kiểm tra tính nhất quán về mặt hình thức của từ điển (chuẩn hoá chính tả, dấu câu); kiểm tra việc mô tả hình thức của từng trường thông tin (đúng màu sắc, kích thước, kiểu chữ, kí hiệu, vị trí,…).

3.3.5. Công cụ xuất bản từ điển

- Đối với từ điển điện tử.Cần xây dựng công cụ để tra cứu từ điển được dễ dàng, như tra theo mẫu tự đầu, tra một phần của từ, tra chéo (cross-refernce);

- Đối với từ điển giấy. Cần xây dựng công cụ xuất (export) toàn bộ nội dung của chúng ta thành một dạng sẵn sàng cho in ấn (camera-ready) để nhập vào (import) các phần mềm in ấn chuyên nghiệp (như dạng Ventura, Adobe In Design,…).

4. KẾT LUẬN

Việc áp dụng các thành quả của NNHMT vào trong việc biên soạn từ điển là điều không thể thiếu được trong thời đại công nghệ thông tin hiện nay. Nếu chúng ta biết khai thác tốt các kho ngữ liệu, các công cụ tin học của ngành NNHMT thì gánh nặng việc biên soạn từ điển sẽ giảm đi rất nhiều. Đối với ngành Từ điển học Việt Nam, tuy các kho ngữ liệu và công cụ nói trên của ngành NNHMT trong nước so với thế giới còn hạn chế, nhưng với sự cố gắng và phối hợp giữa hai ngành (ngôn ngữ học và tin học), thì các hạn chế trên dần dần sẽ được khắc phục và các thành quả mà NNHMT mang lại cho ngành từ điển học sẽ ngày càng lớn.

TÀI LIỆU THAM KHẢO

[1] Atkins B.T. and Michael Rundell (2008), “The Oxford Guide to Practical Lexicography”, Oxford University Press.

[2] Dinh Dien, Nigel Collier el al. (2007), “Named Entity Recognition in Vietnamese Documents”, Journal of “Progress in Informatics”, NII (National Institute for Informatics), Tokyo, Japan, Vol. 2007, No.4, pp.1-9.

[3] Đinh Điền(2005), “Xây dựng và khai thác kho ngữ liệu song ngữ Anh-Việt điện tử”, Luận án TS ngôn ngữ học so sánh, Trường đại học Khoa học Xã hội & Nhân văn – ĐHQG TPH CM.

[4] Mitchell P.Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz (1993), “Building a Large Annotated Corpus of English: The Penn TreeBank”, Computational Linguistics, 19(3), pp. 313-330.

[5] Tony Mc., Andrew W. (1996), Corpus Linguistics, Edinburgh University Press, UK.

[6] Viện Ngôn ngữ học (1997), Một số vấn đề Từ điển học. NXB Khoa học Xã hội, Hà Nội.

Nguồn: Tạp chí Từ điển học & Bách khoa thư, số 4(12)/7-2011.

 

 

Bài đăng trước:

  • Về xử lý tiếng Việt trong công nghệ thông tin
  • Automated Extraction of Tree Adjoining Grammars from a Treebank for Vietnamese
  • Building a Large Syntactically-Annotated Corpus of Vietnamese
  • A Lexicon for Vietnamese Language Processing
  • IEEE VÀ HỘI NGHỊ QUỐC TẾ IEEE-RIVF’10 TẠI HÀ NỘI