Xử lí ngôn ngữ

Tìm hiểu mô hình từ điển dùng cho xử lí ngôn ngữ tự nhiên
     

VŨ XUÂN LƯƠNG1, NGUYỄN THỊ MINH HUYỀN2

1. Giới thiệu

Trong xử lí ngôn ngữ tự nhiên (Natural Language Processing), từ điển là một dạng tài nguyên thiết yếu phục vụ cho các bài toán phân tích ngôn ngữ từ đơn giản đến phức tạp. Một từ điển có chất lượng phải cung cấp được các thông tin ngôn ngữ ở nhiều tầng bậc khác nhau như hình thái, ngữ pháp, ngữ nghĩa cho các hệ thống xử lí ngôn ngữ tự nhiên ở mức đơn ngữ, và cao hơn nữa, có thể phục vụ cho cả các hệ thống xử lí đa ngữ. Trên thế giới, việc xây dựng từ điển điện tử dạng như vậy là rất phổ biến. Đã có nhiều từ điển được xây dựng, cả cho các ứng dụng xử lí đơn ngữ và đa ngữ, với những quan niệm và xuất phát điểm riêng [Nguyen, 2006]. Với các kho từ vựng đơn ngữ, có thể kể đến nhiều dạng từ điển cung cấp các thông tin ở các tầng bậc khác nhau. Chẳng hạn, những dự án như BDLEX, CELEX, MULTEXT xây dựng các kho từ vựng chứa thông tin ở mức ngữ âm, hình thái, cú pháp cho nhiều thứ tiếng Ấn – Âu. Ở mức cú pháp, nhiều mô hình từ điển đã cung cấp được các thông tin ngôn ngữ rất phong phú, cả về khả năng kết hợp cú pháp cũng như chức năng cú pháp hoặc những ràng buộc ngữ nghĩa trong cấu trúc ngữ pháp, v.v.

2. Tìm hiểu từ điển điện tử

2.1. WordNet

WordNet là dự án từ điển đơn ngữ (tiếng Anh) thiên về ngữ nghĩa, do Princeton University phát triển. WordNet đã tạo ra một tập hợp từ vựng đồ sộ, theo đó các từ được sắp xếp trong dãy của những tập hợp đồng nghĩa, giúp cho việc xác định nghĩa của từ và để phân biệt được nghĩa đang xét với các nghĩa khác. Nguyên lí tổ chức chung của WordNet là mạng lưới quan hệ ngữ nghĩa. Đó là quan hệ đồng nghĩa (synonym): dog – domestic dog; quan hệ trái nghĩa (antonym): rich – poor; quan hệ trên dưới (hyponym): maple – tree, parent – father; quan hệ chỉnh thể – bộ phận (meronym): body – limb; quan hệ kéo theo (entailment): snore – sleep (cho động từ); v.v. Chẳng hạn, thông tin hyponym của mục dog được miêu tả trong WordNet như sau:

Dạng kho từ vựng này rất hữu ích cho việc gán nhãn ngữ nghĩa cũng như việc truy cập vào ngữ nghĩa của văn bản.

2.2. FrameNet Dự án FrameNet của Đại học Berkeley (California) tạo ra một nguồn từ vựng tiếng Anh trực tuyến, dựa trên ngữ nghĩa học và Corpus. Mục đích là đưa ra bằng chứng về khả năng kết hợp ngữ nghĩa và cú pháp của từng từ trong từng nghĩa cụ thể của chúng, với sự giải thích có trợ giúp của máy tính trên các câu ví dụ và được trình bày tự động bằng những bảng kết quả. FrameNet cho tiếng Anh hiện bao gồm hơn 10.000 đơn vị từ vựng, trong đó hơn 6.100 mục từ được chú giải đầy đủ, trên 825 khung ngữ nghĩa từ vựng (frame-semantic lexicons) và được minh hoạ trong hơn 135.000 câu ví dụ (Last Updated: May 13, 2008 at 02:32 PM). Mỗi đơn vị từ vựng (lexical unit - LU) là sự kết hợp của một từ và một nghĩa. Mỗi nghĩa lại thuộc về những khung ngữ nghĩa từ vựng khác nhau. Ví dụ khung dùng nhiệt mô tả những tình huống thường gặp trong nấu ăn, một số thức ăn và dụng cụ sưởi ấm và được gọi tên bằng nhiều từ khác nhau như nướng, là, đun sôi, hấp,… FrameNet gọi những vai trò này là thành tố khung (frame elements - FEs) và những từ gọi tên khung. Xem các ví dụ sau:

- Thể hiện mỗi nghĩa của heat là một đơn vị từ vựng:

- Thể hiện thông tin thuộc khung ngữ nghĩa Cause temperature change:

- Các đơn vị từ vựng thuộc khung ngữ nghĩa Cause temperature change:

2.3. Từ điển điện tử EDR (EDR Electronic Dictionary)

Từ điển EDR do Viện nghiên cứu từ điển điện tử Nhật Bản (Japan Electronic Dictionary Research Institute, Ltd.) phát triển nhằm phục vụ cho quá trình nghiên cứu nâng cao về diễn tiến của ngôn ngữ tự nhiên và tri thức thế hệ mới. EDR là dự án đồ sộ về kho từ vựng đa ngữ Anh - Nhật. EDR được thiết kế dựa trên 11 từ điển con, bao gồm: từ điển khái niệm, từ điển đơn ngữ, từ điển song ngữ, v.v. Mỗi từ điển đơn ngữ Anh - Nhật bao gồm các mục từ với các thông tin ngữ pháp dưới dạng danh sách các thuộc tính và có liên kết tới các khái niệm trong từ điển khái niệm. Kho từ vựng này về sau được đánh giá là thiết kế chưa kĩ lưỡng nên hiệu quả khai thác không cao.

Tổ chức thông tin trong EDR

2.4. Từ điển máy tính TCL (TCL's Computational Lexicon)

Từ điển máy tính TCL là cơ sở tri thức từ vựng hướng tới mục tiêu trở thành nguồn ngữ liệu cơ bản cho nghiên cứu về diễn tiến của ngôn ngữ tự nhiên. Đặc điểm nổi bật của dự án này là: - TCL gồm có hơn 60.000 mục từ Thái – Anh, được miêu tả trên 3 bình diện: hình thái học, cú pháp học và ngữ nghĩa học. Thông tin hình thái học chỉ ra các loại cấu tạo từ. Thông tin cú pháp học cho thấy những loại, tiểu loại, và các mẫu động từ (Verb Pattern) trong cấu trúc câu. Thông tin ngữ nghĩa học đưa ra môt bộ khung ràng buộc về logic (Logical Constraints) và ràng buộc ngữ nghĩa (Semantic Constraints) để phân biệt các nét nghĩa của từ. - Dự tính sẽ kết nối TCL với các hệ từ điển khác trong khu vực để mở rộng thành từ điển song ngữ (bilingual) hoặc từ điển đa ngôn ngữ (multilingual).

Tổ chức thông tin trong TCL

2.5. Mô hình LMF Với sự phát triển đa dạng của các dự án xây dựng từ điển cho xử lí ngôn ngữ vốn đòi hỏi rất nhiều công sức, các nỗ lực phát triển một chuẩn mô hình từ điển để nâng cao khả năng trao đổi và dùng lại của các từ điển đã được hội tụ vào dự án LMF (ISO, 2008) được khởi động từ năm 2002. Dự án này đưa ra một siêu mô hình từ vựng, trong đó mỗi mục từ được mô tả ở nhiều tầng bậc khác nhau, với các khối thông tin đơn ngữ (ngữ âm, hình thái, cú pháp, ngữ nghĩa) và đa ngữ. Theo mô hình này, việc xây dựng một kho từ vựng có thể được làm dần dần, tập trung theo từng khối thông tin. LMF được tổ chức thành các gói cho phép đặc tả các thông tin ngôn ngữ ở từng cấp độ. Gói lõi (core package) chứa các thông tin cơ bản như mục từ, từ loại và tập nghĩa tương ứng. Tuỳ theo mục đích sử dụng của từ điển, ta có thể xây dựng một hay nhiều gói thông tin trong các gói sau: - Gói hình thái (Morphology), gói cú pháp (Syntax), gói ngữ nghĩa (Semantics) cung cấp thông tin cho các ứng dụng xử lí ngôn ngữ tự nhiên. - Gói MRD (Machine Readable Dictionary) cho phép mã hoá thông tin của các từ điển điện tử dành cho người tra cứu. - Gói thông tin đa ngữ (Multilingual) cho phép mã hoá từ điển đa ngữ, biểu diễn các loại quan hệ tương đương về mặt ngữ pháp cũng như ngữ nghĩa trong hai hay nhiều ngôn ngữ.

Tổ chức mô hình LMF

Gói thông tin hình thái cho phép mô tả các thông tin như cấu tạo từ (từ đơn, từ ghép, v.v.), dạng chuẩn của từ (lemma), thông tin từ gốc (stem) và các dạng biến hình đối với các ngôn ngữ biến hình, các biến tố về chính tả, v.v. Gói này cũng cho phép biểu diễn quan hệ hình thái (từ gốc, phái sinh, từ thành phần đối với các thuật ngữ/quán ngữ, từ đồng âm, v.v.) giữa các mục từ. Gói thông tin cú pháp chứa thông tin về các cấu trúc ngữ pháp liên quan đến mục từ, đặc biệt là các khung vị từ (Subcategorization Frame) - tức là thông tin về các tham tố (arguments) của vị từ, các ràng buộc vị trí, mối quan hệ giữa các mẫu vị từ. Gói thông tin ngữ nghĩa cho phép mô tả các thông tin về quan hệ giữa các nghĩa, ví dụ minh hoạ của từng nghĩa, thông tin tập từ đồng nghĩa (synset) và quan hệ giữa chúng, cũng như thông tin ràng buộc ngữ nghĩa của các tham tố của một vị từ, cụ thể là giữa chức năng cú pháp với vai nghĩa (semantic role). Gói này cũng cho phép biểu diễn tương quan giữa các thành phần nghĩa của một vị từ với các thành phần cú pháp trong dạng ngữ pháp hiện thực hoá của vị từ đó. Ví dụ như với động từ “giúp đỡ”, dạng vị từ về mặt nghĩa đầy đủ có thể là “X giúp đỡ Y làm Z bằng cách W”, nhưng dạng hiện thực hoá ngữ pháp có thể chỉ là “A giúp đỡ B”. Khi đó thành phần A phải có ràng buộc ngữ nghĩa trong mô tả của X, B có ràng buộc ngữ nghĩa trong mô tả của Y. Với cách thiết kế như vậy, một từ điển được xây dựng theo chuẩn LMF có thể được tiến hành theo từng khối thông tin và mở rộng dần theo nhu cầu ứng dụng. Cách thiết kế của LMF cũng cho phép chuyển các kho tài nguyên từ vựng đã có về dạng tương thích với LMF một cách thuận lợi.

3. Kết luận

Bài báo đã giới thiệu một cách tổng quan về 5 dự án xây dựng từ điển dùng cho xử lí ngôn ngữ tự nhiên. Còn nhiều dự án từ điển đa ngữ có quy mô tương đối lớn khác như ISLE / MILE của nhóm EAGLES, các dự án WordNet đa ngữ, dự án Papillon, v.v. mà chúng tôi không có điều kiện khảo sát hết. Trong xu hướng chung đi tìm các phổ quát ngôn ngữ, các dự án từ điển ra đời trong những năm gần đây đều tập trung vào việc vạch rõ nghĩa miêu tả (còn được gọi là nghĩa biểu hiện, nghĩa trình bày, nghĩa kinh nghiệm [Nguyễn Văn Hiệp, 2008]) của các đơn vị từ vựng. Mức độ miêu tả thông tin trong từ điển ngày càng đậm đặc, kĩ thuật miêu tả ngày càng chuyên nghiệp. Một từ điển dùng cho xử lí ngôn ngữ tự nhiên thường được xây dựng cho nhiều mục đích khác nhau, chẳng hạn: dùng để nghiên cứu về diễn tiến của ngôn ngữ tự nhiên, dùng để xác định đơn vị từ (thường gọi là tách từ - word segmentation), gán nhãn từ loại (PoS tagging), phân khúc câu thành cụm từ (phrase chunking), phân tích cú pháp (parsing), và xa hơn nữa là đọc hiểu văn bản.

TÀI LIỆU THAM KHẢO

[1] Charoenporn T. (2004), TCL' s Computational Lexicon. Myanmar-Thai Co-Workshop on Myanmar Language Implementation MICT Park, Yangon Myanmar.

[2] ISO/TC 37/SC 4 N330 (Rev.16-2008), Language resource management - Lexical markup framework (LMF).

[3] Miller G., Backwith R., Fellbaum C., Gross D., Miller K. (1990), Five papers on WordNet, Technical report, Cognitive science laboratory, Princeton University.

[4] Nguyễn Minh Thuyết, Nguyễn Văn Hiệp (2004), Thành phần câu tiếng Việt, Nhà xuất bản Giáo dục.

[5] Nguyen T. M. H., Vu X. L., Romary L., Rossignol M. (2007), A Lexicon for Vietnamese Language Processing, LRE (Language Resources and Evaluation), Special Issue: Asian Language Resources.

[6] Nguyen T. M. H. (2006), Outils et Ressources Linguistiques pour l'alignement de textes de textes multilingues français-vietnamiens, Thèse de doctorat en Informatique, Université Henri Poincaré - Nancy I, France.

[7] Nguyễn Văn Hiệp (2008), Cơ sở ngữ nghĩa phân tích cú pháp, Nhà xuất bản Giáo dục.

Nguồn: Tạp chí Từ điển học & Bách khoa thư, số 2 (11-2009)

Chú thích:

1 Trung tâm Từ điển học (Vietlex). 2 Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Hà Nội.

 

 

Bài đăng trước:

  • Lexical descriptions for Vietnamese language processing
  • Developing Tools and Building Linguistic Resources for Vietnamese Morpho-Syntactic Processing
  • A Case Study in POS Tagging of Vietnamese Texts
  • Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt
  • Quy tắc sắp xếp đơn vị từ vựng trong từ điển tiếng Việt