Xử lí ngôn ngữ

Xác định dãy từ đồng nghĩa khi xây dựng Wordnet tiếng Việt
     

VŨ XUÂN LƯƠNG – Vietlex

SUMMARY
Determining the common meaning of a sequence of synonyms is a necessary thing to do when establishing WordNet for the languages all over the world. This writing does not go deep into explaining the synonym phenomenon, but points out steps for semantic analysis, which are hoped to establish operations for determining synonym sequence in a convenient way, thus helping set up WordNet in Vietnamese.
 

1. Đặt vấn đề

Con người sử dụng ngôn ngữ để thể hiện tư duy, tình cảm của mình trong quá trình trao đổi, tiếp xúc với nhau. Ngôn ngữ vốn là một hệ thống phức tạp, bao gồm các phương tiện biểu hiện, bằng cách này hay cách khác, ít nhiều có sự tương ứng với nhau, và trong quá trình phát triển chúng dần dần trở thành đồng nghĩa với nhau. Để có được sự phù hợp giữ hình thức và nội dung cần diễn đạt khi sử dụng ngôn ngữ, chúng ta cần phải nắm được vốn từ vựng cùng với các đặc điểm ý nghĩa cũng như khả năng kết hợp của từ ngữ này với các từ ngữ khác tạo thành những dãy đồng nghĩa. Các từ ngữ trong dãy đồng nghĩa thường có thể thay thế được cho nhau trong những bối cảnh ngôn ngữ cụ thể. Sự thay thế ấy nếu được sử dụng một cách chính xác, rõ ràng thì sẽ tránh được tình trạng cứ phải lặp đi lặp lại nhiều lần một đơn vị ngôn ngữ, gây cảm giác dư thừa và nhàm chán.

Việc xác định ý nghĩa chung cho một dãy đồng nghĩa là một việc làm cần thiết khi xây dựng WordNet cho các ngôn ngữ trên thế giới. Bài báo này không đi sâu vào lí giải các hiện tượng đồng nghĩa, mà chỉ nêu ra các bước phân tích ngữ nghĩa, hi vọng có được các thao tác xác định dãy đồng nghĩa một cách tiện lợi, giúp ích cho việc xây dựng WordNet tiếng Việt.

2. Một số tiền đề lí luận

2.1. Nét nghĩa (semantic feature):

Nét nghĩa “là những thành tố ngữ nghĩa chung cho nghĩa của các từ thuộc cùng một nhóm từ, hoặc riêng cho nghĩa của một từ, đối lập với nghĩa của những từ khác trong cùng một nhóm. Nét nghĩa được diễn đạt bằng từ (hoặc tổ hợp từ).” [Hoàng Phê 2003: 4]

Thí dụ (lược dẫn theo Hoàng Phê): nghĩa của hai từ mẹcha có một thành tố ngữ nghĩa chung là “nói trong mối quan hệ với con”. Khi đem đối lập với nhau thì mẹ cha lại có thể phân tích ra thành những thành tố ngữ nghĩa “phụ nữ”, “đàn ông”, “đã có con”.

- mẹ: “phụ nữ” – “đã có con” – “nói trong mối quan hệ với con”.

- cha: “đàn ông” – “đã có con” – “nói trong mối quan hệ với con”.

Chúng ta có thể hình dung cụ thể hơn như sau:

Các thành tố nghĩa “đã có con”, “nói trong mối quan hệ với con” là những nét nghĩa chung cho cả mẹcha. Còn thành tố nghĩa “phụ nữ” là nét nghĩa riêng cho từ mẹ, thành tố nghĩa “đàn ông” là nét nghĩa riêng cho từ cha.

2.2. Nghĩa vị

“Bản thân mỗi nét nghĩa (thí dụ: “phụ nữ”) lại cũng có thể coi như là một nghĩa, và có thể phân tích thành những nét nghĩa. Trên lí thuyết, sự phân tích có thể tiếp tục cho đến khi đạt đến những thành tố ngữ nghĩa cơ bản, không còn có thể phân tích được nữa (và gọi là nghĩa vị).” [Hoàng Phê 2003: 4] Chẳng hạn có thể phân tích tiếp nét nghĩa “phụ nữ” thành các nét nghĩa như “người lớn”, “thuộc nữ giới”. Nét nghĩa “người lớn” được phân tích tiếp thành các nét nghĩa “người ở độ tuổi trưởng thành”, “được coi là đủ tư cách”. Nét nghĩa “nữ giới” được phân tích tiếp thành “những người thuộc về giới có thể đẻ con”, v.v. Công việc cứ tiếp tục cho đến khi không còn có thể phân tích được nữa, những thành tố thu được gọi là nghĩa vị.

Nghĩa vị (sememe, plereme) được các tác giả cuốn Từ điển giải thích thuật ngữ ngôn ngữ học đồng nhất với nét nghĩa: nét nghĩa x. nghĩa vị [Nguyễn Như Ý 1996: 142]; và cho rằng: “Nghĩa vị biểu hiện mặt nội dung của đơn vị ngôn ngữ ở bình diện giao tiếp. Một từ có thể có một nghĩa vị - đó là các từ đơn nghĩa; hoặc một vài nghĩa vị - đó là các từ đa nghĩa.” [Nguyễn Như Ý 1996: 150]. Có thể hiểu rằng, nghĩa vị là nét nghĩa ở mức cơ bản nhất.

2.3. Nghĩa từ

“Ý nghĩa của từ vừa là cái riêng cho từng từ, vừa là cái chung cho những từ cùng loại. Nắm được cái riêng, cái chung trong ý nghĩa thì mới thực sự hiểu từ, thực sự hiểu được những cái tinh tế trong từ và mới hiểu được những đặc sắc của từng ngôn ngữ ở phương diện nội dung.” [Đỗ Hữu Châu 1981: 85]

“Trong cấu trúc của nghĩa từ vựng có hai bình diện: nghĩa biểu vật, hướng về ngoại diên khái niệm, về một số đặc trưng khu biệt rõ nét nhất, dễ nhận thấy nhất để nhận biết sự vật; nghĩa biểu niệm hướng về nội hàm khái niệm, về những đặc trưng bản chất nhất, nhằm để nhận thức sự vật.” [Nguyễn Như Ý 1996: 149]

“Mỗi nghĩa từ là một tổ hợp đặc biệt những thành tố ngữ nghĩa, gọi là các nét nghĩa ...” [Hoàng Phê 2003: 3]

Nghĩa của từ, ở mức khái quát được gọi là nghĩa từ vựng hay ý nghĩa từ vựng. Quá trình sử dụng từ ngữ như là công cụ (siêu ngôn ngữ) để làm rõ nghĩa của từ, biểu thị bằng các nét nghĩa, được gọi là định nghĩa từ (define: give a definition for the meaning of a word “đưa ra một lời định nghĩa cho ý nghĩa của một một từ” [WordNet 2.0]). Các nét nghĩa được sắp xếp, trình bày thành một lời giải thích trọn vẹn, hợp logic được gọi là lời định nghĩa (definition). Mỗi lời định nghĩa làm thành một nghĩa (sense) của từ trong từ điển.

2.4. WordNet

Năm 1978, George Miller và nhóm nghiên cứu của ông tại Đại học Princeton bắt đầu phát triển một cơ sở ngữ liệu với các mối quan hệ khái niệm, được coi như là sự thể hiện (hiện thực hoá) một mô hình của vốn từ vựng nội tâm (mental lexicon). Cơ sở ngữ liệu này, gọi là WordNet, đã được tổ chức xung quanh ý niệm mà một tập hợp các từ đồng nghĩa (gọi là synset) thể hiện với các mối quan hệ ngữ nghĩa giữa chúng [Vossen Piek, 2002].

Khái niệm “synset” được hiểu như là một tập hợp các từ có cùng từ loại, có thể thay thế được cho nhau trong một bối cảnh ngôn ngữ (context) nhất định. Và do vậy, chúng được xem là những từ đồng nghĩa (synonym) với nhau. Thí dụ các từ “car, auto, automobile, machine, motorcar” tạo thành một synset (dãy đồng nghĩa) bởi vì chúng có thể được sử dụng để chỉ cùng một khái niệm [auto là tên gọi trong tiếng Mĩ (chiefly US); machine là tên gọi thông tục (colloquial) – theo Oxford Thesaurus].

Mỗi synset được tiếp tục mô tả bằng một lời định nghĩa (definition). Lời định nghĩa này là chung cho tất cả các từ đồng nghĩa trong synset. Chẳng hạn, từ car có lời định nghĩa là: “a motor vehicle with four wheels; usually propelled by an internal combustion engine” [WordNet 2.1 Browser] (tạm dịch: xe động cơ có bốn bánh, thường được đẩy đi bằng động cơ đốt trong). Lời định nghĩa này cũng được áp dụng chung cho các từ auto, automobile, machine, motorcar.

Bảng 1. Lời định nghĩa và thí dụ của synset số 15951 (data source WordNet 3.0).

 synsetno

 lexname

 definition

 sample

 15951

 noun

 a motor vehicle with four wheels; usually
 propelled by an internal combustion engine.

 he needs a car to get to
 work

 

Bảng 2. Lời định nghĩa của synset số 15951 áp dụng chung cho các từ trong cùng synset.

 synsetno

 wordno

 lemma

 lexname

 definition

 15951

 26149

 car

 noun

 a motor vehicle with four wheels; usually
  propelled by an internal combustion engine.

 15951

 26336

 auto

 noun

 a motor vehicle with four wheels; usually
 propelled by an internal combustion engine.

 15951

 26337

 automobile

 noun

 a motor vehicle with four wheels; usually
 propelled by an internal combustion engine.

 15951

 26338

 machine

 noun

 a motor vehicle with four wheels; usually
 propelled by an internal combustion engine.

 15951

 26339

 motorcar

 noun

 a motor vehicle with four wheels; usually
 propelled by an internal combustion engine.

 

Các synset có thể liên quan với nhau bởi mối quan hệ ngữ nghĩa, chẳng hạn: Quan hệ chỉ ra một từ mà ý nghĩa của nó bao hàm ý nghĩa của một hoặc nhiều từ khác cùng loại (quan hệ giữa cái tổng quát và cái cụ thể), gọi là hypernym (quan hệ thượng danh); thí dụ: musical instrument (nhạc cụ) là hypernym của piano (đàn pianô). Quan hệ chỉ ra một từ mà từ đó thể hiện một ý nghĩa cụ thể hơn so với từ liên quan khác (quan hệ giữa cái cụ thể và cái tổng quát), gọi là hyponym (quan hệ hạ danh); thí dụ: father (cha) là hyponym của parent (cha mẹ). Quan hệ chỉ ra một từ mà nó là tên gọi tổng thể của một từ là tên gọi bộ phận của nó (quan hệ giữa chỉnh thể và bộ phận), gọi là holonym (quan hệ tổng danh); thí dụ: hat (mũ) là một holonym của brim (vành) và crown (đỉnh). Quan hệ chỉ ra một từ mà nó là tên gọi bộ phận của một vật lớn hơn (quan hệ giữa bộ phận và chỉnh thể), gọi là meronym (quan hệ phân danh); thí dụ: brim (vành) và crown (đỉnh) là những meronym của hat (mũ). Quan hệ chỉ ra một từ mà từ đó là kết quả trực tiếp sinh ra từ một việc khác, gọi là entailment (quan hệ kéo theo); thí dụ: snore (ngáy) là hành động kéo theo của sleep (ngủ), v.v.

Trong một số khía cạnh, WordNet tương tự như một cuốn từ điển truyền thống. Chẳng hạn, WordNet cung cấp các định nghĩa và câu thí dụ cho hầu hết các synset. Định nghĩa có giá trị cho tất cả các từ đồng nghĩa trong synset, vì nó biểu thị ý nghĩa của khái niệm. Các câu thí dụ có thể không được hữu hiệu cho tất cả các từ đồng nghĩa, và thườngnhững câu khác nhau được đưa ra cho các thành viên (các từ) khác nhau của synset. Giống như một từ điển, WordNet còn chứa đựng thông tin hình thái của từ liên quan [Christiane Fellbaum, 1998].

3. Xác định dãy đồng nghĩa

3.1. Khái niệm về đồng nghĩa:

Hiểu theo nghĩa hẹp nhất, đồng nghĩa là một từ hoặc một tổ hợp từ có thể thay thế được hoàn toàn cho một từ hoặc một tổ hợp từ khác trong cùng một ngữ cảnh [Oxford Thesaurus]. Hầu hết các chuyên gia nghiên cứu ngôn ngữ đều đồng ý rằng, chẳng có gì gọi là đồng nghĩa lí tưởng hay tuyệt đối cả, vì chẳng thể nào có thể tìm được hai từ hay tổ hợp từ hoàn toàn giống nhau về ý nghĩa, sự liên tưởng, mức độ quen thuộc, tần xuất sử dụng và khả năng kết hợp.

Từ lâu, các nhà ngôn ngữ học đã lưu ý đến hiện tượng đồng nghĩa, và đã chỉ ra rằng: “Đồng nghĩa trước hết là một hiện tượng có phạm vi rộng khắp trong toàn bộ từ vựng, chứ không chỉ bó hẹp trong những nhóm với một số có hạn những từ nhất định. Nói khác đi, đồng nghĩa trước hết là quan hệ về ngữ nghĩa, giữa các từ trong toàn bộ từ vựng chứ không phải trước hết là giữa những từ nào đấy. Đó là quan hệ giữa các từ ít nhất có chung một nét nghĩa.” [Đỗ Hữu Châu 1981: 184]

“Tất cả các đơn vị có chung một ý nghĩa tập hợp thành nhóm gọi là loạt đồng nghĩa. Như vậy tiêu chí của loạt đồng nghĩa là một ý nghĩa chung, thống nhất. Sự khác nhau của các thành tố trong loạt đồng nghĩa cũng chỉ trong phạm vi cái ý nghĩa chung thống nhất đó.” [Nguyễn Thiện Giáp 1985: 222]

“Thực tế quan sát tư liệu cho thấy rằng giữa các từ trong một dãy đồng nghĩa có quan hệ không thuần nhất. Chẳng hạn trong dãy đồng nghĩa mẹ, má, u, bu, bầm, cái, mế, bủ, v.v. từ mẹ đối lập về phong cách với tất cả các từ còn lại của dãy với tư cách nó là từ trung tính; từ cái đối lập với tư cách là một từ cổ (con dại cái mang (tục ngữ)); các từ má, bầm, bủ, u, bu, mế đối lập với các từ khác với tư cách là các từ bị hạn chế về lãnh thổ (chúng là những từ địa phương). Nhưng tất cả các từ này không khác biệt nhau về sắc thái ý nghĩa chung, cơ bản.” [Nguyễn Đức Tồn 2006: 140]

Đồng thời, cũng có hiện tượng các từ trong nột dãy đồng nghĩa giống nhau về phong cách, nhưng lại khác nhau về sắc thái ý nghĩa cơ bản. Chẳng hạn các từ trong dãy đồng nghĩa giúp đỡ, tương trợ, hỗ trợ đều mang phong cách trung tính, nhưng chúng khác nhau về sắc thái ý nghĩa cơ bản. Trong nhiều trường hợp giúp đỡ, tương trợ, hỗ trợ có thể thay thế được cho nhau: giúp đỡ (tương trợ / hỗ trợ) nhau trong lúc khó khăn; sẵn sàng giúp đỡ (tương trợ / hỗ trợ) học sinh nghèo vượt khó. Nhưng cũng nhiều trường hợp chúng lại không thay thế hoàn toàn được cho nhau: nói “giúp đỡ họ cải tạo tư tưởng cho tốt” không nói “tương trợ (hỗ trợ) họ cải tạo tư tưởng cho tốt”; nói “giúp đỡ (hỗ trợ) về mặt kĩ thuật” không nói “tương trợ về mặt kĩ thuật”, v.v.

Nguyễn Đức Tồn cho rằng: các từ đồng nghĩa trung tính về phong cách, khác biệt nhau về các sắc thái của ý nghĩa cơ bản được gọi là các từ đồng nghĩa ý niệm; còn các từ đồng nhất về ý nghĩa và khác nhau về phong cách được gọi là các từ đồng nghĩa phong cách. [Nguyễn Đức Tồn 2006: 147 & 160]

Chẳng có đòi hỏi nào đưa ra – nếu có đưa ra thì cũng không thể thực hiện được – rằng, các từ đồng nghĩa phải giống nhau hoàn toàn, hoặc phải giống từ này, hoặc phải giống từ kia. Chỉ đơn thuần là chúng cùng rơi vào tiêu chí là tương đồng về nội dung biểu đạt, do đó trong nhiều hoàn cảnh ngôn ngữ cụ thể, chúng có thể thay thế được cho nhau.

3.2. Phân tích ngữ nghĩa

Phân tích từ ra thành các nét nghĩa là công việc cần thiết, làm tiền đề cho việc xác định các từ có khả năng làm thành một dãy đồng nghĩa (synset) với nhau hay không.

Lấy thí dụ từ đừng có thể phân tích thành ba nét nghĩa sau:

khuyên ngăn – ai đấy – không nên làm việc gì.

Ba nét nghĩa này cũng hoàn toàn phù hợp cho nội dung của từ chớ. So sánh hai câu sau:

(1) Đừng cho chân vào chuồng cọp!

(2) Chớ cho chân vào chuồng cọp!

Nếu thay thế nét nghĩa “khuyên ngăn” bằng “yêu cầu” ta lại thấy ba nét nghĩa “yêu cầu – ai đấy – không nên làm việc gì” phù hợp cho nội dung của từ miễn:

(3) Miễn hỏi khi bác sĩ đang cầm dao mổ!

Quan sát kĩ ta lại thấy ba nét nghĩa “yêu cầu – ai đấy – không nên làm việc gì” cũng phù hợp cho nội dung của từ đừng:

(4) Đừng hỏi khi bác sĩ đang cầm dao mổ!

So sánh câu (3) và (4) thì thấy rằng, chúng đều có cùng một nội dung diễn đạt là: “biểu thị ý yêu cầu bất cứ ai, không nên hỏi gì, khi người bác sĩ đang tiến hành ca mổ (cầm dao mổ), để tránh điều không hay có thể xảy ra” (vì hàm ý rằng, nếu hỏi thì sẽ làm cho bác sĩ mất tập trung, dễ gây ra điều nguy hiểm cho bệnh nhân). Có chăng chỉ khác ở câu (3) từ “miễn” mang ý “yêu cầu lịch sự” hơn từ đừng ở câu (4).

Có mấy câu hỏi đặt ra ở đây là: Tại sao để biểu thị nội dung “khuyên ngăn ai đấy không nên làm việc gì” lại phải dùng tới hai từ đừngchớ? Ba nét nghĩa “khuyên ngăn – ai đấy – không nên làm việc gì” đã đủ để diễn đạt cho nội dung nghĩa của đừngchớ chưa? Giữa đừng, chớmiễn có quan hệ với nhau như thế nào? Chúng ta lần lượt xem xét như sau:

a) Quan sát trên kho ngữ liệu tiếng Việt (Vietnamese Corpus) thì thấy rằng, tuy đừngchớ có sự tương đồng về nội dung biểu đạt nhưng giữ chúng vẫn có sự khác nhau khá tinh tế về sắc thái nghĩa. Đó là, so với đừng thì chớ biểu thị thái độ “khuyên ngăn” có ý dứt khoát hơn:

­– Chớ thấy sóng cả mà ngã tay chèo. [Ngữ văn 7]

Ở đời mỗi người mỗi việc, xin chớ lắm điều! [Ngữ văn 6]

– Lúc đó bạn chớ ngừng tay, mà cứ tiếp tục làm, dù cho có gặp trắc trở. [Ngữ văn 7]

– Đã có cà cuống thì đừng hạt tiêu. [Ca dao]

– Ông lão ơi! Đừng băn khoăn nữa. Cứ về đi. [Ngữ văn 6]

– Hãy còn nóng lắm đấy nhé! Em đừng mó vào mà bỏng thì khốn. [Ngữ văn 8]

b) Lấy thí dụ:

(5) Đừng nghịch súng ngắn của anh ấy!

Nội dung diễn đạt của câu (5) là: “Nghịch súng của anh ấy có thể sẽ gây ra nguy hiểm (cho mình hoặc cho người khác), vì vậy không nên nghịch”. So sánh với câu:

(6) Đừng nghịch máy tính của anh ấy!

Nội dung diễn đạt của câu (6) là: “Nghịch máy tính của anh ấy có thể sẽ gây ra hỏng hóc (cho máy tính) hoặc làm mất dữ liệu, vì vậy không nên nghịch”. Có thể thấy rằng, nội dung diễn đạt được suy ra từ hoàn cảnh phát ngôn tác động đến nghĩa của câu. Trong hai câu (5) và (6), từ tạo ra “sức nặng” ngữ nghĩa là từ “đừng”. Dễ thấy rằng từ “đừng” biểu thị ý “khuyên ngăn ai đấy không nên làm việc gì, vì nếu làm thì sẽ gây ra việc đáng tiếc nào đó”. Như vây, đừng (cũng như chớ) cần được bổ sung thêm một nét nghĩa nữa thì ý nghĩa của chúng mới được phản ánh đầy đủ:

đừng: khuyên ngăn – ai đấy – không nên làm việc gì – vì lí do nào đó.

chớ: khuyên ngăn – ai đấy – không nên làm việc gì – vì lí do nào đó [ý dứt khoát].

Từ việc phân tích nghĩa như trên, chúng ta rút ra kết luận rằng, đừng chớ đồng nghĩa với nhau vì chúng có chung nội dung nghĩa “khuyên ngăn – ai đấy – không nên làm việc gì – vì lí do nào đó”. Tuy nhiên chớ biểu thị “ý dứt khoát” hơn đừng, và vì thế chúng được gọi là các từ đồng nghĩa ý niệm.

c) Từ đừng và từmiễn lại có chung các nét nghĩa “yêu cầu – ai đấy – không nên làm việc gì”, và chúng cũng cần bổ sung thêm nét nghĩa “vì lí do nào đó”. Như vậy, đừng được xác định là đồng nghĩa với miễn. Nội dung nghĩa này được xác lập cho nghĩa thứ hai của đừng. Kết quả thu được như sau:

đừng
1. khuyên ngăn – ai đấy – không nên làm việc gì – vì lí do nào đó: Anh đừng nghi oan cho nó! synset: {đừng, chớ}
2. yêu cầu – ai đấy – không nên làm việc gì – vì lí do nào đó: Đừng sờ tay vào hiện vật! synset: {miễn, đừng}

chớ
khuyên ngăn – ai đấy – không nên làm việc gì – vì lí do nào đó [ý dứt khoát]: Các cháu chớ có tham gia vào việc đó! synset: {đừng, chớ}

miễn
yêu cầu – ai đấy – không nên làm việc gì – vì lí do nào đó [ý lịch sự]: Không phận sự miễn vào! synset: {miễn, đừng}

Việc phân tích nghĩa từ ra thành các nét nghĩa đòi hỏi phải tuân theo một nguyên tắc nào đấy, chứ không thể tuỳ tiện. Giữa các nét nghĩa “khuyên ngăn – ai đấy – không nên làm việc gì – vì lí do nào đó” có một quan hệ logic nhất định, “nét nghĩa đứng trước là tiền đề cho nét nghĩa đứng sau (...); nét nghĩa đứng sau thuyết minh cho nét nghĩa đứng trước, “phụ nghĩa” cho nét nghĩa đứng trước.” [Hoàng Phê 2003: 11]

3.3. Quy tắc xác định dãy đồng nghĩa qua cách tạo từ ghép song tiết

Trong tiếng Việt có cách tạo từ bằng việc kết hợp chặt chẽ hai từ tố là từ đơn cùng nghĩa hay gần nghĩa với nhau để tạo ra một từ ghép song tiết có ý nghĩa cho sẵn, và ýnghĩa này không thể nào xác định được chính xác bằng cách suy ra từ ý nghĩa của các từ tố tạo thành. Về mặt hình thức thì đây là những từ ghép đẳng lập, song về nội dung ngữ nghĩa thì các từ tố không bình đẳng như nhau. Trong đó có một từ tố mang ý nghĩa hạn định, chỉ rõ thêm cho từ tố chính có ý nghĩa gì. Giả định rằng, các từ ghép song tiết có cấu tạo dạng Ax hoặc xA được xác định. Trong đó:

– A là từ tố cùng xuất hiện trong các từ ghép, có thể đứng trước hoặc đứng sau x.

– x là một từ tố nào đó kết hợp với A để tạo nên một từ ghép, có thể đứng trước hoặc đứng sau A. Nếu x khác nhau thì được kí hiệu là x1, x2, x3... xn.

– n là số lượng từ ghép [xn là từ tố ở thứ n].

– Dùng kí hiệu ≅ để biểu thị tính “cùng nghĩa, gần nghĩa hay đồng nghĩa”. Dùng kí hiệu ≇ để biểu thị tính “không có liên quan về nghĩa”. Ta có các quy tắc như sau:

Quy tắc 1

(a) nếu A ≅ x1, A ≅ x2, A ≅ x3... A ≅ xn; và

(b) x1 ≇ x2 ≇ x3... ≇ xn; thì:

– các từ ghép (Ax hoặc xA) không đồng nghĩa với nhau.

– A có ít nhất n nghĩa tương ứng với x1, x2, x3,... xn.

– A sẽ có mặt trong ít nhất n synsets.

Áp dụng:

Giả định ta xác định được các từ ghép KÊU gọi, KÊU la, KÊU van (n = 3). Trong đó có:

(a) KÊU ≅ gọi (x1), KÊU ≅ la (x2), KÊU ≅ van (x3); và

(b) gọi ≇ la ≇ van; nên:

KÊU gọiKÊU laKÊU van.

KÊU có ít nhất 3 nghĩa tương ứng với gọi, la, van.

KÊU sẽ có mặt trong ít nhất 3 synsets.

kêu đg.

1 [ph] phát ra tiếng, để người nghe đáp ứng lại: Chị kêu em về ăn cơm. Có tiếng ai kêu mở cửa. synset: {kêu, gọi}

2 [ph] nêu ra mối quan hệ nào đó bằng một từ: Tôi kêu ông ấy bằng chú. synset: {kêu, gọi}

3 bật ra thành tiếng hoặc thành lời, do bị kích thích mạnh: Cả bọn sợ quá kêu thất thanh. Nếu ông không buông ra thì tôi kêu lên bây giờ! synset: {kêu, la, kêu la}

4 nói ra nỗi buồn bực, do không vừa ý về điều gì: Mới khó khăn một tí đã kêu. Khổ thì chịu chứ không kêu. synset: {kêu, van, kêu van, kêu ca}

Ở đây, kêu đồng nghĩa với 2 nghĩa của gọi. Chọn kêu van thì thôi chọn kêu ca vì từ tố ca (thán) [ca không hoạt động độc lập, chỉ nói ca thán – do ta thán nói chệch âm mà thành] và từ tố van lại có chung nét nghĩa: “nói ra nỗi buồn bực, do không vừa ý về điều gì: hơi khó khăn một tí đã van (đã kêu ca)”. Do vậy, nếu chọn cả kêu vankêu ca để minh hoạ thì sẽ vi phạm điều kiện (b) ở trên là van phải không được đồng nghĩa với ca (thán).

Quy tắc 2

(a) nếu A ≇ x1, A ≇ x2, A ≇ x3... A ≇ xn; và

(b) x1 ≅ x2 ≅ x3... ≅ xn; thì:

– các từ ghép (Ax hoặc xA) đồng nghĩa với nhau.

– A có 1 nghĩa tương ứng với nghĩa của các từ Ax/xA.

– A và các từ Ax/xA làm thành 1 synset.

Áp dụng:

Giả định ta xác định được các từ ghép KÊU van, KÊU xin. Trong đó có:

(a) KÊU ≇ van, KÊU ≇ xin; và

(b) van ≅ xin; nên:

KÊU vanKÊU xin

KÊU có 1 nghĩa tương ứng với nghĩa của KÊU van, KÊU xin.

KÊUKÊU van, KÊU xin làm thành 1 synset.

kêu đg. 5 nói ra một cách tha thiết, để mong được đáp ứng yêu cầu: “(...) cháu đi vay mãi không được, cho nên lại phải sang kêu với cụ... Xin cụ nhón tay làm phúc, cho cháu lo đủ lệ làng.” [Ngô Tất Tố]. synset: {kêu, kêu van, kêu xin, van xin*}

kêu van đg. nói ra một cách tha thiết, để mong được đáp ứng yêu cầu [có ý nhẫn nhục dai dẳng]: “Nàng lăn xả vào ôm lấy người yêu, the thé kêu van để chịu thay những vết roi oan nghiệt.” [Nguyễn Công Hoan]. synset: {kêu, kêu van, kêu xin, van xin}

kêu xin đg. nói ra một cách tha thiết, để mong được đáp ứng yêu cầu [có ý nhẫn nhục]: “Ông bá hộ K. cúi gục tận đất, kêu xin tha tội.” [Ngô Tất Tố]. synset: {kêu, kêu van, kêu xin, van xin}

(*) Chúng ta cũng áp dụng quy tắc 2 này để xác định van XIN kêu XIN có quan hệ đồng nghĩa với nhau, và do đó van xin cùng synset với kêu, kêu van, kêu xin.

Quy tắc 3

(a) nếu A ≅ x1, A ≅ x2, A ≅ x3... A ≅ xn; và

(b) x1 ≅ x2 ≅ x3... ≅ xn; thì:

– các từ ghép (Ax hoặc xA) có thể đồng nghĩa với nhau.

– A, x1, x2, x3... xn tuỳ mức độ, có thể cùng (hoặc không cùng) chung một nghĩa với các từ Ax/xA.

– A, x1, x2, x3... xn có thể cùng (hoặc không cùng) với các từ Ax/xA làm thành 1 synset.

Áp dụng:

Giả định ta xác định được các từ ghép nguyên VẸN, VẸN nguyên, toàn VẸN, VẸN toàn. Trong đó có:

(a) nguyênVẸN, toàn VẸN [nguyêntoàn là từ Hán-Việt, chúng cùng có chung ý nghĩa với vẹn “còn giữ được như cũ, không mất mát, biến đổi chút nào”. Thí dụ: Giữ vẹn (nguyên / toàn) danh tiết”]; và

(b) nguyêntoàn; nên:

nguyên VẸN VẸN nguyên toàn VẸN VẸN toàn

nguyên, vẹn, toàn có thể có một nghĩa tương ứng với nghĩa của nguyên VẸN, VẸN nguyên, toàn VẸN, VẸN toàn.

nguyên, vẹn, toàn có thể cùng vớinguyên vẹn, vẹn nguyên, toàn vẹn, vẹn toàn làm thành 1 synset.

vẹn t. [vchương] còn giữ được như cũ, không mất mát, không biến đổi chút nào: Giữvẹn danh tiết. synset: {nguyên, vẹn, toàn, nguyên vẹn, toàn vẹn, vẹn toàn, vẹn nguyên}

toàn t. [cũ] còn giữ được như cũ, không mất mát, không biến đổi chút nào: Giữtoàn danh tiết. synset: {nguyên, vẹn, toàn, nguyên vẹn, toàn vẹn, vẹn toàn, vẹn nguyên}

nguyên t. 1 còn giữ được như cũ, không mất mát, không biến đổi chút nào: Giữnguyên danh tiết. synset: {nguyên, nguyên vẹn, toàn vẹn, vẹn toàn, vẹn nguyên}

nguyên vẹn t. 1 còn giữ được như cũ, không mất mát, không biến đổi chút nào: Bảo vệ nguyên vẹn từng tấc đất thiêng liêng của tổ quốc. Tình cảm đã không còn nguyên vẹn như xưa. synset: {nguyên, nguyên vẹn, toàn vẹn, vẹn toàn, vẹn nguyên}

toàn vẹn t. 1 còn giữ được như cũ, không mất mát, không biến đổi chút nào: Không có thành luỹ vững chắc thì lấy gì để bảo vệ toàn vẹn lãnh thổ? Tổ vỡ thì trứng còn toàn vẹn làm sao được. synset: {nguyên vẹn, toàn vẹn, vẹn toàn, vẹn nguyên}

Tuy đồng nghĩa với nguyên, nguyên vẹn, toàn vẹn nhưng do vẹn chỉ dùng trong văn chương, và toàn là từ cũ nên chúng khó có thể thay thế được cho nguyên, nguyên vẹn, toàn vẹn trong ngữ cảnh mà những từ này xuất hiện, trong khi nguyên, nguyên vẹn, toàn vẹn (có phong cách trung tính) lại có thể thay thế được cho vẹn toàn trong ngữ cảnh mà hai từ này xuất hiện.

Chúng ta cũng áp dụng quy tắc 3 này để xác định nguyên vẹn, vẹn nguyên nguyên lành có quan hệ đồng nghĩa với nhau. Giả định ta xác định được các từ ghép NGUYÊN vẹn, vẹn NGUYÊN, NGUYÊN lành. Trong đó có:

(a) NGUYÊNvẹn, NGUYÊNlành [lànhvẹn cùng có chung nét nghĩa như nguyên “ở trạng thái vẫn như cũ, không bị hư hại gì”]; và

(b) lành vẹn; nên

NGUYÊN vẹn vẹn NGUYÊN NGUYÊN lành

nguyên có một nghĩa tương ứng với nghĩa của nguyên vẹn, nguyên lành.

nguyên, nguyên vẹn, nguyên lành, vẹn nguyên làm thành 1 synset.

nguyênt. 2 ở trạng thái vẫn như cũ, không bị hư hại gì: Đồ đạc trong nhà vẫn còn nguyên. synset: {nguyên, nguyên vẹn, nguyên lành, vẹn nguyên}

nguyên vẹnt. 2 ở trạng thái vẫn như cũ, không bị hư hại gì: Đồ đạc trong nhà vẫn còn nguyên vẹn. synset: {nguyên, nguyên vẹn, nguyên lành, vẹn nguyên}

nguyên lànht. ở trạng thái vẫn như cũ, không bị hư hại gì: Đồ đạc trong nhà vẫn còn nguyên lành. synset: {nguyên, nguyên vẹn, nguyên lành, vẹn nguyên}
 

4. Kết luận

Tóm lại, việc phân tích nghĩa từ ra thành các nét nghĩa sẽ giúp xác định được chính xác dãy từ đồng nghĩa trong tiếng Việt. Công việc này tuy khó khăn và phức tạp, nhưng nếu làm tốt thì sẽ đem lại hiệu quả cao khi xây dựng WordNet tiếng Việt. Bởi vì, WordNet được tổ chức xung quanh ý nghĩa biểu thị chung cho dãy đồng nghĩa (synset) với các mối quan hệ ngữ nghĩa giữa các từ trong cùng một synset và giữa các từ trong synset này với các từ trong synset khác. Chẳng hạn {motor vehicle; automotive vehicle} (xe chạy bằng động cơ) có liên quan đến {vehicle} (phương tiện giao thông, xe cộ); và {car door} (cửa xe) có liên quan đến các bộ phận khác như: {hinge; flexible joint} (bản lề; gioăng đệm), {armrest} (tay ghế, tay đỡ, tay vịn), {doorlock} (khoá cửa). Thông qua các quan hện gữ nghĩa/khái niệm khác nhau, toàn bộ ý nghĩa của từ trong một ngôn ngữ có thể được kết nối với nhau, tạo thành một mạng lưới đồ sộ, đến mức WordNet [Vossen Piek, 2002].

Một WordNet (thí dụ: Euro WordNet, Asian WordNet, Vietnamese WordNet, Global WordNet) có thể được sử dụng để tạo ra các suy luận ngữ nghĩa, chẳng hạn những thứ có thể được sử dụng giống như xe (vehicle); hoặc để tìm kiếm các từ thay thế, chẳng hạn những từ có thể thay thế được cho xe; hoặc để xây dựng một kho ngữ liệu ngữ nghĩa (semantic corpus), trong đó ngữ liệu được miêu tả thông qua một chương trình gắn nhãn ngữ nghĩa (semantic tagging program); hoặc chỉ đơn giản là mở rộng khả năng tìm kiếm các từ để cho ra những tập hợp gồm những từ có liên quan về nghĩa hay những từ gần nghĩa, phục vụ trong việc khôi phục thông tin, v.v.; và còn nhiều ứng dụng thiết thực khác nữa.

Áp dụng phương pháp phân tích nghĩa từ ra thành các nét nghĩa để biên soạn một cuốn từ điển đồng nghĩa tiếng Việt theo kiểu WordNet là hoàn toàn khả thi. Việc phân tích như vậy đòi hỏi phải xây dựng trước một cây ngữ nghĩa (semantic tree) chi tiết và nhất quán. Chúng ta cũng có thể dựa vào các mối quan hệ ngữ nghĩa đã được áp dụng khi xây dựng WordNet tiếng Anh để xây dựng cây ngữ nghĩa cho tiếng Việt. Đây là một việc làm hợp lí, vừa mang tính kế thừa và tính khoa học cao, vừa tránh được lãng phí.

 

TÀI LIỆU THAM KHẢO

[1] Christiane Fellbaum (1998), WordNet: An Electronic Lexical Database, The MIT Press. Cambridge, Massachusetts London, England.

[2] Đỗ Hữu Châu (1981), Từ vựng - ngữ nghĩa tiếng Việt, NXB Giáo dục, Hà Nội.

[3] Hoàng Phê (2003), Logic - ngôn ngữ học, NXB Đà Nẵng – Trung tâm Từ điển học, Đà Nẵng.

[4] Nguyễn Đức Tồn (2006), Từ đồng nghĩa tiếng Việt, NXB Khoa học Xã hội, Hà Nội.

[5] Nguyễn Ngọc Trâm (chủ biên) (1997), Một số vấn đề từ điển học, NXB Khoa học Xã hội, Hà Nội.

[6] Nguyễn Như Ý (chủ biên) (1996), Từ điển giải thích thuật ngữ ngôn ngữ học, NXB Giáo dục, Hà Nội.

[7] Nguyễn Thiện Giáp (1985), Từ vựng học tiếng Việt, NXB Đại học và THCN, Hà Nội.

[8] Nguyễn Văn Tu (1999), Từ điển từ đồng nghĩa tiếng Việt, NXB Giáo dục, Hà Nội.

[9] Oxford,The Oxford Thesaurus: An A-Z Dictionary of Synonyms, Internet.

[10] Princeton University (2003), WordNet 2.0, Babylon.

[11] Princeton University (2005), WordNet 2.1 Browser.

[12] Vossen Piek (2002), WordNet, Euro WordNet and Global WordNet // In: Revue Française de Linguistique Appliquee / RFLA, 2002/1 (Vol. VII), Paris, France.

Nguồn: Tạp chí Từ điển học & Bách khoa thư, số 3 (17)/2012.

 

 

Bài đăng trước:

  • Xác định ĐƠN VỊ TỪ VỰNG MỚI xuất hiện trong văn bản tiếng Việt
  • Ngôn ngữ học máy tính và việc xây dựng từ điển
  • Về xử lý tiếng Việt trong công nghệ thông tin
  • Automated Extraction of Tree Adjoining Grammars from a Treebank for Vietnamese
  • Building a Large Syntactically-Annotated Corpus of Vietnamese