Xử lí ngôn ngữ

Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển
     

VŨ XUÂN LƯƠNG – Vietlex

SUMMARY
There has been much articlemention the importance of the corpus for the development of corpus linguistics in the last ten years. However, the situation of Vietnam now, not much deeply articleon this issue. The authors noted that corpus is useful for language study, especially for compiling the dictionary. This article presented an overview about the concepts corpus and corpus linguistics, and also tries to present more deeply about how to build common corpus today.
 
TÓM TẮT
Đã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu (corpus) đối với sự phát triển của ngôn ngữ học ngữ liệu (corpus linguistics) trong khoảng 10 năm trở lại đây. Tuy nhiên, trong bối cảnh Việt Nam hiện nay, chưa có nhiều bài nghiên cứu đi sâu vào vấn đề này. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu ngôn ngữ, đặc biệt là cho biên soạn từ điển, bài báo sẽ giới thiệu khái quát về khái niệm kho ngữ liệungôn ngữ học ngữ liệu, đồng thời cũng cố gắng trình bày sâu hơn về cách thức xây dựng kho ngữ liệu phổ biến hiện nay.

I. Giới thiệu

1. Kho ngữ liệu

1.1. Trên thế giới, việc xây dựng ngân hàng dữ liệu (chứa hình ảnh, âm thanh, tiếng nói, văn bản, số liệu, bảng biểu, lược đồ, v.v.) đã có từ lâu, và được gọi chung là databank hoặc database (cơ sở dữ liệu). Với dữ liệuchất liệu ngôn ngữ thì thường được tổ chức thành một loại riêng, gọi là corpus (kho ngữ liệu, kho văn bản). Một tập hợp gồm nhiều corpus gọi là corpora (số nhiều của corpus). Nổi tiếng nhất phải kể đến là Kho ngữ liệu quốc tế Anh quốc (ICE: International Corpus of English), Kho ngữ liệu quốc gia Anh quốc (BNC: British National Corpus), Kho ngữ liệu quốc gia Hoa Kì (ANC: American National Corpus), v.v... và gần đây là Sketch Engine với một corpora đồ sộ gồm hơn 130 corpus (tính đến tháng 7 năm 2012), trong đó có Kho ngữ liệu BNC, và đặc biệt là Kho ngữ liệu tiếng Việt (VietnameseWaC).

Theo Wikipedia, một kho ngữ liệu (corpus hoặc text corpus) được hiểu là một tập hợp đủ lớn các văn bản có cấu trúc đã qua chế biến, và thường được lưu trữ ở dạng điện tử. Người ta sử dụng kho ngữ liệu để phục vụ cho việc phân tích thống kê, xác định tính đúng đắn của một giả thuyết, kiểm tra sự cố hoặc tính hợp lệ của các quy tắc ngôn ngữ trong một bối cảnh đặc thù.

Một kho ngữ liệu có thể chứa văn bản bằng một thứ tiếng đơn lẻ – gọi là kho ngữ liệu đơn ngữ (monolingual corpus), hoặc văn bản bằng nhiều thứ tiếng – gọi là kho ngữ liệu đa ngữ (multilingual corpus). Các kho ngữ liệu đa ngữ được định dạng đặc thù để có thể so sánh cạnh nhau (side-by-side) được gọi là kho ngữ liệu song song có gióng hàng (aligned parallel corpora). Sự gióng hàng có thể ở các mức như: các từ được gióng hàng từng đôi một (từ của ngôn ngữ A là từ dịch của ngôn ngữ B); các ngữ trong được gióng hàng từng đôi một (ngữ của ngôn ngữ A là ngữ dịch của ngôn ngữ B); các câu được gióng hàng từng đôi một (câu của ngôn ngữ A là câu dịch của ngôn ngữ B), v.v.

Để kho ngữ liệu trở nên hữu ích cho việc nghiên cứu ngôn ngữ, đặc biệt là trong việc biên soạn từ điển, các văn bản thường được làm giàu thêm bằng việc chú giải (annotation) các thông tin tri thức. Chẳng hạn, các từ trong cụm từ sẽ được chú giải thông tin về từ loại – gọi là gắn nhãn từ loại (part-of-speech tagging, viết tắt: POS-tagging). Các cụm từ trong câu sẽ được phân tách và gắn nhãn – gọi là phân đoạn cụm từ (chunking). Với các ngôn ngữ đơn lập như tiếng Việt, do ranh giới của từ không được xác định rõ ràng bằng hình thức, nên ngữ liệu thường phải trải qua quá trình xác định đơn vị từ và gắn nhãn khu biệt – gọi là phân đoạn từ (word segmentation), v.v.

Một số kho ngữ liệu có cấp độ cấu trúc sâu hơn để cho sự phân tích được hiệu lực. Đặc biệt, kho ngữ liệu có thể được phân tích ngữ pháp và gắn nhãn cú pháp đầy đủ. Kho ngữ liệu như vậy được gọi là Treebank, nó thường có dung lượng nhỏ (chứa khoảng 1 đến 3 triệu từ), do công việc phân tích ngữ pháp và gắn nhãn cú pháp chủ yếu làm bằng tay, đòi hỏi độ chính xác cao nên mất rất nhiều công sức cũng như kinh phí. Các cấp độ khác của ngôn ngữ được chú giải có thể bao gồm cả hình thái, ngữ nghĩa và ngữ dụng.

1.2. Corpora là cơ sở tri thức chính trong ngôn ngữ học ngữ liệu. Cách thức phân tích và chế biến các loại khác nhau của corpora cũng là chủ đề cho nhiều công việc đặt ra trong ngôn ngữ học máy tính (computational linguistics), nhận dạng tiếng nói (speech recognition) và dịch máy (machine translation). Người ta thường sử dụng corpora để tạo ra mô hình Markov ẩn (hidden Markov model) phục vụ cho việc gắn nhãn từ loại và các mục đích khác. Corpora cung cấp danh sách tần số xuất hiện của từ, và có thể tạo ra từ điển phân bố từ (distributional thesaurus), so sánh hai từ giống nhau và đưa ra danh sách những thành phần kết hợp với chúng, v.v. Đây là nguồn tư liệu rất hữu ích cho việc nghiên cứu và giảng dạy ngôn ngữ. Corpora (đơn ngữ hoặc đa ngữ) có thể được coi là một loại công cụ hỗ trợ cho việc học ngoại ngữ, cung cấp kiến thức ngữ pháp cho người học thông qua tiếp xúc với văn bản xác thực, cho phép người học nắm được cách thức tạo lập câu trong ngôn ngữ đích (target language) để tạo thành văn bản khả dụng.

2. Ngôn ngữ học ngữ liệu

2.1. Ngôn ngữ học ngữ liệu (corpus linguistics) là một nhánh của ngành ngôn ngữ học liên quan tới kĩ thuật xử lí ngữ liệu có dùng máy tính, áp dụng để giải quyết những vấn đề được mô tả với quy mô rộng lớn [R. R. K Hartmann and Gregory James 1998; tr. 31].

Ngôn ngữ học ngữ liệu giờ đây được coi là nghiên cứu các hiện tượng ngôn ngữ thông qua các bộ sưu tập rộng lớn gồm các văn bản máy đọc được (machine-readable), gọi là corpora. Corpora được sử dụng trong một số lĩnh vực nghiên cứu, từ nghiên cứu mô tả cú pháp của ngôn ngữ đến thi pháp hoặc học tiếng... [essex.ac.uk].

Việc sử dụng các thí dụ thực tế của văn bản trong nghiên cứu ngôn ngữ không phải là một vấn đề mới. Tuy nhiên, do được cung cấp những khả năng to lớn trong việc xử lí ngôn ngữ tự nhiên với máy tính nên ngôn ngữ học ngữ liệu đã phát triển đáng kể trong những thập kỉ gần đây. Tính sẵn sàng của các văn bản máy đọc được cho phép máy tính thâm nhập nguồn ngữ liệu một cách nhanh chóng, và cũng dễ dàng trình bày ngữ liệu trong một định dạng thích hợp để phân tích.

2.2. Ngôn ngữ học ngữ liệu hẳn nhiên không phải chỉ là việc đi tìm kiếm và thu thập ngữ liệu thông qua việc sử dụng máy tính. Nhiệm vụ chính của ngôn ngữ học ngữ liệu là nghiên cứu và phân tích nguồn tài nguyên có được từ các corpus. Máy tính là công cụ hữu ích, và đôi khi không thể thiếu, được sử dụng trong quá trình này. Như vậy, ngôn ngữ học ngữ liệu có thể được hiểu là khoa học nghiên cứu về “thế giới thực” văn bản, thể hiện trong corpora. Corpora được sử dụng trong các nội dung sau [theo Tomaž Erjavec]:

○ Nghiên cứu ngôn ngữ thực tế: mô tả cách tiếp cận, nghiên cứu về hiệu suất sử dụng ngôn ngữ, thực nghiệm ngôn ngữ.

○ Ngôn ngữ học ứng dụng:

Từ điển học: từ điển đơn ngữ, từ điển thuật ngữ, từ điển song ngữ;

Nghiên cứu ngôn ngữ: xác minh giả thuyết, khám phá tri thức (từ vựng, hình thái học, cú pháp,...);

Nghiên cứu dịch: các tương đương dịch của cùng một nguồn và ngữ cảnh của chúng, các bộ nhớ dịch, các bản dịch được máy hỗ trợ;

Học tiếng: thí dụ thực tế, “giảng dạy bằng thành ngữ”, phát triển chương trình giảng dạy;

○ Công nghệ ngôn ngữ:

Bộ thử nghiệm cho các phương pháp được phát triển;

Bộ huấn luyện cho học quy nạp;

– Xử lí ngôn ngữ tự nhiên bằng thống kê.

II. Cách thức xây dựng kho ngữ liệu

1. Dự án ICE [1]

1.1. Vào cuối những năm 1980, khi Sidney Greenbaum có ý tưởng tạo ra một Kho ngữ liệu quốc tế Anh quốc (ICE) thì ông cũng đã hình dung ra đội ngũ quốc tế nhữngnhà nghiên cứu thu thập và điện toán hoá (computerizing) những kiểu loại văn bản thuộc dạng nói và dạng viết, đại diện cho các biến thể tiếng Anh bản địa tồn tại trên khắp thế giới, như Anh-Anh, Anh-Mĩ và Anh-Ấn. Một corpora của những biến thể như vậy đã được tạo ra, ngữ liệu được gắn nhãn và phân tích cú pháp một cách chi tiết. Một corpora tổng hợp sẽ cho phép không chỉ để so sánh các biến thể khác nhau của tiếng Anh quốc tế phát triển trên khắp thế giới, mà còn để sự phân tích ngôn ngữ có tác dụng thực tế dựa trên một nguồn ngữ liệu có độ dài lớn và hết sức rộng rãi được tạo ra từcác bài phát biểu và các bài viết.

Thật không may, Sidney khôngcòn sống để nhìn thấy sự thành công của ICE, nhưngước mơ của ôngv ề việc tạo ra các kho ngữ liệu được số hoá của các biến thể tiếng Anh bản địa đã được các thành viên của dự án ICE ở các quốc gia hoặc khu vực biến thành hiện thực. Các quốc gia hoặc khu vực bao gồm: Australia, Ireland (North and South), Canada Malaysia, Caribbean (Jamaica), New Zealand, East Africa (Kenya, Tanzania), Philippines, Fiji, Singapore, Great Britain (England, Scotland, Wales), South Africa, Hong Kong, Sri Lanka, India, USA.

Những cuộc tranh luận lớn nổ ra giữa các nhóm nghiên cứu về việc quyết định xem loại văn bản nào của tiếng Anh sẽ là đại diện cho kho ngữ liệu và mỗi loại văn bản sẽ có số lượng là bao nhiêu trong kho ngữ liệu? Cuối cùng, họ đã quyết định là kho ngữ liệu sẽ tập hợp 500 văn bản, trong đó có 300 văn bản nói và 200 văn bản viết, mỗi một văn bản chứa khoảng 2000 từ. Với văn bản nói thì phải đọc từng văn bản và ghi lại thành dạng văn bản viết, những chỗ ngừng nghỉ hoặc có tính chất đưa đẩy trong khi nói cũng được đánh dấu rõ ràng. Trong hai loại văn bản này, lại được tổ chức trong một cấu trúc tầng bậc. Chúng được trình bày như bảng dưới đây (tạm dịch nguyên văn):

Khung thiết kế kho ngữ liệu ICE

Hiện nay, có hai mươi nhóm nghiên cứu trên khắp thế giới đang chuẩn bị kho ngữ liệu điện tử tiếng Anh của nhiều quốc gia hoặc khu vực. Mỗi kho ngữ liệu ICE bao gồm một triệu từ thuộc văn bản nói và viết tiếng Anh xuất hiện sau năm 1989. Đối với hầu hết các nước tham gia, dự án ICE sẽ khuyến khích việc nghiên cứu trước tiên mang tính hệ thống đa quốc gia. Để đảm bảo tính tương thích giữa các thành phần của kho ngữ liệu, mỗi nhóm nghiên cứu đều tuân thủ một một khung thiết kế tổng quát cho kho ngữ liệu, cũng như một sơ đồ chung cho các chú thích ngữ pháp.

1.2. ICE của Vương quốc Liên hiệp Anh và Bắc Ireland (ICE-Great Britain – viết tắt là ICE-GB) là bộ phận quốc gia đầu tiên của dự án ICE đã được phát hành. Giống như tất cả các kho ngữ liệu ICE khác, ICE-GB thu thập một triệu từ thuộc 200 văn bản viết và 300 văn bản nói, có tuân thủ khung thiết kế tổng quát áp dụng cho kho ngữ liệu. Mỗi văn bản đều được chú giải ngữ pháp, cho phép nghiên cứu phức hợp và chi tiết trên toàn kho ngữ liệu. Tất cả các văn bản đều có chứa tiêu đề tập tin, cung cấp thông tin mô tả chung, đóng vai trò là một đoạn có tính nhận dạng. Văn bản được chia thành các đoạn, các câu, đánh dấu các điểm giống nhau về cấu trúc cú pháp của văn bản viết, hoặc các trường hợp khác nhau của văn nói để liên kết trong khi nói.

Trong ICE-GB cũng có một vài dạng phân tích cấu trúc và phân tích những điểm đặc biệt trong khi nói và khi viết. Ở văn bản nói, có các cấu trúc riêng khi nói như yếu tố bao trùm lên nhau (siêu đoạn), và vì thế các điểm ngắt nghỉ trong chuỗi lời nói đã được chỉ ra. Ở văn bản viết có đánh dấu các cấu trúc của các đoạn và chỉ ra sự thay đổi của các đoạn. Đối với các đoạn văn, một cây phân tích từ loại và ngữ pháp đã được tạo lập, cung cấp những dấu hiệu nhận diện lời nói, nhận diện các từ khác nhau trong cây phân tích, các ngữ đặc biệt và các mệnh đề, chức năng mà các từ đảm nhận trong câu như tân ngữ, bổ ngữ, v.v. Trong ICE-GB, có 2000 mẫu áp dụng cho việc phân tích ngữ pháp. Một tập nhãn (tagset) bao gồm 20 lớp từ chính và một bộ phân tích ngữ pháp với hơn 90 chức năng cùng các nhãn kí hiệu tương ứng đã được sử dụng để gắn nhãn cho từ ngữ. Hiện nay, ICE-GB chứa khoảng 83.394 cây phân tích ngữ pháp, trong đó có 59.640 thuộc ngữ liệu tiếng nói.

Vì dự án ICE được đề xuất từ cuối những năm 80 của thế kỉ 20 nên cấu trúc phân tích mà nó sử dụng không phản ánh cũng như không cập nhật được những đề xuất theo tiêu chuẩn hiện nay của TEI (Text Encoding Initiative – một sáng kiến mã hoá văn bản). Tuy nhiên, do cấu trúc phân tích được sử dụng trong ICE-GB là cấu trúc của SGML (Standard Generalized Markup Language – ngôn ngữ đánh dấu tổng quát) nên có thể quay lại mã hoá theo TEI một cách dễ dàng.

1.3. Một kho ngữ liệu chỉ thật sự có giá trị khi nó đã trải qua khâu kiểm nghiệm. Để phân tích các văn bản có đánh dấu về thông tin từ loại và ngữ pháp trong ICE-GB, một chương trình phân tích văn bản đặc biệt có tên là ICECUP (International Corpus of English Corpus Utility Program) đã được phát triển. Chương trình này có thể thực hiện các nhiệm vụ như nối các ứng dụng đã được phân tích, tra từ khoá trong ngữ cảnh. ICECUP cũng có thể giúp thực hiện các cuộc khảo sát giới hạn có hiệu quả. Một người sử dụng đang muốn nghiên cứu về các khả năng kết hợp của từ chẳng hạn, thì không chỉ nghiên cứu riêng các kết hợp nhỏ mà còn nghiên cứu cả cây cấu trúc chứa các kết hợp. Thí dụ, có thể làm một cuộc tìm kiếm để lấy lại tất cả các minh hoạ về khả năng kết hợp của ngữ danh từ trong kho ngữ liệu. Một cơ chế tìm kiếm thêm sẽ cho phép tìm lại cả các phần không rõ ràng hay là phần bị sai của cây cấu trúc, v.v.

ICECUP III hiển thị cây phân tích ngữ pháp

ICECUP đã qua 4 phiên bản hoàn chỉnh từ khi mới bắt đầu. ICECUP 1 đã được Akiva Quinn viết để làm việc trên một kho ngữ liệu thô, không được gắn nhãn. Từ sự khởi đầu của lớp từ gắn nhãn trong ICE-GB, ICECUP 2 đã được Nick Porter phát triển nhằm cung cấp những điều kiện tìm kiếm dựa trên tập ngữ liệu đã gắn nhãn (Porter và Quinn, 1996). ICECUP 3 (III) là một chương trình mới do Sean Wallis (1998) thiết kế với mục đích đầu tiên cho việc khảo sát phần phân tích cú pháp. Và hiện nay là ICECUPIVβ (bản bêta).

2. Dự án Sketch Engine [2]

2.1. Sketch Engine (SkE) là một chương trình khai thác các kho ngữ liệu dựa trên nền tảng web, do tiến sĩ Adam Kilgarriff [3] phát minh năm 2003. Nguyên liệu đầu vào của SkE là nguồn ngữ liệu của bất kì một ngôn ngữ nào ở dạng đã được gắn nhãn ngôn ngữ học thích hợp. Hiện nay SkE có hơn 130 kho ngữ liệu, đại diện cho 42 ngôn ngữ trên thế giới, như Arabic, Bulgarian, Chinese, Croatian, Czech, Danish, Dutch, English, Estonian, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Latin, Latvian, Malay, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swedish, Thai, Vietnamese, v.v. Kho ngữ liệu tiếng Việt VietnameseWaC chứa tới 106.464.835 từ, được phân đoạn từ và gán nhãn từ loại một cách tự động [4].

SkE được thiết kế để cho bất cứ ai muốn nghiên cứu xem các từ hành chức như thế nào. Nó là một hệ thống truy vấn trực tiếp vào kho ngữ liệu để tập hợp thành lược đồ từ (word sketch) một cách tự động, dựa trên bộ quy tắc tóm tắt về hành vi ngữ pháp và khả năng tổ hợp của từ. Lược đồ từ do SkE tạo ra lần đầu tiên đượcsử dụng trong từ điển của Macmillan (Macmillan English Dictionary for Advanced Learners), bản năm 2002 và 2007.

SkE được sử dụng hàng ngày cho công tác từ điển học ở OxfordUniversity Press, Cambridge University Press, Collins, Macmillan, v.v. Nó cũng được sử dụng cho mục đích giảng dạy và nghiên cứu tại các trường đại học, các phòng nghiên cứu thực nghiệm trên toàn thế giới.

2.2. SkE có một số chức năng phân tích ngôn ngữ cốt lõi như sau:

2.2.1. Concordancer

Concordancer là một chương trình phân tích và hiển thị tất cả các lần xuất hiện của một chuỗi kí tự trong kho ngữ liệu cho một lần truy vấn nhất định. Chương trình này có khả năng xử lí rất mạnh mẽ với một loạt các kiểu và cách thức truy vấn khác nhau, giúp người dùng tìm hiểu sâu về cách sử dụng của từ trong ngữ cảnh. Khi một từ được truy vấn, ngữ cảnh của từ sẽ được trình bày như hình dưới đây (sử dụng kho ngữ liệu VietnameseWaC):

Từ “đối chứng” là từ chính cần tìm, được trình bày ở giữa hàng, hai bên là các từ hoặc tổ hợp từ thể hiện ý nghĩa của “đối chứng”, tất cả tập hợp đó gọi là ngữ cảnh (context). Khi click vào từ “đối chứng” thì một khung hiển thị ngữ cảnh chi tiết được mở ra để tiện quan sát. Cách thể hiện đó được gọi là trình bày dưới dạng KWIC (Key Word In Context). Việc trình bày các KWIC theo một trật tự sắp xếp nào đó (sort) gọi là Concordance.

Các kiểu truy vấn (Query Type):

– Character: sử dụng để tìm các từ có chứa khuôn vần hoặc kí tự bất kì. Chẳng hạn tìm tr sẽ cho kết quả: bi tráng, chiến trường, hoành tráng, phát triển, thăng trầm, thành trì, trá hàng, trải, trăng, trận, trên, trời đất, trong, trông, trung tâm, trưng bày, trước, trước mắt... [tần số xuất hiện = 4440150]; tìm ăn sẽ cho kết quả: ăn, bản năng, căn, căn bản, căn cơ, căn cứ, căng thẳng, chạy ăn, chăn, chăng, chức năng, công ăn việc làm, khả năng, năng lực, tăng cường, thăng trầm, thơ văn, trăng, văn thơ, văn võ, Võ Văn Kiệt... [tần số xuất hiện = 881923].

– Simple: sử dụng để tìm bất cứ từ nào không đòi hỏi ràng buộc, không phân biệt chữ hoa và chữ thường. Chẳng hạn tìm từ ăn cho kết quả 60183 lần xuất hiện trong corpus, trong đó ăn xuất hiện 57718 lần, Ăn xuất hiện 2449 lần, ĂN xuất hiện 16 lần.

– Word Form: sử dụng để tìm từ theo từ loại, có phân biệt chữ hoa và chữ thường. Chẳng hạn tìm từ cày sẽ cho kết quả xuất hiện 1974 lần, trong đó cày là danh từ xuất hiện 31 lần, cày là động từ xuất hiện 1941 lần, cày là tính từ (chắc do gắn nhãn tự động sai ?) xuất hiện 1 lần, cày là từ viết tắt (chắc do gắn nhãn tự động sai ?) xuất hiện 1 lần. Nếu ngữ liệu được phân đoạn từ và gắn nhãn từ loại chính xác thì chức năng này rất hữu ích cho công tác biên soạn từ điển.

– Ngoài ra còn có các kiểu truy vấn Lemma (hình thái cơ bản của một từ, như dạng số ít của danh từ hoặc dạng nguyên mẫu của động từ, nó thường được biểu thị ởngay đầu của một mục từ từ điển), Phrase (ngữ, tổ hợp từ), CQL (Corpus Querying Language).

2.2.2. Word Sketch

Chương trình này cung cấp một bảng tóm tắt căn cứ ngữ liệu dựa trên hành vi ngữ pháp và quan hệ kết hợp của một từ. Thí dụ, truy vấn từ bắt ta có kết quả như bảng sau:

Từ bảng trên ta thấy:

bắt có tần số xuất hiện 35663 lần (freq = 35663).

bắt đóng vai trò vị ngữ (predicate) = 18645 trường hợp, kết hợp sau bắt là: giam (bắt giam = 2004 trường hợp), kịp (bắt kịp = 526 trường hợp), tạm (bắt tạm giam = 354 trường hợp), quả tang (bắt quả tang = 233 trường hợp), v.v.

bắt đóng vai trò là tham tố của một động từ hoặc tổ hợp động từ khác (verb argument) = 14961 trường hợp, kết hợp trước bắt là: bị (bị bắt = 8968 trường hợp), lùng (lùng bắt = 251 trường hợp), đuổi (đuổi bắt = 295 trường hợp), ra lệnh (ra lệnh bắt = 154 trường hợp), v.v.

bắt kết hợp sau các từ hoặc ngữ chỉ mức độ (modifies) = 4060 trường hợp, kết hợp trước bắt là: cứ (cứ bắt = 116 trường hợp), Không thể (Không thể bắt = 13 trường hợp), liền (liền bắt = 31 trường hợp), không thể nào (không thể nào bắt = 18 trường hợp), v.v.

2.2.3. Thesaurus

Chương trình này kiểm tra những từ xuất hiện có cùng các yếu tố khả kết (collocate) giống như những từ khác, và sẽ tạo ra một từ điển về khả năng phân bố của từ (distributional thesaurus). Từ điển phân bố này có thể hiểu là một loại từ điển đồng nghĩa về khả năng tổ hợp từ. Nó được tạo ra một cách tự động,dựa trên năng lực tìm kiếm những từ có cùng xu hướng xuất hiện trongngữ cảnh tương tự như từ được truy vấn. Từ điển này không phải là từ điển của các từ đồng nghĩa (synonym). Thí dụ, khi truy vấn từ đàn bà, ta được bảng kết quả sau:

Bảng kết quả chỉ ra rằng, đàn bà có khả năng kết hợp tương tự như phụ nữ, đàn ông, con gái... Khi click vào đàn ông ta lại thu được bảng kết quả sau:

Bảng kết quả này chỉ ra rằng, đàn bà đàn ông tương tự nhau về khả năng kết hợp:

đàn bà/đàn ông kết hợp sau các từ chỉ mức độ: nhiều đàn bà (tần số = 23), nhiều đàn ông (tần số = 80); giống đàn bà (tần số = 5), giống đàn ông (tần số = 9); hơn đàn bà (tần số = 8), hơn đàn ông (tần số = 12); gần đàn bà (tần số = 14), gần đàn ông (tần số = 4)..

đàn bà/đàn ông kết hợp sau các động từ khác (đóng vai trò là tham tố bổ sung nghĩa): yêu đàn bà (tần số = 5), yêu đàn ông (tần số = 11); làm đàn bà (tần số = 21), làm đàn ông (tần số = 38); là đàn bà (tần số = 200), là đàn ông (tần số = 302); thích đàn bà (tần số = 12), thích đàn ông (tần số = 18), v.v.

đàn bà/đàn ông kết hợp trước các động từ khác: đàn bà thích (tần số = 8: thích tiền, thích của lạ, thích đồ ngọt...); đàn ông thích (tần số = 41: thích gái đẹp, thích đàn bà nồng nhiệt, thích sống độc thân...), v.v.

○ Ngoài ra, chương trình cũng tạo ra bảng các từ và tổ hợp từ chỉ kết hợp với đàn bà và bảng các từ và tổ hợp từ chỉ kết hợp với đàn ông:

hãm hiếp đàn bà (tần số = 27), hiếp đàn bà (tần số = 6), chút phận đàn bà (tần số = 7), dụ dỗ đàn bà (tần số = 7), đàn bà vô sinh (tần số = 6), đàn bà goá (tần số = 5), đàn bà chửa (tần số = 5), v.v.

cạch đàn ông (tần số = 9), Gã đàn ông (tần số = 8), dương vật đàn ông (tần số = 4), trả thù đàn ông (tần số = 4), đàn ông đích thực (tần số = 9), đàn ông lực lưỡng (tần số = 8), đàn ông chân chính (tần số = 7), v.v.

Các bảng kết quả được tạo ra có độ tin cậy cao hay thấp là hoàn toàn phụ thuộc vào dung lượng và chủng loại văn bản có mặt trong kho ngữ liệu. Nếu ngữ liệu được tổ chức hợp lí, công cụ phân đoạn từ và gắn nhãn từ loại đạt độ chính xác cao thì đây sẽ là một nguồn tài nguyên hữu ích cho việc nghiên cứu và giảng dạy ngôn ngữ nói chung, cũng như biên soạn các loại từ điển ngôn ngữ nói riêng.

4. Kết luận

Chúng ta dường như đang chứng kiến một sự thay đổi to lớn trong cách tiếp cận nghiên cứu của các nhà ngôn ngữ học hiện đại. Đó là việc họ đã tìm thấy và sử dụng kho ngữ liệu như là nguồn tài nguyên chính để đi sâu vào khám phá, tìm cảm hứng cho những giải đáp về các vấn đề hóc búa của ngôn ngữ học.

Ngôn ngữ học ngữ liệu là một trong những phương pháp luận phát triển nhanh nhất trong ngôn ngữ học hiện đại. Việc sử dụng năng lực tính toán của máy tính đã cung cấp cho các nhà ngôn ngữ học nói chung, các nhà từ điển học nói riêng, những công cụ mạnh mẽ trong việc lưu trữ, xử lí và biểu diễn ngữ liệu. Qua đó có thể mô tả được tất cả các khía cạnh của ngôn ngữtự nhiên, đặc biệt là từ vựng, giúp cho việc nghiên cứu sâu sắc hơn, và việc trình bày kết quả trong từ điển chính xác hơn.

TÀI LIỆU THAM KHẢO

[1] Adam Kilgarriff. The Sketch Engine. Proc EURALEX (2004).

[2] Đinh Điền, Hồ Hải Thuỵ. Ngôn ngữ học máy tính và việc xây dựng từ điển. Tạp chí Từ điển học & Bách khoa thư, số 4 (2011).

[3] R. R. K Hartmann and Gregory James. Dictionary of Lexicography. Routledge, London and New York (1998).

[4] sketchengine.co.uk

[5] Stefan Th. Gries. What is Corpus Linguistics? Language and Linguistics Compass 3(2009).

[6] Tomaž Erjavec. Corpus Linguistics. nl.ijs.si/et/teach/jsi06-hlt.

[7] Tony McEnery and Andrew Wilson. Corpus Linguistics. lancs.ac.uk/fss/courses/ling/corpus.

[8] Wikipedia. The free encyclopedia. en.wikipedia.org.

[9] www.essex.ac.uk.

[10] www.ucl.ac.uk/english-usage/projects/ice-gb.
 


[1] Tham khảo phần mềm ICE-GB, Getting Started.

[2] Tham khảo phần mềm Sketch Engine.

[3] Lexicography MasterClass and ITRI, University of Brighton, U.K.

[4] VietnameseWaC sử dụng công cụ phân đoạn từ, gắn nhãn từ loại và bộ luật ngữ pháp tiếng Việt do TS Lê Hồng Phương (Khoa Toán - Cơ - Tin, ĐH Khoa học Tự nhiên, ĐHQG Hà Nội) phát triển.

Nguồn: Tạp chí Từ điển học & Bách khoa thư. Số 1 (21), 1-2013.

 

 

Bài đăng trước:

  • Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt
  • Xác định dãy từ đồng nghĩa khi xây dựng Wordnet tiếng Việt
  • Xác định ĐƠN VỊ TỪ VỰNG MỚI xuất hiện trong văn bản tiếng Việt
  • Ngôn ngữ học máy tính và việc xây dựng từ điển
  • Về xử lý tiếng Việt trong công nghệ thông tin