Xử lí ngôn ngữ

Hướng tới việc xây dựng MẠNG TỪ tiếng Việt

Sáng ngày 19-3-2014, tại Viện Hàn lâm Khoa học Xã hội Việt Nam (Số 1, Liễu Giai, Hà Nội) đã diễn ra Hội thảo khoa học với chủ đề “Hướng tới việc xây dựng Mạng từ tiếng Việt, thuộc Đề tài Khoa học Công nghệ cấp Nhà nước: “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” do Công ty Cổ phần dịch vụ CNTT NaisCorp tổ chức. Hội thảo đã thu hút được đông đảo các chuyên gia hàng đầu về ngôn ngữ học và tin học từ các viện nghiên cứu và các trường đại học tới dự, như: Viện Ngôn ngữ học, Viện Từ điển học và Bách khoa thư, Viện Công nghệ Thông tin, Trường Đại học Công nghệ, Trường Đại học Khoa học Tự nhiên, Trường Đại học Bách khoa, Học viện Kĩ thuật quân sự, Trung tâm Từ điển học, v.v. Vietlex xin đăng Lời giới thiệu của TS Nguyễn Phương Thái (chủ nhiệm Đề ...

Chi tiết
 
Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển
SUMMARY
There has been much articlemention the importance of the corpus for the development of corpus linguistics in the last ten years. However, the situation of Vietnam now, not much deeply articleon this issue. The authors noted that corpus is useful for language study, especially for compiling the dictionary. This article presented an overview about the concepts corpus and corpus linguistics, and also tries to present more deeply about how to build common corpus today.
 
TÓM TẮT
Đã có nhiều bài viết nói về tầm quan trọng của kho ngữ liệu (corpus) đối với sự phát triển của ngôn ngữ học ngữ liệu (corpus linguistics) trong khoảng 10 năm trở lại đây. Tuy nhiên, trong bối cảnh Việt Nam hiện nay, chưa có nhiều bài nghiên cứu đi sâu vào vấn đề này. Nhận thấy kho ngữ liệu ngày càng trở nên hữu ích cho nghiên cứu ngôn ngữ, đặc biệt là cho biên soạn từ điển, bài báo sẽ giới thiệu khái quát về khái niệm kho ngữ ...
     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt

Natural Language Processing Laboratory Department of Electrical Engineering
Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan

 

Abstract
Trong tiếng Việt, dấu cách (space) không được sử dụng như 1 kí hiệu phân tách từ, nó chỉ có ý nghĩa phân tách các âm tiết với nhau. Vì thế, để xử lý tiếng Việt, bài toán tách từ (word segmentation) là 1 trong những bài toán cơ bản và quan trọng bậc nhất. Ngoài tiếng Việt, có khá nhiều các ngôn ngữ châu Á khác cũng cần bước tách từ, ví dụ như: tiếng Nhật, tiếng Trung, tiếng Hàn,… do đó vấn đề này nhận được sự quan tâm rộng rãi và có nhiều hướng tiếp cận khác nhau. Bài viết này sẽ tập trung phân tích hướng tiếp cận pointwise dựa trên máy học SVM: phân loại từng dấu cách một cách độc lập vào 2 loại: SPACE (kí hiệu tách từ) và UNDERSCORE (kí hiệu liên kết 2 âm tiết). Với phương pháp này, chúng tôi đã đạt được độ chính xác 98.2% trong thực ...
     

Lưu Tuấn Anh, Yamamoto Kazuhide

Chi tiết
 
Xác định dãy từ đồng nghĩa khi xây dựng Wordnet tiếng Việt
SUMMARY
Determining the common meaning of a sequence of synonyms is a necessary thing to do when establishing WordNet for the languages all over the world. This writing does not go deep into explaining the synonym phenomenon, but points out steps for semantic analysis, which are hoped to establish operations for determining synonym sequence in a convenient way, thus helping set up WordNet in Vietnamese.
 

1. Đặt vấn đề

Con người sử dụng ngôn ngữ để thể hiện tư duy, tình cảm của mình trong quá trình trao đổi, tiếp xúc với nhau. Ngôn ngữ vốn là một hệ thống phức tạp, bao gồm các phương tiện biểu hiện, bằng cách này hay cách khác, ít nhiều có sự tương ứng với nhau, và trong quá trình phát triển chúng dần dần trở thành đồng nghĩa với nhau. Để có được sự phù hợp giữ hình thức và nội dung cần diễn đạt khi sử dụng ngôn ngữ, chúng ta cần phải nắm được vốn từ vựng cùng với các đặc điểm ý nghĩa cũng ...

     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
Xác định ĐƠN VỊ TỪ VỰNG MỚI xuất hiện trong văn bản tiếng Việt
SUMMARY
According to the author, to separate syllabic combinations from the text is a significant task in the course of finding new words and expressions. Vocabulary is an ever-changing part. Therefore, so as to deal with colossal data to define new vocabulary entries, information technology needs to be employed under proper methods and procedures, including: (1) divising phrases into syllabic combinations, and (2) applying algorithms for finding new words, etc.

 

1. Đặt vấn đề

Từ vựng là một trong ba bộ phận cơ bản cấu thành một ngôn ngữ: từ vựng, ngữ âmngữ pháp. Dựa vào vốn từ vựng, chúng ta có thể hình dung ra được diện mạo của một ngôn ngữ cụ thể. Từ vựng là toàn bộ các từcụm từ (tức ngữ cố định) có sẵn của một ngôn ngữ, tồn tại dưới dạng tiềm tàng, chúng trực tiếp gọi tên các sự vật, hiện tượng của thực tế khách quan, được giác quan của con người nhận biết thông qua ngữ âm và được hiện thực hoá trong ...

     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
1 2 3 4