Xử lí ngôn ngữ

Xác định ĐƠN VỊ TỪ VỰNG MỚI xuất hiện trong văn bản tiếng Việt
SUMMARY
According to the author, to separate syllabic combinations from the text is a significant task in the course of finding new words and expressions. Vocabulary is an ever-changing part. Therefore, so as to deal with colossal data to define new vocabulary entries, information technology needs to be employed under proper methods and procedures, including: (1) divising phrases into syllabic combinations, and (2) applying algorithms for finding new words, etc.

 

1. Đặt vấn đề

Từ vựng là một trong ba bộ phận cơ bản cấu thành một ngôn ngữ: từ vựng, ngữ âmngữ pháp. Dựa vào vốn từ vựng, chúng ta có thể hình dung ra được diện mạo của một ngôn ngữ cụ thể. Từ vựng là toàn bộ các từcụm từ (tức ngữ cố định) có sẵn của một ngôn ngữ, tồn tại dưới dạng tiềm tàng, chúng trực tiếp gọi tên các sự vật, hiện tượng của thực tế khách quan, được giác quan của con người nhận biết thông qua ngữ âm và được hiện thực hoá trong ...

     

VŨ XUÂN LƯƠNG – Vietlex

Chi tiết
 
Ngôn ngữ học máy tính và việc xây dựng từ điển

SUMMARY
The great benefits from applying the research outcomes of Computational Linguistics to compiling dictionaries in the world today have ever been more and more confirmed. This achievement is resulted from the close coordination among informatists, linguists, lexicographers in building resources (databases, vocabularies, language labels, etc.) and tools (pre-treatment, morphologic analysis, language labels assignment, language statistics…) initially necessary for compiling dictionaries. The article also provides a viable roadmap, from building up resources , tools to developing and applying them to different specific jobs in making large-sized Vietnamese Dictionary and Vietnam Encyclopedia as well.

TÓM TẮT
Hiệu quả to lớn của việc áp dụng các kết quả nghiên cứu của ngành ngôn ngữ học máy tính (viết tắt: NNHMT, tiếng Anh là CL: Computational Linguistics) vào công tác biên soạn từ điển trên thế giới hiện nay ngày càng được khẳng định. Có được thành quả này là do có sự kết hợp chặt chẽ giữa các nhà tin học, các nhà ngôn ngữ học, các nhà từ điển học trong việc xây dựng ...

     

PGS. TS. ĐINH ĐIỀN - HỒ HẢI THUỴ

Chi tiết
 
Về xử lý tiếng Việt trong công nghệ thông tin

Tóm tắt: Bài viết này nhằm giới thiệu những khái niệm cơ bản và tình hình nghiên cứu về xử lý ngôn ngữ nói chung, cũng như những nội dung và khó khăn trong xử lý tiếng Việt (văn bản và tiếng nói). Bài viết này có thể được dùng như một tài liệu tham khảo cho các nhà quản lý khoa học và những người làm nghiên cứu khoa học – công nghệ không chuyên về lĩnh vực xử lý ngôn ngữ.

1. Mở đầu

Gần đây khi có dịp nói chuyện về xử lý ngôn ngữ (XLNN) và xử lý tiếng Việt (XLTV) trong công nghệ thông tin (CNTT) với một số nhà quản lý khoa học và công nghệ hoặc một số đồng nghiệp, chúng tôi thấy có sự khác nhau giữa nhiều người về cách hiểu một số khái niệm cũng như giữa những nhìn nhận về tình hình nghiên cứu-phát triển trong lĩnh vực này. Điều này cũng tự nhiên, tự nhiên như hầu hết chúng ta không thật rõ về bệnh tim, hay không ...

     

HỒ TÚ BẢOa,b, LƯƠNG CHI MAIa

Chi tiết
 
Automated Extraction of Tree Adjoining Grammars from a Treebank for Vietnamese

Abstract

In this paper, we present a system that automatically extracts lexicalized tree ad­joining grammars (LTAG) from treebanks. We first discuss in detail extraction al­gorithms and compare them to previous works. We then report the first LTAG ex­traction result for Vietnamese, using a re­cently released Vietnamese treebank. The implementation of an open source and lan­guage independent system for automatic extraction of LTAG grammars is also dis­cussed.

1. Introduction

Grammars in general and lexicalized tree adjoin­ing grammars in particular are one of the most important elements in the natural language process­ing (NLP). Since the development of hand-crafted grammars is a time consuming and labor inten­sive task, many studies on automatic and semi­ automatic grammar development have been car­ried outduring lastdecades.

After decades of research in NLP mostly con­centrated on English and other well-studied lan­guages, recent years have seen an increased in­terest in less common languages, notably because of their growing presence on the Internet. Viet­namese, which belongs to the top 20 most spoken languages, is one of those new focuses of inter­est. Obstacles remain, however, for NLP research in general and grammar development ...

     

Le Hong Phuong, Nguyen Thi Minh Huyen, Nguyen Phuong Thai, Azim Roussanaly

Download: vnLExtractor.pdf
Chi tiết
 
Building a Large Syntactically-Annotated Corpus of Vietnamese
Abstract
Treebank is an important resource for both research and application of natural language processing. For Vietnamese, we still lack such kind of corpora. This paper presents up-to-date results of a project for Vietnamese treebank construction. Since Vietnamese is an isolating language and has no word delimiter, there are many ambiguities in sentence analysis. We systematically applied a lot of linguistic techniques to handle such ambiguities.

Annotators are supported by automaticlabeling tools and a tree-editor tool. Raw texts are extracted from Tuoi Tre (Youth), an online Vietnamese daily newspaper. The current annotation agreement is around 90 percent.

1. Introduction

Treebanks are used for training syntactic parsers, part-of-speech taggers, and word segmenters. These systems then can be used for applications such as information extraction, machine translation, question answering, and text summarization. Treebanks are also useful for linguistic studies, for example the extraction of syntactic patterns or the investigation of linguistic phenomena. Recently, treebanks and other large corpora have become more important since the development of powerful machine learning methods. As mentioned above, Vietnamese is an isolating language. There ...

     

P. Thai Nguyen, X. Luong Vu, Th. M. Huyen Nguyen, V. Hiep Nguyen, H. Phuong Le

Chi tiết
 
1 2 3