Những vấn đề chung về ngôn ngữ học, từ điển học, kho ngữ liệu...
Đặc điểm của thuật ngữ tiếng Việt
Hơn nửa thế kỉ qua, kể từ sau Cách mạng Tháng Tám năm 1945, tiếng Việt đã có một vị thế quan trọng trong xã hội Việt Nam và trên trường quốc tế. Tiếng Việt giữ địa vị chính thống, được sử dụng làm ngôn ngữ chung trong mọi hoạt động của các dân tộc trên lãnh thổ Việt Nam. Sự nghiệp công nghiệp hoá, hiện đại hoá đất nước, đặc biệt là sự phát triển mạnh mẽ của sản xuất và khoa học kĩ thuật - công nghệ, đòi hỏi tiếng Việt cũng phải phát triển nhanh chóng, trước hết là trong lĩnh vực thuật ngữ khoa học. Trong lịch sử hiện đại nước ta đã từng có bốn lần tiếng Việt đứng trước yêu cầu phát triển nhanh chóng để thích hợp với sự chuyển mình của xã hội như vậy. Lần thứ nhất là đầu thế kỉ XX. Trước sự phát triển nhanh chóng về công nghiệp, giao thông, kinh tế, pháp luật… phục vụ chính sách khai thác thuộc địa của thực dân Pháp, sự phát ...
Chi tiết
 
Lexical descriptions for Vietnamese language processing
Abstract

Only very recently have Vietnamese researchers begun to be involved in the domain of Natural Language Processing. As there does not exist any published work in formal linguistics or any recognizable standard for Vietnamese word categories, the fundamental works in Vietnamese text analysis such as part-of-speech tagging, parsing, etc. are very difficult tasks for computer scientists. All necessary linguistic resources have to be built from scratch, and until now almost no resources are shared in public research. The aim of our project is to build a common linguistic database that is freely and easily exploitable for the automatic processing of Vietnamese. In this paper, we propose an extensible set of Vietnamese syntactic descriptions that can be used for tagset definition and corpus annotation. These descriptors are established in such a way to be a reference set proposal for Vietnamese in the context of ISO subcommittee TC37/SC4 (Language Resource Management)1.

1 Introduction

Over the last 20 years, the field of Natural Language Processing (NLP) has seen numerous achievements in domains as diverse as part-of-speech (POS) tagging, topic detection, or information retrieval. However, most ...
Chi tiết
 
Developing Tools and Building Linguistic Resources for Vietnamese Morpho-Syntactic Processing

Abstract


Vietnamese is spoken by about 80 millions people around the world, yet very few concrete works on this language have been noticed in Natural Language Processing (NLP) until now. The fundamental problems in automatic analysis of Viet-namese, such as part-of-speech (POS) tagging, parsing, etc. are extremely difficult due to the lack of formal linguistic knowledge on one hand, and the specificities of isolating languages on the other hand. In this paper we present our efforts to develop a set of tools permitting the construction and management of language resources for Vietnamese in a normal-ized framework, whose aim is to be largely distributed and usable for research purposes in NLP. We first define a tagset by constructing Vietnamese morpho-syntactic descriptors that fit in a model compatible with MULTEXT1, so as to account for possible multilingual applications as well as the reusability of defined tagsets. We then implement a system undertaking the tasks of word segmentation and POS tagging. Our system ensures a representation format of lin-guistic resources that is currently considered in the framework of ISO TC37 SC42. Finally we ...
Chi tiết