Xử lí ngôn ngữ tự nhiên: các vấn đề về xử lí tiếng Việt, xu hướng mới, kĩ thuật hiện đại
Tìm hiểu mô hình từ điển dùng cho xử lí ngôn ngữ tự nhiên

1. Giới thiệu


Trong xử lí ngôn ngữ tự nhiên (Natural Language Processing), từ điển là một dạng tài nguyên thiết yếu phục vụ cho các bài toán phân tích ngôn ngữ từ đơn giản đến phức tạp. Một từ điển có chất lượng phải cung cấp được các thông tin ngôn ngữ ở nhiều tầng bậc khác nhau như hình thái, ngữ pháp, ngữ nghĩa cho các hệ thống xử lí ngôn ngữ tự nhiên ở mức đơn ngữ, và cao hơn nữa, có thể phục vụ cho cả các hệ thống xử lí đa ngữ. Trên thế giới, việc xây dựng từ điển điện tử dạng như vậy là rất phổ biến. Đã có nhiều từ điển được xây dựng, cả cho các ứng dụng xử lí đơn ngữ và đa ngữ, với những quan niệm và xuất phát điểm riêng [Nguyen, 2006].

Với các kho từ vựng đơn ngữ, có thể kể đến nhiều dạng từ điển cung cấp các thông tin ở các tầng bậc khác nhau. Chẳng hạn, những dự án như BDLEX, CELEX, MULTEXT xây ...
     

VŨ XUÂN LƯƠNG1, NGUYỄN THỊ MINH HUYỀN2

Chi tiết
 
Lexical descriptions for Vietnamese language processing
Abstract

Only very recently have Vietnamese researchers begun to be involved in the domain of Natural Language Processing. As there does not exist any published work in formal linguistics or any recognizable standard for Vietnamese word categories, the fundamental works in Vietnamese text analysis such as part-of-speech tagging, parsing, etc. are very difficult tasks for computer scientists. All necessary linguistic resources have to be built from scratch, and until now almost no resources are shared in public research. The aim of our project is to build a common linguistic database that is freely and easily exploitable for the automatic processing of Vietnamese. In this paper, we propose an extensible set of Vietnamese syntactic descriptions that can be used for tagset definition and corpus annotation. These descriptors are established in such a way to be a reference set proposal for Vietnamese in the context of ISO subcommittee TC37/SC4 (Language Resource Management)1.

1 Introduction

Over the last 20 years, the field of Natural Language Processing (NLP) has seen numerous achievements in domains as diverse as part-of-speech (POS) tagging, topic detection, or information retrieval. However, most ...
     

Thanh Bon Nguyen, Thi Minh Huyen Nguyen, Laurent Romary, Xuan Luong Vu.

Chi tiết
 
Developing Tools and Building Linguistic Resources for Vietnamese Morpho-Syntactic Processing

Abstract


Vietnamese is spoken by about 80 millions people around the world, yet very few concrete works on this language have been noticed in Natural Language Processing (NLP) until now. The fundamental problems in automatic analysis of Viet-namese, such as part-of-speech (POS) tagging, parsing, etc. are extremely difficult due to the lack of formal linguistic knowledge on one hand, and the specificities of isolating languages on the other hand. In this paper we present our efforts to develop a set of tools permitting the construction and management of language resources for Vietnamese in a normal-ized framework, whose aim is to be largely distributed and usable for research purposes in NLP. We first define a tagset by constructing Vietnamese morpho-syntactic descriptors that fit in a model compatible with MULTEXT1, so as to account for possible multilingual applications as well as the reusability of defined tagsets. We then implement a system undertaking the tasks of word segmentation and POS tagging. Our system ensures a representation format of lin-guistic resources that is currently considered in the framework of ISO TC37 SC42. Finally we ...
     

Thanh Bon Nguyen(1), Thi Minh Huyen Nguyen(2), Laurent Romary(2), Xuan Luong Vu(3)

Chi tiết
 
A Case Study in POS Tagging of Vietnamese Texts
Résumé – Abstract

Dans cet article, nous discutons sur la construction des jeux d'étiquettes pour l'analyse morpho-syntaxique du vietnamien, en prenant en compte les spécificités linguistiques de cette langue. Cette construction s'est inspirée du modèle MULTEXT1 dans le but de s'orienter vers les applications multilingues ainsi que la réutilisabilité des jeux d'étiquettes. Nous allons finalement décrire une expérimentation sur l'étiquetage lexical des textes vietnamiens en utilisant QTAG (Mason, 1998) - un étiqueteur probabiliste indépendant des langues.

This paper discusses part of speech (POS) tagset construction for Vietnamese by considering linguistic specificities of this language. We take into account the schema as defined in the MULTEXT model, so as to account for possible multilingual applications as well as the reusability of defined tagsets. Finally we describe our experiments on tagging Vietnamese texts using QTAG (Mason, 1998), a language independent probabilistic tagger.

Mots Clés - Keywords

partie de discours, corpus de texte, étiquetage lexical, MULTEXT, normalisation, QTAG, MULTEXT, part-of-speech (POS), POS tagging, QTAG, standardization, text corpus

1. Introduction

Each word in a language has potentially one or more parts-of-speech (POS) depending upon the context of its ...
     

Thi Minh Huyen Nguyen (1), Laurent Romary (1) and Xuan Luong Vu (2)

Chi tiết
 
Sử dụng bộ gán nhãn từ loại xác suất QTAG cho văn bản tiếng Việt

Đọc bài viết từ file PDF ...

     Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương
Download: ITCra03POSTagging.pdf
Chi tiết
 
1 2