Dịch tự động truy vấn tiếng Việt sang đồ thị khái niệm
22/02/2008
Hoạt động KH&CN
Sự kiện KH&CN
Đề tài do tác giả Hồ Trung Dũng, Cao Hoàng Trụ (khoa Khoa học và Kỹ thuật Máy tính, trường Đại học Bách khoa TP.HCM) thực hiện với mục đích giới thiệu web Việt có Ngữ nghĩa VN- KIM có khả năng nhận diện được các thực thể có tên trong các tài liệu tiếng Việt.
Hệ thống VN-KIM được xây dựng để làm một cơ sở hạ tầng đầu tiên về web Việt có ngữ nghĩa bao gồm: một Ontology, cơ sở trí thức về các thực thể phổ biến nhất ở Việt Nam và các phần mềm căn bản để rút trích, truy hồi thông tin theo thực thể có tên VN- KIM. Đây là một giải pháp biến đổi truy vấn ngôn ngữ tự nhiên, tiếng Việt sang đồ thị khái niệm để truy hồi thông tin. Quá trình được chia làm 3 giai đoạn. Cụ thể, mua ban quan ao giay dep tiến hành các bước như sau: bước một, sử dụng lại VN – KIM để nhận diện các thực thể có tên và phần mềm GATE để nhận diện các thực thể không tên và từ quan hệ trong câu truy vấn. Bước 2, áp dụng một văn phạm cho những dạng câu truy vấn tiếng Việt thông dụng và một bộ phân tích cú pháp để xác định các thực thể liên kết với nhau qua các từ quan hệ. Bước 3, là sử dụng các bảng ánh xạ quan hệ kết hợp với các luật sinh phân giải nhập nhằng để xác định chính xác các kiểu quan hệ trong Ontology tương ứng với các từ quan hệ trong câu truy vấn.
Giải pháp này được tích hợp phần mềm VN- KIM QER và thí nghiệm cho thấy kết quả dịch tốt nếu đầu vào sau khi nhận diện các thực thể có tên, ít bị sai sót. Phần mềm đã được thử nghiệm trên 65 câu truy vấn tiếng việt có dạng thông dụng. Trong đó có 51 câu được VN –KIM nhận diện đầy đủ và chính xác các thực thể có tên xuất hiện, phần mềm dịch đúng được 48 câu. Trong số 14 câu mà VN- KIM nhận diện thì thiếu và sai một số thực thể có tên, phần mềm có thể sửa chữa và dịch đúng được 3 câu. Như vậy nếu đầu vào đã có đúng và đầy đủ tất cả các thực thể có tên thì độ chính xác của phần biên dịch sang đồ thị khái niệm là 94%.
BH (Theo Tạp chí Tin học & điều khiển học, số 3/07)