Tạp chí MIT Technology Review – Hoa Kỳ vừa có bài giới thiệu nghiên cứu của nhóm các nhà khoa học thuộc Google gồm: TS Tomas Mikolov (Cộng hoà Czech), TS Lê Viết Quốc (Việt Nam) và Ilya Sutskever (Canada). Ý tưởng chính của nghiên cứu này là thiết lập và biểu diễn bản đồ ngôn ngữ bằng một không gian véctơ. Khi đó, việc dịch chỉ là thực hiện thuật toán chuyển đổi giữa các không gian véctơ.
Hai bước chuyển ngữ
Khoa học máy tính đang thay đổi bản chất của dịch thuật, nhưng những người từng dùng Babel Fish hay Google Translate để dịch đều biết rằng dù hữu ích, những công cụ này chưa hoàn hảo, nếu không nói là còn nhiều khiếm khuyết.
Nhóm nghiên cứu của Google tìm một hướng đi mới giải quyết vấn đề đó. “Rất đơn giản, để dịch từ ngôn ngữ này sang ngôn ngữ khác, chúng tôi dùng sự biến đổi tuyến tính để có thể kết nối từ này sang từ khác”, nhóm các nhà nghiên cứu của Google nói.
Trao đổi với phóng viên Sài Gòn Tiếp Thị, TS Lê Viết Quốc, thành viên của nhóm giải thích thêm: “Trong dịch thuật có hai vấn đề cần giải quyết. Thứ nhất là tạo ra bảng chuyển ngữ (translation table) như “xinh đẹp” chuyển thành “beautiful”, “khoẻ mạnh” thành “healthy”. Nhưng dịch thuật không đơn giản như vậy. Ví dụ “Tôi đi học ở một ngôi trường rất xa” chuyển ngữ trực tiếp sẽ thành “I go to a school very far” – tập hợp từ này không có nghĩa trong tiếng Anh. Vì vậy người ta phải tìm cách chắp nối những từ này lại cho thành câu. Bước thứ hai này được gọi là sử dụng mô hình ngôn ngữ (language modelling). Các phương pháp dịch thuật nói chung cần giải quyết hai bước này thật tốt. Thực tế đã có rất nhiều hướng nghiên cứu khác nhau. Đa phần đều muốn tìm cách làm bước thứ hai cho thật tốt, và họ đều dùng phiên dịch chuyên nghiệp – tức là người biết rành cả hai ngôn ngữ để tạo ra bảng chuyển ngữ. Nghiên cứu của nhóm đã – lần đầu tiên – tạo ra translation table mà không cần người dịch thuật”.
Theo đó, phương pháp tiếp cận mới tương đối đơn giản. Nó dựa trên quan điểm cho rằng mọi ngôn ngữ phải được mô tả là một tập hợp tương tự về ý nghĩa. Vì thế, từ ngữ mang cùng ý nghĩa trong các ngôn ngữ khác nhau cũng phải có nét tương đồng. Thí dụ, hầu hết các ngôn ngữ đều có từ chỉ những động vật phổ biến như “chó”, “mèo”, “bò”... và những từ này có thể được dùng theo cách giống nhau trong các câu, thí dụ “một con mèo là một động vật nhỏ hơn một con chó”. gy Review – Hoa Kỳ vừa có bài giới thiệu nghiên cứu của nhóm các nhà khoa học thuộc Google gồm: TS Tomas Mikolov (Cộng hoà Czech), TS Lê Viết Quốc (Việt Nam) và Ilya Sutskever (Canada). Ý tưởng chính của nghiên cứu này là thiết lập và biểu diễn bản đồ ngôn ngữ bằng một không gian véctơ. Khi đó, việc dịch chỉ là thực hiện thuật toán chuyển đổi giữa các không gian véctơ.
Với một số từ cơ bản được chọn làm mốc, mỗi từ trong một ngôn ngữ nào đó có mối tương quan được thể hiện ở vị trí nhất định
trong không gian đa chiều. Ở trên là hình chiếu biểu diễn một số con số từ không gian đa chiều xuống không gian hai chiều.
Hình ảnh này cho thấy véctơ đại diện cho các con số từ 1 – 5 trong tiếng Anh và tiếng Tây Ban Nha giống nhau như thế nào.
Một không gian tập hợp
TS Quốc nói: “Nếu suy nghĩ kỹ về ngôn ngữ, ta sẽ nhận thấy định nghĩa của nhiều từ là có tính tương đối, như “xinh đẹp” có thể nghĩ là “không xấu”, “dễ nhìn”… Câu hỏi đặt ra là có cách tổng quát nào để định nghĩa một từ bằng cách xác định mối tương quan của nó với các từ khác? Khi ta tra từ điển, có một từ rất mới, ta sẽ định nghĩa nó một cách tương đối so với những từ còn lại trong từ điển. Từ đó hình thành giải thiết: nếu ta dùng một không gian mà ở đó có một số từ rất thông dụng làm cột mốc thì những từ còn lại có thể định nghĩa theo cột mốc đó. Một không gian như vậy trong toán học là không gian véctơ. Thực chất đây chỉ là một phương pháp định nghĩa theo mặt toán học”.
Phương pháp của nhóm là biểu diễn toàn bộ một ngôn ngữ dựa trên mối quan hệ giữa các từ của nó. Một tập hợp tất cả các mối quan hệ tạo thành “không gian ngôn ngữ” có thể được biểu diễn bởi một tập hợp các véctơ. Và trong nhiều năm gần đây, nhóm của TS Quốc đã phát hiện rằng có thể vận dụng phép tính toán học cho những véctơ này. Thí dụ, phép tính “vua” + “nữ giới” sẽ cho kết quả trên véctơ, có nghĩa tương tự là “nữ hoàng”.
Nếu đã tìm ra được một “không gian ngôn ngữ” biểu diễn bằng các véctơ thì quá trình chuyển đổi từ một ngôn ngữ này sang một ngôn ngữ khác tương đương với việc chuyển đổi từ một không gian véctơ này sang không gian véctơ khác. Như vậy, quá trình dịch thuật đã trở thành quá trình được giải quyết bởi các thuật toán. Ở đây, nhóm nghiên cứu của Google phải tìm một cách kết nối chính xác một không gian véctơ vào một không gian véctơ khác. Họ đã dùng một từ điển song ngữ do con người biên soạn – so sánh với bộ sưu tập các văn bản viết hoặc nói của các từ trong hai ngôn ngữ khác nhau, mang lại một biến đổi tuyến tính có sẵn để triển khai phương pháp này.
Nhóm nghiên cứu cho biết nó hoạt động khá tốt: “Mặc dù đơn giản, phương pháp của chúng tôi có hiệu quả đáng ngạc nhiên, chúng tôi có thể đạt được gần 90% độ chính xác đối với dịch các từ giữa tiếng Anh và tiếng Tây Ban Nha”.
Phương pháp này có thể được dùng để mở rộng và cải tiến từ điển, thậm chí có thể phát hiện sai sót trong từ điển. Thực tế, nhóm Google đã làm điều đó với một từ điển tiếng Anh – tiếng Czech, và tìm ra rất nhiều lỗi trong đó.
Nhóm nghiên cứu cũng chỉ ra rằng, có thể áp dụng kỹ thuật này với các ngôn ngữ hoàn toàn không có sự liên quan. Thí dụ, dù được xây dựng trên hai ngôn ngữ có nhiều sự tương đồng là tiếng Anh và tiếng Tây Ban Nha nhưng nghiên cứu cho thấy kỹ thuật mới cũng hoạt động tốt đối với các cặp ngôn ngữ không có nhiều liên quan, như tiếng Anh và tiếng Việt.
TS Quốc cho biết thêm: “Việc nghiên cứu đã được tiến hành gần một năm nay và có kết quả từ cách đây hai tháng. Với nghiên cứu này chưa thể gọi là hoàn thành, nhưng về kết quả thực nghiệm thì như thế cũng là khá đầy đủ”. Tạp chí MIT Technology Review cũng nhận định “đây là một bước tiến hữu ích cho tương lai của truyền thông đa ngôn ngữ”.
Tuy nhiên, “đây mới chỉ là bước khởi đầu, rõ ràng, vẫn có nhiều thứ cần được khám phá”, TS Tomas Mikolov, đại diện nhóm nghiên cứu nói.
Nguồn: Theo SGTT