Ý tưởng giúp giảm thiểu kích cỡ tập dữ liệu dùng để đào tạo hệ thống AI
28/10/2020
KH&CN nước ngoài
Ilia Sucholutsky và Matthias Schonlau (hai nhà thống kê thuộc Đại học Waterloo) đã giới thiệu ý tưởng cho phép đào tạo các hệ thống AI (trí tuệ nhân tạo) mà không cần sử dụng bộ dữ liệu lớn.
Kỹ thuật học sâu đã được áp dụng trong nhiều lĩnh vực, như tạo video deepfake (video tạo bằng kỹ thuật tổng hợp hình ảnh dựa trên trí tuệ nhân tạo), ứng dụng đánh cờ, chẩn đoán y tế,…Tuy nhiên, để chọn ra được các mẫu thích hợp cho mạng nơron sâu, đòi hỏi các tập dữ liệu đào tạo phải lớn, nên chi phí cao và tốn nhiều thời gian để đào tạo. Do đó, các nhà nghiên cứu luôn tìm cách để giảm kích cỡ của tập dữ liệu đào tạo.
Các nhà nghiên cứu thấy rằng, việc lọc các thông tin thích hợp và đóng gói chúng với nhau trong bộ cơ sở dữ liệu MNIST (bộ cơ sở dữ liệu lớn nhất về chữ số viết tay, được sử dụng trong hầu hết các thuật toán nhận dạng hình ảnh) đã giảm đáng kể lượng chữ số mà hệ thống AI của họ cần học để nhận dạng trong tập dữ liệu mới. Hệ thống được đào tạo để nhận diện chữ số theo cách thức mới: thay vì hiển thị số 3 hàng nghìn lần, nó được đào tạo để nhận biết các chữ số khác trông gần giống với số 3 (tỉ lệ tương đồng khoảng 30%), ví dụ như số 8. Họ gọi đây là những nhãn mềm gợi ý. Nhờ vậy, hệ thống có thể học với dữ liệu ít hơn nhiều so với trước đây.
Sau đó, họ áp dụng ý tưởng này vào kỹ thuật học máy kNN (k-nearest neighbor), thể hiện bằng đồ thị. Họ áp dụng nhãn mềm cho các tập dữ liệu mô tả tọa độ XY trên biểu đồ. Kết quả là, hệ thống AI đã được huấn luyện dễ dàng đặt các dấu chấm trên biểu đồ (ở bên phải của đường đã vẽ), mà không cần tập dữ liệu lớn. Các nhà nghiên cứu gọi cách tiếp cận này là "học nhanh hơn one-shot" (less than one-shot learning), có thể ứng dụng rộng rãi sang các lĩnh vực khác, dù vẫn còn một trở ngại lớn cần vượt qua, đó là hệ thống vẫn cần một tập dữ liệu lớn để tiến hành quá trình sàng lọc dữ liệu.
Nghiên cứu này được đăng trên trang arXiv.org
Diệu Huyền (CESTI) - Theo Techxplore.com