Trong buổi chia sẻ với sự tham gia của hơn 200 kỹ sư đang làm việc trong mảng trí tuệ nhân tạo, ông Phan Kim Long, trưởng ban tổ chức (BTC) cuộc thi, cho biết nhận dạng giọng nói, địa điểm, giai điệu không phải là bài toán xa lạ trên thế giới nhưng đưa vào trường hợp của người Việt lại trở nên khác biệt hoàn toàn do vấn đề ngôn ngữ, văn hóa.
Yếu tố mà tất cả thí sinh tham gia đều đánh giá cao là vấn đề “độ nhiễu” của dữ liệu. Điều này thường xuyên bắt gặp trong thực tế khi người dùng chụp một bức ảnh ruộng bậc thang ở Hà Giang nhưng lại gắn thẻ nhầm ở Sa Pa, hoặc sinh ra ở Hà Nội nhưng chuyển vào Sài Gòn sinh sống.
Trong bài chia sẻ giải pháp của mình, bạn Nguyễn Hoàng Bảo Đại, đại diện đội VietAI, quán quân trong bài toán nhận diện giọng nói, đã đánh giá bộ dữ liệu khá mất cân bằng khi có đoạn thu âm dài ba giây nhưng cũng có dữ liệu dài tới 10 phút, có những đoạn thu âm lại có 30 giây đầu chỉ là nhạc không lời khiến thuật toán phải xử lý vô cùng khó khăn. “Đội còn tình cờ phát hiện ra có một đoạn ghi âm là của một người miền Nam đang giả giọng Huế và nói một câu tiếng Anh” - Bảo Đại tâm sự.
Được biết để tìm cách xử lý, đội thi đã phải tìm mọi sự trợ giúp từ Google cho tới các diễn đàn chuyên sâu về machine learning (học máy) và dùng tới bảy model (mô hình) khác nhau để tìm cách xác định đúng câu trả lời.
Con số 700 đội thi ở mùa đầu tiên tổ chức, trong đó có 140 thí sinh là những kỹ sư AI người Việt đang sống và làm việc ở các nước Nhật, Mỹ, Tây Ban Nha, Singapore… đã cho thấy các vấn đề AI tại Việt Nam đang nhận được sự quan tâm lớn của cộng đồng trong và ngoài nước.