Nhóm tác giả Trần Như Thuật và giải nhất sinh viên nghiên cứu khoa học

     “Domain – indepedent Intent Extraction from Online Texts” (được tạm dịch: Trích xuất thông tin từ dữ liệu trực tuyến không phụ thuộc miền dữ liệu), vinh dự là một trong 4 công trình nghiên cứu đoạt giải Nhất sinh viên nghiên cứu khoa học năm 2018 vừa qua.

     Đây là công trình do nhóm sinh viên gồm Trần Như Thuật, Nguyễn Hữu Hồng, Nguyễn Thanh Tùng, Đặng Tiến Sơn đến từ lớp K59CA, Khoa Công nghệ thông tin, Trường Đại học Công nghệ, ĐHQGHN, thực hiện từ tháng 3 năm 2016.

Sức cuốn hút của ngôn ngữ người và máy

     Các bạn đã bị cuốn hút bởi khả năng có thể làm một số nhiệm vụ về ngôn ngữ giống con người của máy tính từ phân biệt danh từ, tính từ, động từ trong câu đến nhận diện tên người, tên địa điểm, tên các tổ chức,… có trong câu đầu vào. Vì thế, Thuật quyết định tham gia nghiên cứu đề tài về trích chọn ý định từ dữ liệu văn bản để nghiên cứu các phương pháp giúp máy tính học và nhân diện ý định trong câu, mong muốn chúng sẽ làm các nhiêm vụ này đạt độ chính xác ngày càng gần với độ chính xác của con người.

      Theo Thuật, trích chọn ý định là bài toán khó nhưng thú vị và có nhiều ứng dụng thực tế. Ngày nay, số lượng người sử dụng các mạng xã hội và diễn đàn thảo luận tăng lên nhanh chóng, họ có thể dễ dàng chia sẻ suy nghĩ, hoạt động thậm chí cả ý định của mình trên các kênh trực tuyến. Những thông tin này mang lại nhiều lợi ích cho các doanh nghiệp từ quảng cáo trực tuyến, thương mại điện tử đến lĩnh vực ngân hàng. Nếu các doanh nghiệp trích xuất được ý định của khách hàng thông qua bình luận, bài đăng trên mạng xã hội thì họ có thể đưa ra các quảng cáo phù hợp với nhu cầu khách hàng, giúp sản phẩm đến được đối tượng tiềm năng, tăng khả năng mua và lợi nhuận cho doanh nghiệp.

     Tuy nhiên, ý định người dùng rất phức tạp, do đó, các phương pháp để hiểu được ý định người dùng sẽ gặp khó khăn khi số lượng miền tăng lên. Đề tài trích xuất ý định người dùng không phụ thuộc vào miền dữ liệu, sử dụng bộ nhãn tổng quát ra đời với mong muốn giải quyết vấn đề, giảm thời gian xây dựng bộ nhãn riêng mỗi khi có miền dữ liệu mới, tiết kiệm sức người và chi phí khi trích chọn ý định.

      Để thực hiện đề tài, Thuật cùng các cộng sự đã sử dụng dữ liệu từ ba miền: du lịch, bất động sản và mua bán ô tô – xe máy. Quá trình thu thập dữ liệu cho thấy, số lượng nhãn tăng lên đáng kể khi các miền mới xuất hiện. Do đó, nếu có quá nhiều miền dữ liệu, việc xây dựng bộ nhãn cho các miền này sẽ tốn nhiều thời gian và công sức. Để xử lý vấn đề này, nhóm đề xuất phương pháp trích chọn ý định độc lập miền dữ liệu sử dụng bộ nhãn tổng quát (nhãn không phụ thuộc vào miền cụ thể).

     Sau khi xem xét dữ liệu được thu thập từ kênh trực tuyến, nhóm nhận thấy có những nhãn xuất hiện trong hầu hết các tên miền, chẳng hạn như ý định, giá cả, đối tượng,… được sử dụng làm nhãn chung trong khi một số chỉ xuất hiện ở một miền cụ thể. Ví dụ nhãn thời gian chỉ xuất hiện trong miền du lịch, hướng mặt tiền chỉ xuất hiện trong bất động sản hay dòng sản phẩm chỉ có ở miền mua bán ô tô – xe máy. Những nhãn riêng biệt này được gộp lại thành một nhãn gọi là nhãn mô tả. Nhóm sử dụng bộ nhãn tổng quát gồm mười nhãn để trích chọn ý định người dùng. Kết quả thưc nghiệm cho thấy, khi số lượng miền dữ liệu tăng lên, nhãn chung đạt được kết quả tốt hơn đáng kể so với nhãn cụ thể.

     Vì đây là đề tài mới, chưa có một bộ dữ liệu chuẩn nào trước đó nên trong quá trình làm, nhóm phải xây dựng lại dữ liệu từ đầu. Công đoạn này rất quan trọng, tốn đến 70% thời gian thực hiện đề tài. Dữ liệu sau khi lấy từ các diễn đàn thảo luận, các nhóm Facebook công khai sẽ được xử lý bằng tay lọc bỏ hết các câu không chứa ý định, câu chứa ý định không rõ ràng, các câu hỏi; lọc bỏ kí tự thừa và xây dựng bộ từ điển dùng cho các từ viết tắt.

     Quá trình thực hiện nghiên cứu gặp khá nhiều khó khăn nhưng với kiến thức, sự tìm hiểu kỹ lưỡng của nhóm, bên cạnh đó là sự chỉ bảo tận tình của thầy cô hướng dẫn đã mang lại kết quả tốt đẹp cho đề tài. PGS.TS Phan Xuân Hiếu là người dẫn dắt nhóm từ những ngày đầu tiên, định hướng từ cách tiếp cận một vấn đề khoa học, cách thuyết trình sao cho logic, đến cách viết bài báo để nổi bật ý tưởng. Trong quá trình làm việc, thầy còn chia sẻ cách đặt ra các giả thuyết khoa học và thiết kế thực nghiệm để kiểm chứng giả thuyết đã nêu. Đồng hành còn có ThS. Lương Thái Lê, giảng viên tham gia xử lý dữ liệu và xây dựng bộ nhãn cùng nhóm.

PGS.TS Phan Xuân Hiếu cùng nhóm sinh viên của Khoa Công nghệ thông tin, Trường ĐH Công nghệ

Thực nghiệm thành công khi trải qua thất bại

     Kể về kỷ niệm trong suốt 7 tháng thực hiện, Thuật nhớ nhất những lần ngồi huấn luyện dữ liệu. Mỗi lần thực nghiệm mất đến khoảng 3-4 tiếng cho một lần chạy, nếu mô hình sau khi chạy không đạt được kết quả như mong muốn thì phải hiệu chỉnh lại các tham số và chạy lại từ đầu. Vì thế, tổng thời gian huấn luyện cho một mô hình có lúc mất đến hai ngày liên tục. Quá trình này mang lại rất nhiều cảm xúc, lúc hồi hộp chờ, mong máy chạy thật nhanh để xem kết quả; vui mừng vì thành công; lúc lại thất vọng bởi kết quả sau kém hơn lần chạy trước. Nhờ những lần như vậy, bạn càng có thêm động lực cố gắng hoàn thành nghiên cứu của mình.

     “Quá trình tham gia nghiên cứu mang lại cho tôi rất nhiều kiến thức bổ ích cả về lý thuyết và thực tiễn. Nhờ tham gia NCKH tôi có cơ hội áp dụng các kiến thức được học ở trường để giải quyết các bài toán. Trong đề tài của mình, tôi đã áp dụng các mô hình học máy, học sâu trong môn Học máy (Machine Learning) để giải quyết bài toán. Việc sử dụng các mô hình này ở bài toán thực tế giúp tôi phát hiện được điểm mạnh, điểm yếu của các mô hình, đem đến hiểu biết cụ thể hơn về từng mô hình, từ đó áp dụng chúng vào các bài toán tiếp theo. Về mặt thực tiễn, tôi học được các bước thực hiện bài toán khai phá dữ liệu thông qua đề tài: từ thu thập dữ liệu, tiền xử lý dữ liệu đầu vào, xây dựng các bộ dữ liệu huấn luyện, dữ liệu kiểm định, dữ liệu test, lập trình, huấn luyện và kiểm tra các mô hình đến phân tích kết quả đầu ra. Những kiến thức, kinh nghiệm này là hành trang quý giá để thực hiện các dự án về khai phá dữ liệu trong công nghiệp sau này”, Thuật chia sẻ về những kiến thức, kinh nghiệm mình có được nhờ quá trình làm NCKH.

Trần Như Thuật tham gia kì thi Olympic Toán học sinh viên toàn quốc năm 2018

Sinh viên tham gia NCKH càng sớm càng tốt

     Với những điều bổ ích mình nhận được trong quá trình thực hiện đề tài, Thuật cho rằng các bạn sinh viên nên tham gia NCKH càng sớm càng tốt, nên bắt đầu từ năm thứ hai bậc đại học. Quá trình nghiên cứu và giải quyết các bài toán không chỉ đem lại vốn kiến thức mới mà còn là cơ hội để vận dụng những gì đã học ở đại học. Bên cạnh kiến thức lý thuyết, quá trình NCKH còn giúp sinh viên cải thiện kỹ năng mềm như làm việc nhóm, thuyết trình,…

     “Đừng chần chừ gì nữa, hãy bắt tay ngay vào việc tìm giáo viên hướng dẫn, xin tham gia đề tài NCKH hoặc đề xuất ý tưởng để nhận được sự góp ý từ các thầy, cô. Quá trình NCKH có thể sẽ gặp khó khăn, mất nhiều thời gian và công sức, nhưng kết quả cuối cùng sẽ đem lại nhiều điều bổ ích cho bạn. Còn với những ai đang tham gia NCKH, tôi mong các bạn hãy tiếp tục theo đuổi và cống hiến hết mình cho đề tài để biến chúng thành ứng dụng thực tiễn, có ích đối với cuộc sống con người”, Thuật tiếp thêm sức mạnh cho các bạn sinh viên.

Sinh viên Trần Như Thuật tham gia Hội nghị sinh viên nghiên cứu khoa học cấp trường

     Suy nghĩ về nhận định máy tính có thể thay thế con người trong tương lai, Thuật cho rằng máy tính đã và đang đạt được những kết quả tương đối ấn tượng trong các ứng dụng về xử lý ngôn ngữ tự nhiên, nhận diện vật thể trong ảnh, dự đoán/ phát hiện ung thư, … Tuy nhiên, theo Thuật, để chúng đạt được độ chính xác như con người còn cần một khoảng cách khá xa. Trong tương lai, với độ chính xác được nâng cao, máy tính sẽ đóng vai trò hỗ trợ con người trong các ứng dụng của Trí tuệ nhân tạo (AI), con người vẫn sẽ giữ vai trò chính thực hiện các tác vụ, đặc biệt các hoạt động chăm sóc sức khỏe, chẩn đoán và chữa trị bệnh. 

Theo Đinh Thúy Hiền (VNU Media)

 

Bài viết liên quan