Tạp chí Khoa học (57) Vì sao máy tính có thể nhận diện được hình ảnh?

The Few Who Do- AI - Bias

Artificial intelligence Source: Shutterstock

Khi trẻ em nhìn vào một bức ảnh, chúng có thể nhận diện được những yếu tố đơn giản như con mèo, quyển sách hay chiếc ghế. Giờ đây, máy tính đã đủ thông minh để có thể làm được điều tương tự. Vậy thì máy tính đã làm việc đó như thế nào?


Chuyên gia thị giác máy tính Fei-Fei Li là Giám đốc  Phòng thí nghiệm Trí thông minh Nhân tạo thuộc Đại học Stanford. Nghiên cứu của bà tập trung vào những vấn đề khó khăn nhất hiện nay của trí thông minh nhân tạo (AI), bao gồm việc nhận dạng hình ảnh, học tập và xử lý ngôn ngữ.

Trong một bài nói chuyện trên diễn đàn vào năm 2015, bà Li mô tả cách mà bà và nhóm nghiên cứu đã “dạy” cho máy tính nhận diện và phân tích hình ảnh như thế nào.

“Xã hội của chúng ta đang trở nên tiến bộ về mặt công nghệ hơn bao giờ hết. Chúng ta đưa con người lên mặt trăng, chúng ta chế tạo điện thoại thông minh, hoặc tùy chỉnh những kênh phát thanh chỉ phát thể loại nhạc mà chúng ta ưa thích. Tuy nhiên, những thiết bị và máy tính tối tân nhất của chúng ta vẫn còn chật vật trong việc nhận dạng hình ảnh. Hôm nay, tôi sẽ cập nhật cho các bạn những tiến bộ mới nhất của thị giác máy tính, một trong những công nghệ hàng đầu và mang tính cách mạng trong khoa học máy tính.
"Xã hội chúng ta đang khiếm thị, bởi vì những chiếc máy thông minh nhất của chúng ta vẫn chưa có thị giác." - Chuyên gia thị giác máy tính Fei-Fei Li
“Chúng ta có bản thiết kế những chiếc xe tự lái, thế nhưng nếu không có thị giác thông minh, chúng không thể phân biệt được sự khác nhau giữa một cái túi giấy bên đường mà chiếc xe có thể cán qua được, và một hòn đá mà chiếc xe nên tránh. Chúng ta đã tạo ra những chiếc máy ảnh với độ phân giải tuyệt vời, nhưng lại chưa thể giúp người mù nhìn thấy được. Những chiếc máy bay không người lái có thể bay qua những vùng đất rộng lớn, nhưng chưa có đủ công nghệ thị giác để theo dõi sự thay đổi của rừng nhiệt đới.

"Camera an ninh ở khắp mọi nơi, nhưng chúng không thể cảnh báo cho chúng ta trong trường hợp một đứa trẻ đang đuối nước trong hồ bơi. Hình ảnh và video đang trở thành một phần thiết yếu của cuộc sống toàn cầu. Thế nhưng các phần mềm hiện đại nhất của chúng ta vẫn gặp khó khăn trong việc phân tích và quản lý lượng nội dung khổng lồ này. Vì thế, ở một khía cạnh nào đó, xã hội chúng ta đang khiếm thị, bởi vì những chiếc máy thông minh nhất của chúng ta vẫn chưa có thị giác.

“Vì sao điều này lại khó khăn đến vậy? Máy ảnh có thể chụp được ảnh bằng cách chuyển đối ánh sáng thành những dãy số hai chiều gọi là pixel, nhưng đây chỉ là những con số vô hồn. Tự thân chúng không mang bất kỳ ý nghĩa nào cả. Trên thực tế, Mẹ Thiên Nhiên đã mất 540 triệu năm để phát triển khả năng phân tích hình ảnh trong não bộ của chúng ta, chứ không phải ở đôi mắt. Vì thế, cái nhìn bắt đầu từ đôi mắt, nhưng lại diễn ra trong não bộ.
“Trong suốt 15 năm qua, bắt đầu với luận án tiến sĩ của tôi tại Caltech, và sau đó là dẫn dắt phòng thí nghiệm thị giác của Stanford, tôi đã làm việc với các cố vấn, đối tác và sinh viên để dạy máy tính cách nhìn. Đó là một phần của lĩnh vực trí tuệ nhân tạo. Mục đích cuối cùng của chúng tôi là dạy cho máy móc thấy được như chúng ta: kể tên đồ vật, nhận diện con người, hiểu được những mối quan hệ, tình cảm, hành động và cả dự định.

“Bước đầu tiên để đạt được mục tiêu này là dạy cho máy tính thấy được  đồ vật – tức những viên gạch tạo nên thế giới thị giác. Nói theo cách đơn giản nhất, chúng tôi cho máy tính xem một số hình ảnh của một vật cụ thể, chẳng hạn như con mèo, và thiết kế một mô hình học tập từ những hình ảnh này. Điều này có khó không? Dù sao đi chăng nữa, một con mèo chỉ là một tập hợp những hình dạng và màu sắc.

"Đó là những gì chúng tôi làm trong những ngày đầu. Chúng tôi nói cho thuật toán máy tính dưới dạng ngôn ngữ toán học rằng một con mèo có mặt tròn, thân hình mũm mĩm, hai cái tai nhọn, và một cái đuôi dài. Và điều đó có vẻ ổn. Thế nhưng khi con mèo cuộn mình lại thì sao? Giờ đây bạn lại phải bổ sung một hình dạng và góc nhìn khác vào mô hình. Thế nhưng nếu con mèo đang trốn thì sao? Bạn hiểu ý tôi rồi đấy. Ngay cả một vật thể đơn giản như con mèo có thể chứa nhiều biến thể, mà đó chỉ là một vật thể thôi đấy.
“Khoảng 8 năm trước, một quan sát đơn giản mà sâu sắc đã làm thay đổi suy nghĩ của tôi. Không ai dạy cho một đứa trẻ biết chúng phải nhìn như thế nào, đặc biệt là trong những năm đầu đời. Chúng học được kỹ năng này thông qua những kinh nghiệm thực tế. Nếu bạn xem đôi mắt của trẻ như là một cặp máy ảnh sinh học, thì cứ mỗi 200 mili giây chúng lại chụp một bức ảnh, tương đương với mỗi cử động mắt. Đến năm 3 tuổi, một đứa trẻ đã nhìn thấy hàng trăm triệu bức ảnh của thế giới thực. Vì thế thay vì chú trọng vào việc hoàn thiện thuật toán, tôi cung cấp cho thuật toán nhiều dữ liệu hơn, cả về số lượng lẫn chất lượng.
"Đến năm 3 tuổi, một đứa trẻ đã nhìn thấy hàng trăm triệu bức ảnh của thế giới thực." - Fei-Fei Li
“Một khi hiểu được điều này, chúng tôi biết rằng mình cần phải thu thập một cơ sở dữ liệu có nhiều hình ảnh hơn những gì mà chúng tôi đã từng có trước đây, thậm chí là gấp hàng ngàn lần, và cùng với giáo sư Kai Li ở đại học Princeton, chúng tôi triển khai dự án vào năm 2007. May mắn thay, chúng tôi không cần phải gắn camera trên đầu và đợi chờ nhiều năm nữa. Chúng tôi lên mạng, nguồn tài nguyên ảnh lớn nhất mà con người đã từng tạo ra. Chúng tôi tải xuống gần một tỷ bức ảnh và sử dụng công nghệ crowdsourcing như nền tảng Amazon Mechanical Tuck để giúp chúng tôi phân loại những hình ảnh này. Vào giai đoạn cao điểm, ImageNet là một trong số những đối tác lớn nhất của Amazon Mechanical Turk: gần 50,000 nhân viên từ 167 quốc gia trên thế giới giúp chúng tôi dọn dẹp, sắp xếp và phân loại gần một triệu tấm ảnh.

“Ý tưởng sử dụng dữ liệu lớn để huấn luyện cho máy tính nghe có vẻ hiển nhiên vào lúc này, nhưng vào năm 2007, nó lại không hiển nhiên như vậy. Chúng tôi gần như đơn độc trong hành trình này. Một số đồng nghiệp khuyên tôi nên làm điều gì đó có ích hơn, và chúng tôi luôn gặp khó khăn trong việc tìm nguồn tài trợ cho dự án. Có lần tôi còn đùa với sinh viên của mình rằng có lẽ tôi nên mở cửa tiệm giặt ủi của mình để tài trợ cho ImageNet. Dù gì đi nữa, đó cũng là cách mà tôi kiếm sống trong khoảng thời gian học đại học.
“Và chúng tôi tiếp tục công việc của mình. Đến năm 2009, dự án ImageNet đã xây dựng kho dữ liệu với 15 triệu hình ảnh trong 22,000 chủng loại được sắp xếp bằng ngôn ngữ tiếng Anh thông dụng. Đây là một quy mô chưa từng có cả về số lượng lẫn chất lượng. Trở lại với ví dụ con mèo, chúng tôi có hơn 62,000 hình mèo với đủ hình dạng, tư thế và chủng loại mèo nhà hay mèo hoang. Chúng tôi rất vui vì đã xây dựng ImageNet, và chúng tôi muốn các nhà nghiên cứu được hưởng lợi từ nó, vì thế chúng tôi đã mở toàn bộ hệ thống dữ liệu cho cộng đồng nghiên cứu quốc tế truy cập miễn phí.

“Từng chút từng chút một, chúng ta đã trao cho máy móc thị giác. Đầu tiên, chúng ta dạy chúng cách nhìn. Sau đó, chúng sẽ giúp chúng ta nhìn rõ hơn. Lần đầu tiên, đôi mắt của con người không còn là thứ duy nhất khám phá thế giới này. Chúng ta sẽ không chỉ sử dụng máy móc nhờ sự thông minh của chúng, chúng ta còn có thể hợp tác với chúng theo những cách không thể tưởng tượng nỗi. Đây là mong muốn của tôi: Trao cho máy tính sự thông minh thị giác và tạo ra một tương lai tốt hơn cho thế giới.”

Thêm thông tin và cập nhật Like 
Nghe SBS Radio bằng tiếng Việt mỗi tối lúc 7pm tại 

Share