Tạp chí Khoa học (09) Dữ Liệu Lớn đem lại những lợi ích gì?

What's the future of big data-driven technology and design? In a thrilling science talk, Kenneth Cukier looks at what's next for machine learning -- and human knowledge.

What's the future of big data-driven technology and design? Source: TED

Kenneth Cukier là Biên tập viên Dữ liệu của tạp chí The Economist. Từ năm 2007 đến 2012, ông là phóng viên tác nghiệp tại Tokyo, và trước đó là phóng viên công nghệ của trụ sở tòa soạn tại London, tập trung vào các sáng chế, sở hữu trí tuệ và quản lý Internet. Trong bài nói chuyện khoa học đầy thú vị tại TED, Kenneth Cukier đưa ra một vài dự báo về tương lai của Dữ liệu lớn (Big Data) dưới sự ảnh hưởng của công nghệ và thiết kế.


“Loại bánh được ưa thích nhất tại Mỹ là gì? Bánh táo. Tất nhiên rồi. Làm sao chúng ta biết được điều đó. Nhờ có dữ liệu. Nhìn vào doanh số bán lẻ tại các siêu thị. Nhìn vào doanh số của các loại bánh đường kính 30cm, và bánh táo thắng tuyệt đối. Phần lớn bánh được bán ra là bánh táo. Nhưng đến khi các siêu thị bắt đầu bán loại nhỏ hơn, cỡ 11 cm, thì đột nhiên, bánh táo tụt xuống hạng tư hoặc năm.

“Tại sao lại như vậy? Điều gì đã xảy ra? Hãy nghĩ mà xem. Khi bạn mua bánh cỡ 30 cm, cả gia đình phải thỏa hiệp. Trên thực tế, bánh táo chỉ đứng thứ hai trong danh sách yêu thích của mọi người mà thôi. Thế nhưng khi mua một cái bánh cỡ 11 cm, bạn có thể mua loại bánh mà bạn muốn. Bạn có thể mua loại bánh mà mình thích nhất. Bạn có nhiều dữ liệu hơn. Bạn có thể thấy được những thứ không thể thấy, khi chỉ có một lượng nhỏ dữ liệu.

“Điểm mấu chốt ở đây là, có nhiều dữ liệu hơn không chỉ giúp ta thấy nhiều hơn, mà còn giúp ta thấy được những điều mới mẻ, một góc nhìn toàn vẹn, và cho phép ta thấy khác đi. Trong trường hợp này, nó cho ta thấy thứ bánh được ưa chuộng nhất ở Mỹ không phải là bánh táo.”
Các bạn hẳn đã từng nghe về khái niệm Big Data (Dữ liệu lớn). Đúng hơn, hẳn các bạn đã chán ngấy về nó. Thật đúng khi cho rằng có nhiều sự thổi phồng xung quanh khái niệm trên, và điều đó thật đáng tiếc, vì Big Data là một công cụ vô cùng quan trọng mà nhờ đó, xã hội sẽ trở nên tiến bộ hơn. Trong quá khứ, chúng ta thường nhìn vào những dữ liệu nhỏ, tìm hiểu ý nghĩa của chúng, để cố gắng hiểu về thế giới, và giờ, ta có nhiều dữ liệu hơn, nhiều hơn bao giờ hết. Những gì ta biết là khi có một lượng lớn dữ liệu, ta có thể làm những điều mà trước kia không thể.

Dữ liệu lớn rất quan trọng và mới mẻ, và đó có thể là cách duy nhất mà hành tinh chúng ta có thể đối phó với những thử thách toàn cầu: nhằm bảo đảm thức ăn cho mọi người, cung cấp dịch vụ y tế, cung cấp năng lượng, điện, và bảo đảm người dân không bị thiêu rụi bởi sự ấm lên toàn cầu - tất cả nhờ vào việc sử dụng dữ liệu hiệu quả.

Vậy thì, vì sao Dữ liệu lớn lại quan trọng như vậy?
“Để trả lời câu hỏi này, hãy nghĩ về việc trao đổi thông tin trong lịch sử. Vào năm 1908, trên đảo Crete, các nhà khảo cổ học tìm thấy một chiếc đĩa bằng đất sét. Họ xác định niên đại của nó từ là 2000 năm trước Công nguyên, tức là 4000 tuổi. Có chữ khắc trên tấm đĩa, nhưng ta không hiểu nó có nghĩa gì. Hoàn toàn là một bí ẩn, nhưng vấn đề là thông tin đã từng được truyền đạt như thế 4000 năm trước. Đây là cách xã hội lưu trữ và truyền tải thông tin.

“Bây giờ, xã hội đã tiến bộ hơn. Chúng ta vẫn lưu trữ thông tin trên đĩa, nhưng giờ, có thể lưu trữ nhiều thông tin hơn trước kia. Tìm kiếm nó thì dễ hơn. Sao chép nó cũng dễ hơn. Chia sẻ cũng dễ hơn. Xử lý dễ hơn. Những gì ta có thể làm là sử dụng lại thông tin này vào việc mà thậm chí chưa bao giờ tưởng tượng ra khi mới bắt đầu thu thập dữ liệu. Về lĩnh vực này, dữ liệu đã đi từ một kho tích trữ về một dòng chảy, từ thứ bất động và cố định, trở nên linh hoạt và năng động. Có một sự lưu chuyển thông tin. Cái đĩa được tìm thấy ở Crete đã 4000 năm tuổi, rất nặng, nó không lưu trữ được nhiều thông tin, và số thông tin đó không thể thay đổi. Ngược lại, tất cả những hồ sơ mà Edward Snowden lấy từ Cục An ninh Quốc gia Hoa Kỳ chứa vừa trong một thẻ nhớ bằng kích thước của móng tay, và có thể được chia sẻ với tốc độ ánh sáng. Nhiều dữ liệu hơn, rất nhiều.

“Một lý do tại sao có quá nhiều dữ liệu trên thế giới hiện nay là vì chúng ta đang thu thập những thứ ta vẫn luôn thu thập, một lý do khác để giải thích việc chúng ta lấy những thứ đã luôn cung cấp thông tin nhưng chưa bao giờ được làm thành dạng dữ liệu và do đó, chúng ta bỏ những thứ đấy vào dữ liệu. Lấy ví dụ, nếu chúng ta muốn biết vào năm 1500 Martin Luther đang ở đâu, chúng ta sẽ phải theo dõi ông ấy mọi lúc mọi nơi, kèm theo một cây bút lông và một lọ mực để ghi chép lại. Nhưng bây giờ, bạn biết rằng ở một nơi nào đó, trong cơ sở dữ liệu của một hãng viễn thông có một tài liệu, hoặc ít nhất một mục cơ sở dữ liệu lưu trữ lại thông tin của bạn, những nơi bạn đã đến, tại mọi thời điểm. Nếu bạn có điện thoại di động, và chiếc điện thoại đó có GPS, nhưng ngay cả khi nó không có GPS, nó vẫn có thể lưu trữ thông tin của bạn. Trong khía cạnh này, việc định vị đã được dữ liệu hóa.

“Bây giờ, lấy ví dụ về tư thế tư thế mà các bạn đang ngồi. Mỗi người có một tư thế ngồi khác nhau, và đó là kết quả của chiều dài chân bạn, lưng bạn, và hình thể của bạn. Nếu bây giờ tôi đặt 100 thiết bị cảm biến vào ghế ngồi của các bạn, tôi có thể tạo ra một chỉ số tương đối độc nhất về bạn, tương tự như dấu vân tây, nhưng không phải là ngón tay của bạn.
“Vậy chúng ta có thể làm gì với nó? Các nhà nghiên cứu ở Tokyo đang dùng chỉ dấu này để tạo ra một thiết bị có tiềm năng chống trộm xe hơi. Ý tưởng là nếu tên trộm ngồi đằng sau tay lái và cố lái đi, chiếc xe sẽ nhận ra rằng đằng sau bánh lái là một tài xế không được xác nhận, và động cơ sẽ tự động dừng, trừ khi bạn nhập mật khẩu vào bảng điều khiển để cấp quyền lái xe.

“Nếu như mọi chiếc xe ở Châu Âu đều có công nghệ này thì sao? Chúng ta có thể làm gì lúc đó? Nếu chúng ta có thể tập hợp đủ dữ liệu, chúng ta có thể khám phá ra các dấu hiệu dự đoán rằng một tai nạn xe hơi sẽ xảy ra trong 5 giây tiếp theo. Và rồi những gì chúng ta sẽ dữ liệu hóa là sự mệt mỏi của tài xế, và khi chiếc xe cảm nhận được rằng người tài xế đang rơi vào tình trạng mệt mỏi, nó sẽ tự động mở báo động để làm rung bánh lái, và bóp kèn trong xe để thông báo rằng, "Này! Dậy đi, chú ý đường đi kia kìa!" Đây là những thứ mà chúng ta có thể làm khi, chúng ta dữ liệu hóa các khía cạnh trong cuộc sống của chúng ta nhiều hơn.”

Vậy thì giá trị của Dữ liệu lớn là gì? Hãy nghĩ mà xem. Bạn có nhiều thông tin hơn. Bạn có thể làm những việc mà bạn không thể làm trước đó.

Một trong những lĩnh vực mà Dữ liệu lớn có sức ảnh hưởng mạnh nhất là trong lĩnh vực máy học. Máy học là một nhánh của trí tuệ nhân tạo, mà bản thân nó là một nhánh của khoa học máy tính. Ý tưởng chung là thay vì phải hướng dẫn máy tính những gì phải làm, chúng ta sẽ chỉ nạp dữ liệu liên quan đến vấn đề và bảo máy tính tự tính toán. Để hiểu rõ hơn về vấn đề này, chúng ta hãy cùng nhìn lại nguồn gốc của nó.

Vào những năm 1950, một nhà khoa học máy tính của IBM tên Arthur Samuel rất thích chơi cờ. Ông ấy viết một chương trình chơi cờ trên máy tính. Ông ấy chơi. Ông ấy thắng. Ông ấy chơi. Ông ấy lại thắng, Vì máy tính chỉ biết đi theo luật, còn Arthur Samuel biết một số thứ khác. Arthur Samuel biết chiến lược. Và như thế, ông ấy viết thêm một chương trình con, hoạt động trên nền của chương trình chính, và những gì nó làm chỉ là ghi xác suất của bàn cờ cho sẵn có khả năng dẫn đến một ván thắng hoặc một vấn thua sau mỗi nước đi. Ông ấy chơi với máy tính. Ông ấy thắng. Ông ấy chơi với máy tính. Ông ấy lại thắng. Và rồi Arthur Samuel để máy tính tự chơi cờ với chính nó. Nó tự chơi cờ. Nó thu thập nhiều dữ liệu hơn. Nó tăng độ chính xác về khả năng dự đoạn. Và rồi Arthur Samuel trở lại chơi với máy tính, và ông ấy đã thua. Arthur Samuel đã tạo ra một cỗ máy vượt qua khả năng của ông ấy trong một việc mà chính ông ấy dạy nó.
Playing checkers on the 701
Playing checkers on the 701 Source: IBM
Ý tưởng này trong lĩnh vực máy học đang được ứng dụng ở khắp mọi nơi. Bạn nghĩ làm sao chúng ta có xe hơi tự hành? Xã hội chúng ta có tốt đẹp hơn không khi chúng ta nhập tất cả luật giao thông vào một phần mềm? Không. Bộ nhớ rẻ hơn? Không. Các thuật toán xử lý nhanh hơn? Không. Bộ vi xử lý tốt hơn? Không. Tất cả những điều này đều quan trọng, nhưng đó không phải là lý do. Đó là vì chúng ta đã thay đổi bản chất của vấn đề. Từ việc tìm cách để giải thích rõ ràng và dứt khoát cho máy tính hiểu rằng làm thế nào để lái xe, đến việc nói rằng, "Đây là dữ liệu xung quanh chiếc xe. Hãy tự xử lý dữ liệu này. Hãy tự suy luận ra rằng đó là đèn giao thông, rằng đèn giao thông đó đang là đèn đỏ, không phải đèn xanh, rằng điều đó có nghĩa là bạn phải dừng lại và không đi về phía trước."

"Tương tự như vậy, cỗ máy tìm kiếm do hai nhà đồng sáng lập Google là Larry Page và Sergey Brin phát triển năm 1998, sở dĩ trở thành công cụ tìm kiếm phổ biến nhất thế giới như hiện nay, không phải chỉ vì chúng có khả năng thu thập rất nhiều dữ liệu. Hơn cả quy mô dữ liệu thu thập, điều khiến Google khác biệt chính là những dữ liệu mà nó có thể thu thập được, và cách thức sử dụng chúng một cách hiệu quả cho các lĩnh vực như kinh doanh, nghiên cứu,….

Trước thời của Google, chẳng hạn khi bạn đánh cụm từ khóa tìm kiếm "Bill Clinton" trong một công cụ tìm kiếm, bạn sẽ chỉ thu được kết quả là những trang web xuất hiện cụm từ này nhiều hơn. Và thường thì bạn sẽ nhận được một số lượng lớn những kết quả không liên quan gì tới mong muốn tra cứu thông tin của mình. Thuật toán của hai nhà sáng lập Google, Brin và Page, hoạt động theo cách hoàn toàn khác. Họ nhận ra rằng, một trang web có khả năng liên quan tới một ai đó nhiều hơn, nếu nó chứa nhiều đường dẫn tới các trang khác mà người dùng đã truy cập vào trước đó. Theo đó, trang web Tòa Bạch ốc chính thức của Bill Clinton, vốn là đích đến của hàng ngàn đường dẫn khác nhau, sẽ là là trang hữu dụng hơn so với một trang web gồm 100 đường dẫn, mặc dù trang web đó có thể đề cập tới tên của Bill Clinton nhiều hơn.

Các nhà sáng lập Google đã tập hợp dữ liệu về các đường dẫn này, và từ đấy, họ có thể nhận ra những mô thức quen thuộc và dự đoán được loại thông tin nào liên quan nhất tới người dùng. Cách tiếp cận của Google là một ví dụ rõ ràng nhất giải thích cho lý do vì sao Dữ liệu lớn lại quyền lực đến vậy: dữ liệu lớn hoàn toàn mới mẻ. Nó cung cấp cho chúng ta luồng thông tin mới liên tục.

Trước thời đại của Dữ liệu lớn, bạn sẽ phải chờ Tổng cục thống kê lao động thu thập và tính toán tỉ lệ thất nghiệp thông qua các cuộc điều tra qua điện thoại, hoặc chờ một phúc trình của Trung tâm kiểm soát và phòng chống dịch bệnh để biết tỉ lệ lây nhiễm của một loại bệnh tật nào đó.Nhưng nay, bạn hoàn toàn có khả năng sử dụng Dữ liệu lớn của Google để theo dõi cả hai vấn đề này, và đó chính là những gì mà kỹ sư Jeremy Ginsber của Google đã làm. Ông Jeremy Ginsber đã chứng tỏ rằng các cú pháp tìm kiếm trên Google liên quan tới bệnh cúm, chẳng hạn cụm từ "flu symtoms" là dấu hiệu cho thấy sự lây lan của dịch cúm, và có thể được dùng để theo dõi sự lây lan của căn bệnh theo các khu vực địa lý khác nhau và theo thời gian."

Gần đây các cử nhân đại học Maryland đã tham gia một cuộc khảo sát về điểm trung bình GPA. Trong số những người tham gia khảo sát, 2% thừa nhận họ tốt nghiệp với điểm GPA thấp hơn 2,5 trên 4. Tuy nhiên theo các hồ sơ chính thức, tỉ lệ này cao hơn nhiều, ở mức 11%. Mặc dù đây chỉ là một ví dụ, nhưng nó cũng chứng tỏ một sự thật mang tính phổ quát thường xảy ra trong các cuộc khảo sát: đó là mọi người thường nói dối.

Theo một lẽ rất tự nhiên, chúng ta thường muốn mình là người tốt đẹp, cả với chính mình và trong đánh giá của người khác. Do đó chúng ta thường tự điều chỉnh các câu trả lời, nhằm phô diễn một góc nhìn tích cực hơn về bản thân.
Tuy nhiên điều này cũng đưa chúng ta tới một lý do thứ hai cho thấy vì sao dữ liệu lớn lại quyền lực như vậy: Nó không nói dối. Vì là dữ liệu được thu thập thông qua các hành vi ứng xử không qua "cơ chế lọc" nào, Dữ liệu lớn luôn tiết lộ sự thật. Thêm nữa, người ta cũng ít có xu hướng nói dối hay "bóp méo" kết quả khi nhập các từ khóa tìm kiếm, khi mà không có câu hỏi nào được đặt ra cho họ.


Thêm thông tin và cập nhật Like   

Nghe SBS Radio bằng tiếng Việt mỗi tối lúc 7pm tại 


Share