diary 21/10/2014: huấn luyện trí thông minh nhân tạo bằng hình ảnh chụp từ trò chơi điện tử

Học sâu
Mô hình học sâu cần được huấn luyện bằng dữ liệu.

một mạng lưới nơ ron nhân tạo (neural network):
Thu thập dữ liệu thô

Dán nhãn dữ liệu (dựa theo tham số của vấn đề)
Ví dụ: dán nhãn ngữ nghĩa cho các điểm ảnh: gán cho mỗi điểm ảnh một giá trị để cho trí thông minh nhân tạo có thể nhận biết cái gì trong hình ảnh tại một tầm nhìn điểm ảnh

Huấn luyện mô hình máy học bằng các bộ dữ liệu đã dán nhãn
Bạn xác nhận rằng các kết quả của mô hình sử dụng các bộ con của dữ liệu được hợp lại cho chạy thử. Việc này để tránh một hiện tượng được gọi là sự quá khớp – một mô hình thất bại khi một mô hình không thể tạo hoặc khớp khít với một bộ dữ liệu mới tinh

Triển khai mô hình vào thế giới thực
Trọng tâm của toàn bộ tiến trình này là dữ liệu. Thường thì dữ liệu lấy từ thế giới thực và cần rất nhiều.

Vấn đề dữ liệu
Nhiều người không thích ý tưởng dữ liệu cá nhân bị thu thập, chia sẻ hay sử dụng – đặc biệt ngoài ý muốn. Rồi những ứng dụng trí thông minh nhân tạo trong những lĩnh vực nhạy cảm

Ví dụ: những công ty huấn luyện các mô hình học máy để nhận dạng các ca ung thư da. Nhưng ấy nghĩa là phải lấy những hình ảnh thực của da các bệnh nhân đặt vào mô hình.

Ví dụ nữa: lĩnh vực tài chính. Các công ty dịch vụ tài chính muốn những mô hình hiệu quả hơn nhưng dữ liệu tài chính – các ứng dụng cho vay, nhật ký dịch vụ khách hàng, dữ liệu giao dịch – là những cái nhạy cảm nhất.

Do đó các nghiên cứu sinh đang ngả về hướng tạo ra và sử dụng dữ liệu nhân tạo (synthetic). Mới đầu chỉ đơn giản thêm thắt, chỉnh sửa nhẹ hoặc tái kết hợp với dữ liệu thực để cải thiện hiệu năng. Nhưng đã nhanh chóng trở thành một cách để lấy dữ liệu họ có thể cần mà không cần chi quá nhiều tiền mua hoặc vi phạm riêng tư cá nhân.

Một ví dụ điển hình nhất là kỳ thủ nhân tạo AlphaZero, con AI tiền nhiệm AlphaGo chủ yếu được huấn luyện bằng các trận cờ vây thực của các kỳ thủ chuyên nghiệp, nhưng AlphaZero thì tiến xa hơn khi tạo ra dữ liệu riêng bằng cách tự chơi với mình. Mô hình mô phỏng các trận cờ tự chơi để lấy dữ liệu để củng cố và cải thiện hiệu năng tương lai của chính nó.

Một ví dụ khác, các nghiên cứu sinh đã dùng các mạng lưới đối nghịch tạo sinh generative adversarial network – mạng được dùng để làm các bức ảnh nhìn như tác phẩm của Van Gogh – để tạo ra các bức ảnh giống thật các vết tổn thương da ung thư.

Cho nên, mặc dù ý tưởng thoạt nghe kỳ cục, huấn luyện các mô hình máy học bằng dữ liệu nhân tạo đã trở thành một thực tiễn, nhìn chung, chấp nhận được. Do đó, không ngạc nhiên, các nghiên cứu sinh đã tìm cách áp dụng vào một trong những công việc khó nhất trong ngành: ôtô tự hành.

Xe tự hành có tiềm năng lớn trong thế giới thực. Hầu hết các tai nạn xe gây ra bởi lỗi con người. Thay thế mọi tài xế con người xoàng xĩnh bằng một trí thông minh nhân tạo đã được tự động hoá có thể cứu được vô số mạng sống kèm theo những lợi ích môi trường và vận chuyển.

Con người đã mơ ước về lái xe tự động từ thập niên 1920.

Xe tự hành mặt đất trong một mạng nơ ron nhân tạo
Một trong những đột phá trong xe tự hành sử dụng mạng nơ ron nhân tạo là ALVINN viết tắt cho “xe tự hành mặt đất trong một mạng nơ ron nhân tạo”.

Giới thiệu năm 1989 ở trường đại học Carnegie Mellon, chiếc xe nhỏ đã lái một xe-cứu-thương-quân-đội-đã-tuỳ-chỉnh-lại làm vài vòng quanh trường.

Mạng lưới ALVINN nhận hai loại dữ liệu: một đoạn phim cỡ 30*32 quay đường và hình ảnh cỡ 8*32 tìm đường.

Để huấn luyện hệ thống cho chuẩn, đội ALVINN cần hình ảnh đường trong nhiều điều kiện khác nhau. Để khắc phục thử thách liên tục tìm được đủ hình ảnh đường thực tế, đội đã tự tạo ra những hình ảnh nhân tạo.

Lưu ý: mạng ALVINN chỉ có 3 tầng (layer) so với như mạng GPT-3 của công ty OpenAI nghe bảo có 96

Thế giới thực
Các hệ thống tự lái ngày nay có những khả năng huy hoàng. Lấy ví dụ, một con robot KUKA có thể tự mang một gói hàng đến một vị trí nhất định với độ chuẩn xác tầm milimet.

Nhưng những bộ định vị robot tự hành này thực hiện việc định vị trong những môi trường khép kín khá an toàn, tài xế lái xe ở thế giới ngoài tuỳ cơ ứng biến mỗi 400 mét một và một con trí thông minh nhân tạo tự hành cần có một tầm nhìn máy tính để quay phim và nhận biết mọi thứ và báo động cho tài xế con người. Nhưng điều này cần truy cập vào nhiều dữ liệu đã được dán nhãn, trước đây là một người thực phải nhìn vào cảnh vật của môi trường thực và vẽ đường cho con trí thông minh nhân tạo “hấp thụ” kiến thức ấy.

Có một số bộ dữ liệu công cộng đã thực hiện. Ví dụ Cityscapes cung cấp lên đến 5000 hình ảnh có chú giải của đường phố thực ở Đức, con số chưa thấm tháp gì cho máy học và đắt đỏ nếu muốn kiếm nhiều hơn

Do đó, nghiên cứu sinh đã quay qua lựa chọn trò chơi điện tử và phần mềm làm game để tạo thêm.

Huấn luyện với Cướp đường phố 5
Ngành công nghiệp trò chơi điện tử chi hàng trăm nghìn đôla tạo những trò chơi mang đồ hoạ ăn ảnh thực tế và những tình huống mô phỏng gần giống với vật lý thế giới thực.

Các nghiên cứu sinh có thể tiến xa công việc của mình bằng cách nhanh chóng và rẻ, tạo ra hình ảnh mong muốn được dán nhãn cho việc huấn luyện.

Cướp đường phố 5 là trò chơi điện tử ra mắt năm 2013 bán chạy thứ nhì mọi thời đại, nổi tiếng với môi trường và những tình huống lái xe chân thực.

Không lâu sau khi trò chơi ra mắt, nghiên cứu sinh bắt đầu hack trò chơi để tạo dữ liệu nhân tạo cho các con trí thông minh nhân tạo tự lái. Họ dùng hai ứng dụng mở rộng chức năng mã nguồn mở để chụp các bức ảnh từ một cảnh cụ thể trong game.

Chưa hết, các ứng dụng cho phép họ thu thập thông tin phụ trợ cho cảnh, ví dụ: những cú nhảy điểm ảnh của một ví trí của vật thể trong cảnh, như một xe ô tô hoặc một biển báo dừng hay gì đó.

Bằng cách này, nghiên cứu sinh đã có thể tạo hàng vạn hình ảnh cảnh đường như thật dưới nhiều điều kiện khác nhau: mưa, sương mù, overcast (sương phủ 95%), quang mây... giúp con tài xế AI xử lý chính xác nếu nó gặp phải những tình huống như thế ngoài đời thật.

Báo cáo mới đầu lưu ý rằng những mô hình được huấn luyện qua Cướp đường phố của họ, thực tế hiệu năng tốt hơn những mô hình huấn luyện bằng hình ảnh thế giới thực, vì số dữ liệu vượt trội hơn nhiều.

Thiếu sót
Câu chuyện hay ho nghiên cứu sinh dùng phần mềm ảnh game để huấn luyện trí thông minh nhân tạo xe tự lái, nhưng thực tiễn thì Cướp đường phố 5 mục đích là trò chơi điện tử, đã dẫn đến những khác biệt và bất tiện trọng yếu

Trước hết, trò chơi phải chạy trên một máy tính tương đối yếu làm giới hạn khả năng của nó. Mới đầu Cướp đường phố 5 chạy trên PS3 và Xbox 360 đã lỗi thời cả chục năm.

Thứ hai, cần hack vào game để dùng những đoạn mã kịch bản để thu thập dữ liệu từ nó, những đoạn mã không được người làm game hỗ trợ và có thể thỉnh thoảng trục trặc.

Thứ ba, thành phố Los Santos trong Cướp đường phố 5 lấy bối cảnh Los Angeles là một môi trường đô thị. Ngoại ô không hiện diện nhiều trong game.
Cuối cùng, trò chơi làm cho vui chứ không có ý muốn chính xác về vật lý, và để vui thì thỉnh thoảng nó phá vỡ những định luật vật lý.

Các nghiên cứu sinh đã tìm những môi trường ảo để lấy những hình ảnh mô phỏng ảnh chụp mà cũng nắm được hoàn toàn quyền kiểm soát các vật thể, mức mở rộng và rất dễ sử dụng.

Chương trình Omniverse replicator
Công ty Nvidia cho ra mắt công cụ Omniverse Replicator tháng 11 năm 2021 làm một phần sáng kiến của nền tảng Omniverse, công ty miêu tả là một nền tảng để mô phỏng ảnh chụp.

Có hai triển khai:
Drive Sim huấn luyện những con tài xế AI ngoài trời

Isaac Sim cho robot.

Mục tiêu là cho phép các nhà phát triển tạo những dữ liệu nhân tạo, mà nếu không có sẽ quá khó để thu thập trong thế giới thực.

ứng dụng được xây dựng dựa trên nền tảng phần mềm mới đầu do Pixar phát triển là Universal Scene Description miêu tả toàn cảnh USD là một ngôn ngữ chung được dùng để vẽ cảnh (kết xuất đồ hoạ) 3D – giống như ngôn ngữ đánh dấu siêu văn bản HTML dùng để kết xuất đồ hoạ các trang web

có thể nói Omniverse Replicator giống trò chơi điện tử, có phần mềm vật lý với những hiệu ứng ánh sáng chính xác... vẽ một thế giới mà trong đó ta có thể nhìn và tương tác với các thứ

nhưng nó không phải trò chơi điện tử. Nó là một hệ thống mô phỏng thời gian thực, với mục đích mô phỏng chuẩn vật lý với thế giới thực.

Huấn luyện một robot
công ty Nvidia đã xuất bản một công trình nghiên cứu về một tình huống mà công ty Boston Dynamics đã gặp, đối mặt với những thử thách triển khai robot công nghiệp mới. Trí thông minh nhân tạo của những con robot phải được tinh chỉnh để xử lý những môi trường trong nhà xa lạ.

một cách làm là điều một đội nhiếp ảnh gia về khu vực triển khai để chụp ảnh toàn bộ môi trường. Nhưng làm thế thì đắt đỏ, mạo hiểm và cần nhiều lên kế hoạch trước.

cho nên họ nghĩ đến tạo những bức ảnh bằng lập trình.

Đội đã nhập cho chương trình Isaac Sim của Omniverse một đống mô hình CAD 3D của nhiều môi trường trong nhà, như toà nhà văn phòng hay nhà máy. Từ đó họ có thể tạo những hình ảnh để huấn luyện, hoàn thiện bằng các điểm hộp, chiều sâu...

Điểm chính là khả năng thay đổi các điều kiện của môi trường trong nhà. Một con AI phải phản ứng với một loạt những tham số hình ảnh: quy mô, góc nhìn, màu sắc, ánh sáng... tất cả đều có thể làm được với ứng dụng công cụ tuỳ chỉnh này.

USD khá mạnh trong khía cạnh này, cho phép tuỳ chỉnh nhiều thuộc tính của những vật thể trong cảnh, có thể biến thể dữ liệu, ngẫu nhiên hoá nó...

Phần mềm ứng dụng phức tạp như thế không còn khả thi nếu cá nhân hay thậm chí một đội phát triển nhỏ làm được. Nvidia ra mắt một công cụ khá hữu ích, là vì vậy

đương nhiên Nvidia tích cực, miễn là có thể hét giá nhiều nghìn đôla cho mấy chiếc A100 thẻ đồ hoạ Tensor Core của họ

Các chương trình mô phỏng
dùng các phần mềm mô phỏng ảnh chụp để tạo các hình ảnh huấn luyện, cũng hay ho, nhưng những con AI tự lái cần hơn nữa để nhận biết cảnh vật chúng quay được.

ví dụ: chúng phải theo dấu và tiên đoán nơi các thứ sẽ ở để điều chỉnh tay lái phù hợp, vậy nên cần một thế giới mô phỏng và đã có một số thế giới như thế được xây dựng nên cho mục đích sử dụng ấy.

trước tiên là TORCS chương trình mô phỏng đua xe mở Open Racing Car Simulator mới đầu là một trò chơi trên hệ điều hành Linux cuối thập niên 1990 nhưng đã trở thành một thế giới mô phỏng nổi tiếng cho các tài xế AI.

TORCS khá ấn tượng nhưng thiếu người đi bộ, nút giao cắt và những đặc điểm nữa của lái xe thành thị.

giống Cướp đường phố 5 thì TORCS cũng xuất phát điểm là trò chơi điện tử và do đó mang tất cả các thiếu sót đề cập bên trên.

phần mềm CARLA – Car learning to act - đã nhận nhiều chú ý từ khi ra mắt năm 2017, là chương trình mô phỏng lái xe thành thị miễn phí và mã nguồn mở, được công ty Epic Games xây dựng dựa trên Unreal Engine 4

CARLA là hậu duệ tinh thần của bộ dữ liệu SYNTHIA cung cấp hàng nghìn khung cảnh có dán nhãn để huấn luyện trí thông minh nhân tạo tự lái. Nhưng SYNTHIA thì được tạo bởi một phần mềm mã nguồn đóng còn giấy phép bản quyền của CARLA, mặt khác, cho phép chia sẻ với công chúng

CARLA cho phép đặt các tài xế AI vào những tình huống quá nguy hiểm để có thể mô phỏng trong đời thực, ví dụ một đứa trẻ chạy băng qua đầu ô tô.

nghiên cứu sinh có thể đính kèm những tài xế trí thông minh nhân tạo – và tất cả những cảm biến của chúng LIDAR, GPS, máy quay phim RGB... – vào ngay CARLA để AI có thể phản ứng với nhiều tình huống như với thế giới thực.

Những môi trường mô phỏng ngoài trời như CARLA cũng có ứng dụng thực tiễn để huấn luyện trí thông minh nhân tạo cho máy bay tự hành. Drone không người lái có thể dùng chương trình mô phỏng để huấn luyện các tình huống tìm và giải cứu, và quân đội nữa.

Kết Một lần trả lời phỏng vấn của IEEE viện kỹ sư điện và điện tử, Rev Lebaredian phó chủ tịch mảng công nghệ mô phỏng của Nvidia nói: “chúng tôi tin rằng nếu bạn có thể mô phỏng thế giới thực đủ tốt, thì bạn giành được siêu quyền lực.”

Ta có thể nghĩ đến khả năng khi chương trình mô phỏng thế giới đủ mạnh để mô phỏng toàn bộ các viễn cảnh tương lai và nhờ đó thực hiện tối ưu hoá thao tác đối phó cho robot

diary 21/10/2014

Thứ Bảy, 20 tháng 5, 2023

huấn luyện trí thông minh nhân tạo bằng hình ảnh chụp từ trò chơi điện tử

Không có nhận xét nào:

Đăng nhận xét