tháng 3 năm 2023 OpenAI mới tiên phong đầu tư 23 triệu đôla vào một công ty rôbôt hình người trụ sở Nauy tên là 1X Technologies - không liên quan đến công ty cáp cùng tên trụ sở ở Sheridan tiểu bang Wyoming - tên cũ là Halodi
ban đầu, một trong những mục tiêu sản phẩm của OpenAI là một rôbôt gia đình có khả năng chuẩn bị và dọn dẹp bàn ăn: sản phẩm đã bị khuất bóng bởi ChatGPT
Định nghĩa rôbôt hình người
đặc điểm chung là những rôbôt này cần di chuyển loanh quanh, biểu diễn một loạt những nhiệm vụ: chạm vào người khác và thao túng công cụ được chế tạo cho người dùng
rôbôt cũng cần có khả năng tự hành trong những môi trường con người, cũng như giao tiếp với người ta ở mức tiên tiến: tránh bị những bà mẹ quát mắng đứa con không chịu rửa bát
do đó, những yêu cầu thiết kế này đã bắt buộc một mẫu rôbôt giống người có một thân mình [torso], đầu, hai chân và hai tay: cánh tay cần có bàn tay nhiều ngón, hai chân thay vì bốn chân là để tiết kiệm năng lượng và chi phí
những cơ sở công nghệ của rôbôt hình người là trong những rôbôt công nghiệp: nhưng cũng có những khác biệt lớn - phần lớn rôbôt công nghiệp được cắm xuống mặt đất và phát triển để thực hiện một nhiệm vụ cụ thể
rôbôt công nghiệp đồ sộ và nhanh: không thích hợp để thường xuyên tương tác với người thường
từ xưa, Leonardo Da Vinci đã phác hoạ máy tự động hình người: trước khi thuật ngữ "rôbôt" được sinh ra
thập niên 1950 Osamu Tezuka sáng tác manga Astroboy kể về tiến sĩ Tenma thực hiện một dự án để tạo ra thay thế cho đứa con trai chết vì tai nạn xe hơi
Điểm tức thời số không / zero moment point
năm 1968 ý tưởng ổn định "điểm tức thời số không" ra mắt bởi nhà khoa học Miomir Vukobratovic: lý thuyết đã nhắc đến những tương tác [dynamic] và điều khiển của những rôbôt có chân [legged] với những mối [joint] chạy bằng điện và có thể điều khiển được
rôbôt công nghiệp thường được bắt vít xuống mặt đất: sử dụng một điểm neo cố định - nhưng lòng bàn chân của rôbôt hình người thì không cố định mà chỉ chạm đất định kỳ, cụ thể khi đi bộ thì bàn chân chỉ cùng lúc chạm đất 20% số thời gian
phần lớn thời gian thì cơ thể chỉ được nâng trên một bàn chân duy nhất: rôbôt phải quyết định xem liệu một động tác chân cụ thể nào sẽ cho phép nó giữ cân bằng - điểm tức thời số không là biểu diễn điểm trên mặt đất khi mà chân của rôbôt có thể ổn định
tính toán vị trí của điểm tức thời số không và đảm bảo nó được đặt ở bàn chân của rôbôt là một phần quan trọng của hệ thống: các nghiên cứu sinh đã phát triển những thuật toán điều khiển - phổ biến nhất là ước tính chuyển động đi bộ như một con lắc ngược
Wabot
một nhóm ở trường đại học Waseda dẫn dắt bởi tiến sĩ Ichiro Kato đã bắt đầu nghiên cứu rôbôt hình người dựa theo công trình trước đó cho phát triển thiết bị nhân tạo chủ động
năm 1973 nhóm ra mắt rôbôt Wabot-1 đi bằng 2 chân, chạm và nắm giữ đồ vật, và có thể giao tiếp bằng tiếng Nhật Bản
nhóm đã đánh giá rằng Wabot 1 có sức mạnh tâm thần của đứa trẻ 1 tuổi rưỡi
năm 1984 nhóm ra mắt WL 10RD là rôbôt đi được bằng 2 chân linh hoạt đầu tiên: là biểu diễn thực tế cho tính khả thi của ý tưởng 'điểm di chuyển số không' [điểm tức thời số không]
Wabot 2 có thể đọc nhạc và chơi đàn organ điện tử như đứa trẻ châu Á: chuyển động được điều khiển bởi 80 vi xử lý và được sản xuất cơ học, sử dụng dây dẫn
Honda và P2
năm 1986 tập đoàn xe Honda bắt đầu chương trình nghiên cứu rôbôt hình người để tìm hiểu những cách mới cho di chuyển ở động vật [locomotion]: ý định là sau rốt sẽ làm được một rôbôt đủ phức tạp và hữu dụng để giúp làm một đối tác làm việc hoặc người hầu
Honda bắt đầu với một mẫu đi hai chân: sử dụng những bộ cơ cấu chấp hành [actuator] tuyến tính - như những cơ bắp nhân tạo - để đặt một chân lên trước chân kia
rôbôt đầu tiên là E0 đi bộ rất chậm: mất 5-30 giây giữa các bước và chỉ đi thẳng
10 năm sau Honda ra mắt P2 là rôbôt hoàn chỉnh tự hành có thể chạy quanh những bề mặt phẳng và leo thang
công trình của Honda từ đó đã tiến bộ thành dự án rôbôt hình người được chính phủ tài trợ với mục tiêu sau rốt sẽ sản xuất những rôbôt trợ giúp trong nhà thông dụng
Honda phát triển những rôbôt đã có thể thực hiện nhiều động tác cá nhân như nhổm dậy, lách xuyên qua những không gian hẹp trong tường
Cân bằng và di chuyển
rôbôt hình người có thể đi bằng 2 chân nhưng nhiều sản phẩm chưa sẵn sàng đi ra khỏi phòng thí nghiệm vì đặc điểm tức thời số không của những máy này: có nhiều đặc tính dễ nhận ra - một là khi rôbôt đi bộ và một chân đang ở trên không, chân kia phải luôn tiếp xúc hoàn toàn với mặt đất
khiến rôbôt nhìn như kiểu những bước nặng nề bàn chân bẹt: người ta đã nghiên cứu nhiều dự án về cách người thực đi bộ - để làm ý tưởng cho rôbôt - nhưng cơ thể người rất linh hoạt, có thể đến 300 tư thế tự do [degree of freedom] mà đi bộ chỉ sử dụng 20
do đó, các nhà khoa học thường đơn giản hoá: đông cứng và kiểm soát cứng nhắc những mối khớp [joint] nhất định - khiến động tác đi bộ hoặc di chuyển nhìn không tự nhiên
cho nên phần lớn những rôbôt này làm được những thứ như đi bộ quỳ gối với thân mình cứng ngắc: giúp tư thế được ổn định và dễ tính toán hơn - nhưng mệt mỏi, cho cả rôbôt và con người
phần lý do tại sao "mệt mỏi" là vì thiếu "khoảnh khắc ngón chân được nhấc lên" [toe off] khi ngón chân cái đẩy xuống mặt đất và khối lượng cơ thể được đẩy về phía trước: một chức năng tiết kiệm năng lượng - giúp lưu trữ năng lượng trong cẳng chân
đi bộ quỳ gối cũng khiến rôbôt khó dẹp vật cản hơn: trước đây rôbôt đi bộ không thể xử lý những vật cản bất ngờ hơn 6% chiều dài cẳng chân của nó [rôbôt] tức là thấp hơn lề đường - phần vì có rất ít khoảng hở [clearance]
rồi vấn đề tính toán toạ độ mới khi xử lý những vật cản bất ngờ trong khi hoạt động [on the fly]
đã có những kết quả khả quan nhờ sử dụng AI : năm 2018 một nhóm người Pháp trình diễn HPR-4 có thể trèo bậc thang bình thường có kích cỡ đa dạng mà không cần sử dụng dây [tether]
cũng năm 2018 một nhóm người Mỹ đã dạy một nền tảng rôbôt Boston Dynamics là Atlas cách đi bộ theo một phương cách thẳng chân
thú vị là: phong cách đi bộ thẳng chân, cũng như động tác nhấc ngón chân [toe off] đều phát sinh tự nhiên sau khi thiên kiến cho bộ điều khiển của cơ thể rôbôt duỗi thẳng các cẳng chân hết sức có thể
rồi những thử nghiệm có thể sản xuất được tốc độ chạy hai chân nhanh hơn bằng cách nghiên cứu chim: ví dụ rôbôt Cassie của hãng Agility Robotics chạy 100 mét dưới 25 giây
rôbôt chim chạy rất nhanh và định vị tốt hơn những địa hình bất ổn: chim có thể coi là con cháu của khủng long - rôbôt chạy như chim sẽ ảnh hưởng cách con người có thể tương tác
Thao túng
thao túng vật thể là một trong những vấn đề lớn của rôbôt học [robotic]
nhớ lại mục tiêu của OpenAI là rôbôt có thể chuẩn bị và dọn dẹp bàn ăn: nhặt đĩa bẩn lên khỏi bàn và đặt đĩa ấy vào một chậu rửa - những động tác ngón tay và bàn tay
tay sẽ tiến đến cái đĩa: lựa chọn một quỹ đạo tối ưu để tiếp cận đĩa - ngón tay sẽ nhẹ nhàng trượt theo cạnh đĩa và luồn xuống dưới đáy đĩa, sau đó đẩy bàn tay và các ngón tay về phía trước đủ để có một nắm [grip] lên phần đáy đĩa để thao túng đĩa, làm nghiêng đĩa và nâng lên
khó khăn này là một ví dụ của nghịch lý Moravec: quan sát thấy rằng những thứ nhất định mà con người làm dễ dàng theo bản năng - dọn bàn - thì hoá ra rất khó cho rôbôt
Chạm nhẹ
hành động này và những động tác tương tự không chỉ cần hiệu chuẩn tâm lý lớn mà còn cần một động tác chạm nhẹ: rất khó cho cơ bắp rôbôt thực hiện - cư xử nhẹ nhàng sẽ cần phản hồi chính xác và vững tay được điều khiển
máy móc thì mạnh, cứng và công suất lớn nhưng không giỏi nhẹ nhàng và ghì chặt: công nghệ có tên là cơ cấu chấp hành nhẹ nhàng [soft actuator] vẫn đang được phát triển - cần chuyên gia trong các mảng như vật liệu, thiết kế cấu trúc và chế tạo kim loại [fab]
động tác cũng cần nặng [intense] sức mạnh điện toán vì tay rôbôt được bao phủ trong một vật liệu mềm sẽ di chuyển và bẻ cong: thường là silic nhưng vật liệu khác cũng có - những chiều không gian của hệ thống là không giới hạn
tính toán tất cả những khả năng là nhiệm vụ bất khả thi: kể cả không đếm những quỹ đạo không đếm được [uncountable] một bàn tay có thể làm được một động tác nhất định theo một cách nhất định - nên nghiên cứu sinh đã giả thiết những điều kiện cơ thể cứng ngắc, thay vì mềm, giả thiết như thế có thể dẫn đến lỗi
cảm biến cũng là nhân tố giới hạn lớn trong nghiên cứu cơ cấu chấp hành mềm mại: các nhà khoa học cần nhiều cảm biến và phản hồi - cho nên những bộ cảm biến phải rẻ và dễ sản xuất
những thử nghiệm đã sử dụng những bộ cảm biến làm từ kim loại lỏng được nhúng [embed] những đất hiếm, sợi quang... để cố gắng cân bằng giữa giá thành và độ nhạy - không dễ
thử thách nữa cho cơ cấu chấp hành mềm mại là điện năng, khả năng sản xuất [manufacturability] và tiếng ồn: cơ cấu chấp hành mềm mại phổ biến nhất là sử dụng không khí - khí nén [pneumatic] - ngốn nhiều điện năng, ồn ào và những hệ thống hỗ trợ bị rung chấn mạnh như máy bơm
Làm hết
một cánh tay rôbôt công nghiệp đã nhặt được đĩa và bỏ vào chậu một cách thành thạo mặc dù có thể không nhẹ nhàng: vừa đủ yêu cầu
rôbôt hình người sẽ phải mang chậu đĩa bên trong về đến bồn rửa, và sau đó mang chậu chứa đĩa đã rửa sạch về lại bàn ăn: chuẩn bị đĩa lên bàn theo đúng trình tự - linh hoạt với những địa điểm và điều kiện bất ổn
gần đây Facebook công bố nghiên cứu trí thông minh nhân tạo cho vấn đề này: là bộ phối hợp kỹ năng thích ứng [adaptive skill coordination] sẽ chuỗi vào nhau những kỹ năng cá nhân "cấp thấp" - như nhặt đồ
quan trọng nữa là adaptive skill coordination sẽ giúp rôbôt nhìn lại và tự sửa hành vi khi làm sai: người ta đã dùng để huấn luyện một rôbôt 4 chân của Boston Dynamics nhặt và đặt đồ vật giữa 2 căn hộ - vượt qua nhiều bất ổn và tình huống khó
Mô phỏng
một cách để sản xuất dữ liệu để tăng hiệu quả của huấn luyện trí thông minh nhân tạo là mô phỏng: như lấy ảnh trò chơi điện tử để huấn luyện xe tự hành - rôbôt hình người cũng thế
một cuộc thi mô phỏng có tên là mô phỏng đá bóng 3 chiều [3D soccer similation] giải Robocup sử dụng rôbôt hình người Nao: mục tiêu sản xuất dữ liệu cho các nhóm để tạo ra những hành vi "cấp thấp" như đi bộ, đứng lên và xoay người
ví dụ tạo ra động tác đá bóng: kết quả những cú đá khá đẹp
Giao tiếp
những mô hình ngôn ngữ lớn [LLM - large language model] đã cách mạng hoá các thứ: với mảng rôbôt thì sao?
ứng dụng chưa hiển hiện rõ vì mới huấn luyện trên văn bản, không có cơ thể để cảm nhận xung quanh hay thực hiện động tác vật lý
không nhận thức được văn cảnh vật lý sẽ có thể dẫn đến những câu trả lời kỳ cục: ta cần đưa cho mô hình một số văn cảnh - dễ nhất là kỹ thuật tích cực gợi ý [intense prompt] đưa cho mô hình ngôn ngữ lớn tất cả những văn cảnh - nhưng ấy không phải cách con người giao tiếp
một công trình của Google đã huấn luyện một mô hình ngôn ngữ về vấn đề những kỹ năng "cấp thấp": cơ thể đến bộ não
nhưng cách hữu ích nhất để sử dụng một ChatGPT cho mục đích rôbôt sẽ là Microsoft sử dụng LLM để phiên dịch những giao tiếp thông thường sang cái mà một máy móc có thể hiểu: như mã nguồn hoặc một đầu xuất [output] giao diện lập trình ứng dụng [API application program interface]
Kết
rôbôt hình người thì nhiều độ tự do [degree of freedom] hơn xe tự hành: tương tác con người thì thân mật hơn - và với xe thì ít nhất ta biết được hình thù vật lý của máy như thế nào
rồi bài toán kinh tế: chưa nói đến giá thành và khả năng sản xuất - nhiều quan tâm đầu tư, nhưng sự kiện gọi vốn cho những công ty rôbôt hình người như Apptronik, Agility, 1X và Sanctuary
một số máy sẽ bắt đầu tích kho
những phương pháp trí thông minh nhân tạo mới có thể sẽ tăng tốc tiến trình trong mảng rôbôt hình người
Không có nhận xét nào:
Đăng nhận xét