Tầm nhìn 3D là một lĩnh vực đa ngành liên quan đến đồ họa máy tính, thị giác máy tính và trí tuệ nhân tạo. Nó nhằm mục đích cho phép máy móc hiểu và xử lý thông tin trong không gian ba chiều-, đạt được nhận thức, nhận dạng và hiểu biết sâu sắc về các vật thể và cảnh.
Nhiệm vụ chính
Tái tạo 3D
Ước tính độ sâu của cảnh 3D hoặc lấy mẫu kỹ thuật số của bề mặt vật thể, cũng như xử lý và hiển thị dữ liệu 3D; tái tạo bằng một mắt, tái tạo hai mắt, tái tạo dựa trên ánh sáng có cấu trúc-, tái tạo dựa trên tia laser-; tái tạo 3D quy mô lớn, tái tạo 3D trên thiết bị di động.
Ước tính tư thế
Tính toán vị trí và hướng của máy ảnh hoặc vật thể trong không gian vật lý ba chiều và theo dõi thời gian thực.
Hiểu biết 3D
Phát hiện, nhận dạng và truy xuất đối tượng cũng như phân đoạn và gắn nhãn ngữ nghĩa của cảnh hoặc đối tượng.
Nguyên tắc làm việc
Hình ảnh thị giác 3D là một trong những phương pháp quan trọng nhất để nhận biết thông tin trong robot công nghiệp và có thể được chia thành các phương pháp hình ảnh quang học và không{1}}quang học. Hiện nay, phương pháp quang học được sử dụng rộng rãi nhất.
Phương thức thời gian-của-chuyến bay (TOF)
Phương pháp này tính toán khoảng cách đến một vật thể bằng cách đo chênh lệch thời gian giữa phát xạ và thu ánh sáng. Lấy camera TOF làm ví dụ, mỗi pixel sử dụng chênh lệch thời gian của chuyến bay ánh sáng để thu được độ sâu của vật thể. Trong các phương pháp đo cổ điển, hệ thống máy dò bắt đầu tính thời gian khi phát ra xung ánh sáng, lưu trữ-thời gian khứ hồi khi nhận được tiếng vang ánh sáng mục tiêu và ước tính khoảng cách mục tiêu theo một công thức.
Nó được chia thành TOF trực tiếp (DTOF) và TOF gián tiếp (I-TOF). DTOF thường được sử dụng trong các hệ thống đo phạm vi-điểm đơn lẻ và để đạt được hình ảnh 3D trên toàn khu vực-thường yêu cầu công nghệ quét; I-TOF gián tiếp ngoại suy thời gian của chuyến đi khứ hồi từ các phép đo cường độ ánh sáng-có giới hạn thời gian, loại bỏ nhu cầu về thời gian chính xác và hiện là giải pháp thương mại hóa cho bộ trộn điện tử và quang học dựa trên camera TOF. Hình ảnh TOF có thể được sử dụng cho trường nhìn rộng, khoảng cách-dài, độ chính xác-thấp và{10}}chi phí thấp để thu thập hình ảnh 3D, đồng thời được sử dụng để nhận biết môi trường trong các hệ thống không người lái thông minh (chẳng hạn như rô-bốt, phương tiện không người lái, máy bay không người lái, v.v.).
Hình ảnh 3D chiếu ánh sáng có cấu trúc
Hình ảnh 3D chiếu ánh sáng có cấu trúc hiện là phương pháp chính để nhận biết tầm nhìn 3D ở robot. Máy chiếu chiếu một mẫu chiếu sáng có cấu trúc cụ thể lên đối tượng mục tiêu, chẳng hạn như các mẫu sọc hoặc mã Xám và máy ảnh sẽ chụp hình ảnh được điều chỉnh bởi mục tiêu. Do bề mặt vật thể gợn sóng, cấu trúc ánh sáng trên bề mặt vật thể bị biến dạng. Bằng cách xử lý hình ảnh và sử dụng mô hình trực quan để so sánh các mẫu trước và sau khi biến dạng, đồng thời phân tích độ biến dạng của mẫu, có thể tính toán được thông tin tọa độ ba chiều của từng điểm trên bề mặt của đối tượng mục tiêu.
Trong các ứng dụng hệ thống mắt-tay robot, đối với các trường hợp không yêu cầu độ chính xác đo 3D cao (chẳng hạn như xếp hàng, dỡ hàng và nắm 3D), phương pháp chiếu các mẫu đốm ngẫu nhiên-giả để thu được thông tin 3D mục tiêu khá phổ biến. Phương pháp này thường được sử dụng trong kiểm tra công nghiệp và mô hình 3D và có thể nhanh chóng thu được dữ liệu 3D về bề mặt của vật thể. Một hệ thống hình ảnh ánh sáng có cấu trúc bao gồm một số máy chiếu và máy ảnh. Các dạng cấu trúc phổ biến bao gồm: máy chiếu đơn-máy ảnh đơn, máy chiếu đơn{11}}máy ảnh kép, máy chiếu đơn-nhiều máy ảnh, máy chiếu đơn-máy chiếu kép và máy chiếu đơn-nhiều máy chiếu.
Nguyên lý làm việc cơ bản của hình ảnh 3D chiếu ánh sáng có cấu trúc như sau: máy chiếu chiếu một kiểu chiếu sáng có cấu trúc cụ thể lên đối tượng mục tiêu, máy ảnh chụp hình ảnh được điều chế bởi mục tiêu và sau đó thu được thông tin 3D của đối tượng mục tiêu thông qua xử lý hình ảnh và mô hình trực quan. Các loại máy chiếu phổ biến bao gồm: màn hình tinh thể lỏng (LCD), trình chiếu điều chế ánh sáng kỹ thuật số (DLP: chẳng hạn như thiết bị micromirror kỹ thuật số (DMD)) và trình chiếu trực tiếp mô hình đèn LED bằng laser.
Dựa trên số lượng phép chiếu ánh sáng có cấu trúc, hình ảnh 3D chiếu ánh sáng có cấu trúc có thể được chia thành các phương pháp 3D-ảnh chụp đơn và 3D-ảnh nhiều ảnh. Ánh sáng có cấu trúc bắn một lần chủ yếu sử dụng mã hóa ghép kênh không gian và mã hóa ghép kênh tần số. Các dạng mã hóa phổ biến bao gồm: mã hóa màu, lập chỉ mục thang độ xám, mã hóa hình dạng hình học và các mẫu đốm ngẫu nhiên. Hiện tại, trong các ứng dụng hệ thống mắt-tay robot, đối với các trường hợp không yêu cầu độ chính xác cao của phép đo 3D, chẳng hạn như xếp pallet, dỡ pallet và nắm bắt 3D, phương pháp chiếu các mẫu đốm ngẫu nhiên giả{12}}ngẫu nhiên để thu được thông tin 3D mục tiêu được sử dụng rộng rãi.
Phương pháp 3D chụp nhiều ảnh chủ yếu sử dụng mã hóa ghép kênh theo thời gian. Các dạng mã hóa mẫu phổ biến bao gồm: mã hóa nhị phân, mã hóa dịch chuyển pha-tần số-nhiều và các phương pháp mã hóa kết hợp (chẳng hạn như mã Gray và các rìa dịch pha-). Nguyên tắc cơ bản của hình ảnh 3D ánh sáng có cấu trúc được thể hiện trong hình bên dưới. Mẫu ánh sáng có cấu trúc được tạo ra bằng máy tính hoặc thiết bị quang học đặc biệt, sau đó chiếu lên bề mặt của vật thể được thử nghiệm bằng hệ thống chiếu quang học. Một thiết bị thu nhận hình ảnh (chẳng hạn như máy ảnh CCD hoặc CMOS) được sử dụng để ghi lại hình ảnh ánh sáng có cấu trúc được điều chế và biến dạng bởi bề mặt của vật thể. Các thuật toán xử lý hình ảnh sau đó được sử dụng để tính toán sự tương ứng giữa từng pixel trong ảnh và các điểm trên đường viền của đối tượng. Cuối cùng, thông tin đường viền ba chiều của đối tượng được tính toán bằng mô hình cấu trúc hệ thống và công nghệ hiệu chỉnh của nó. Trong các ứng dụng thực tế, phép chiếu mã Gray, phép chiếu rìa dịch chuyển pha hình sin{15}}hoặc công nghệ 3D dịch chuyển pha hình sin và mã Gray kết hợp{16}}thường được sử dụng.
Đối với các bề mặt gồ ghề, ánh sáng có cấu trúc có thể được chiếu trực tiếp lên bề mặt vật thể để đo hình ảnh trực quan; tuy nhiên, để đo 3D các bề mặt nhẵn và vật thể được phản chiếu có độ phản chiếu cao, phép chiếu ánh sáng có cấu trúc không thể chiếu trực tiếp lên bề mặt đang được thử nghiệm và phép đo 3D yêu cầu sử dụng các kỹ thuật phản xạ gương.
Trong sơ đồ này, các vân không được chiếu trực tiếp lên đường viền của vật thể đang được thử nghiệm mà lên màn hình tán xạ hoặc màn hình tinh thể lỏng (LCD) được sử dụng để hiển thị trực tiếp các vân. Máy ảnh thu thập thông tin rìa được điều biến bởi sự thay đổi độ cong của bề mặt sáng thông qua đường ánh sáng phản xạ, sau đó tính toán hình thái đường viền ba chiều.
Quét hình ảnh 3D
Các phương pháp quét hình ảnh 3D có thể được chia thành các phương pháp quét khác nhau, phương pháp tam giác hoạt động và tiêu điểm màu sắc. Phạm vi quét sử dụng chùm ánh sáng chuẩn trực để quét toàn bộ bề mặt mục tiêu để đo 3D. Các phương pháp quét phạm vi quét điển hình bao gồm: các phương pháp bay-điểm thời gian-của-chuyến bay, chẳng hạn như phạm vi điều chế tần số sóng liên tục (FM-CW) và phạm vi xung (LiDAR); phép đo giao thoa tán xạ laze, chẳng hạn như giao thoa kế dựa trên giao thoa nhiều bước sóng, giao thoa ảnh ba chiều, giao thoa ánh sáng trắng và nguyên tắc giao thoa đốm; và các phương pháp tiêu điểm, chẳng hạn như tiêu điểm màu sắc và lấy nét tự động.
Trong các phương pháp quét 3D-theo phạm vi một điểm, phương pháp bay-điểm-của-bay phù hợp để quét ở khoảng cách-dài, nhưng độ chính xác của phép đo tương đối thấp, thường ở phạm vi milimet. Các phương pháp quét một điểm-khác bao gồm phép đo giao thoa laser điểm-đơn, kính hiển vi đồng tiêu và phép đo tam giác laser hoạt động một-điểm. Những phương pháp này mang lại độ chính xác đo lường cao, nhưng phương pháp trước đây yêu cầu môi trường được kiểm soát. Quét dòng cung cấp độ chính xác vừa phải và hiệu quả cao. Kính hiển vi tam giác laser chủ động và kính hiển vi đồng tiêu màu đặc biệt thích hợp để đo 3D ở bộ phận tác động cuối của cánh tay robot. Tam giác chủ động dựa trên nguyên tắc tam giác, sử dụng chùm tia chuẩn trực hoặc một hoặc nhiều chùm phẳng để quét bề mặt mục tiêu để đo 3D.
Chùm ánh sáng thường thu được theo những cách sau: chuẩn trực laser, giãn nở chùm lăng trụ bề mặt hình trụ hoặc bậc hai, ánh sáng không{0} kết hợp (chẳng hạn như ánh sáng trắng, nguồn sáng LED) chiếu qua các lỗ nhỏ, khe (cách tử) hoặc nhiễu xạ ánh sáng kết hợp. Tam giác hoạt động có thể được chia thành ba loại: quét một-điểm, quét một-dòng và quét nhiều-dòng. Hiện tại, hầu hết các sản phẩm thương mại dành cho bộ phận tác động đầu cuối của cánh tay robot đều là máy quét một-điểm và một-dòng.
Trong các phương pháp quét nhiều{0}}dòng, việc xác định số rìa một cách đáng tin cậy là một thách thức. Để xác định chính xác số vân, hai tập hợp mặt phẳng ánh sáng vuông góc thường được chụp ảnh ở tốc độ cao xen kẽ nhau. Điều này cũng cho phép quét "Tam giác bay", quá trình quét và tái tạo 3D của nó được hiển thị trong hình bên dưới. Phép chiếu nhiều-dòng và hình ảnh flash-đơn tạo ra chế độ xem 3D thưa thớt. Một số chuỗi chế độ xem 3D được tạo thông qua quá trình quét rìa theo chiều dọc và ngang, sau đó, mô hình bề mặt 3D dày đặc, hoàn chỉnh và có độ phân giải cao được tạo ra thông qua đăng ký hình ảnh 3D.
Kính hiển vi đồng tiêu sắc độ có khả năng quét và đo các vật thể trong suốt và mờ đục, mịn như bề mặt phản chiếu và bề mặt kính trong suốt và hiện đang được sử dụng rộng rãi trong các lĩnh vực như kiểm tra 3D vỏ điện thoại di động. Quét đồng tiêu màu sắc có ba loại: quét đo khoảng cách tuyệt đối một-điểm một-một chiều, quét mảng đa-điểm và quét dòng liên tục. Hình dưới đây trình bày các ví dụ về đo khoảng cách tuyệt đối và quét đường liên tục. Quét dòng liên tục cũng là một kiểu quét mảng, nhưng với mảng điểm lớn hơn và dày đặc hơn.
Hình ảnh 3D tầm nhìn nổi
Tầm nhìn lập thể thường đề cập đến việc tái tạo cấu trúc 3D hoặc thông tin chiều sâu của đối tượng mục tiêu bằng cách thu được hai hoặc nhiều hình ảnh từ các góc nhìn khác nhau. Các tín hiệu thị giác về nhận thức sâu sắc có thể được chia thành các tín hiệu thị giác và tín hiệu hai mắt (chênh lệch hai mắt). Hiện tại, thị giác âm thanh nổi 3D có thể đạt được thông qua thị giác một mắt, thị giác hai mắt, tầm nhìn đa góc nhìn và hình ảnh 3D trường ánh sáng (mắt phức hợp điện tử hoặc camera mảng). Các tín hiệu nhận biết độ sâu của thị giác bằng một mắt thường bao gồm: phối cảnh, chênh lệch độ dài tiêu cự, hình ảnh nhiều góc nhìn, sự tắc nghẽn, bóng, thị sai chuyển động, v.v.
Trong tầm nhìn của robot, bạn cũng có thể đạt được mục tiêu này bằng cách sử dụng hình ảnh phản chiếu và các phương pháp hình dạng-từ-X khác. Các tín hiệu thị giác nhận biết độ sâu của thị giác hai mắt bao gồm: vị trí hội tụ của mắt và độ chênh lệch hai mắt. Trong thị giác máy, hai camera được sử dụng để thu được hai hình ảnh góc nhìn của cùng một cảnh mục tiêu từ hai góc nhìn, sau đó độ chênh lệch của các điểm tương ứng trong hai hình ảnh góc nhìn được tính toán để thu được thông tin độ sâu 3D của cảnh mục tiêu. Quy trình tính toán thị giác âm thanh nổi hai mắt điển hình bao gồm bốn bước sau: hiệu chỉnh biến dạng hình ảnh, chỉnh sửa cặp hình ảnh âm thanh nổi, đăng ký hình ảnh và tính toán bản đồ chênh lệch chiếu lại tam giác.
Hình ảnh tầm nhìn nhiều-chế độ xem hoặc hình ảnh âm thanh nổi nhiều-chế độ xem, sử dụng một hoặc nhiều camera để thu được nhiều hình ảnh của cùng một cảnh mục tiêu từ nhiều góc nhìn nhằm tái tạo lại thông tin ba-chiều của cảnh mục tiêu.
Hình ảnh âm thanh nổi nhiều-chế độ xem chủ yếu được sử dụng trong các trường hợp sau: sử dụng nhiều camera từ các góc nhìn khác nhau để thu được nhiều hình ảnh của cùng một cảnh mục tiêu, sau đó sử dụng khả năng tái tạo âm thanh nổi dựa trên tính năng-và các thuật toán khác để thu được độ sâu cảnh và thông tin cấu trúc không gian; sử dụng kỹ thuật cấu trúc-từ-chuyển động (SFM), sử dụng cùng một máy ảnh với các thông số nội tại không thay đổi, để thu được nhiều hình ảnh từ các góc nhìn khác nhau nhằm tái tạo lại thông tin ba-chiều của cảnh mục tiêu. Công nghệ này thường được sử dụng để theo dõi một số lượng lớn các điểm kiểm soát trong cảnh mục tiêu, liên tục khôi phục thông tin cấu trúc 3D của cảnh cũng như tư thế và vị trí của máy ảnh. Hình ảnh trường ánh sáng khác với các nguyên tắc hình ảnh máy ảnh truyền thống. Máy ảnh truyền thống tạo thành hình ảnh 2D trực tiếp trên mặt phẳng hình ảnh sau khi ánh sáng đi qua ống kính.
Camera trường ánh sáng thêm một dãy vi thấu kính phía trước mặt phẳng cảm biến. Ánh sáng tới qua thấu kính chính lại đi qua từng vi thấu kính và được mảng cảm quang tiếp nhận, từ đó thu được thông tin về hướng và vị trí của các tia sáng. Điều này cho phép xử lý kết quả hình ảnh sau, đạt được hiệu ứng "chụp trước, lấy nét sau" và cho phép khôi phục cấu trúc ba chiều của cảnh bằng cách sử dụng thông tin này. Trong các lĩnh vực như thực tế ảo và thực tế tăng cường, công nghệ hình ảnh trường ánh sáng giúp mang lại trải nghiệm hình ảnh chân thực hơn và cho phép nhận thức cũng như tương tác ba chiều chính xác hơn với cảnh.
Nguyên lý tạo ảnh 3D trường ánh sáng khác về mặt cấu trúc với nguyên tắc tạo ảnh của máy ảnh CCD và CMOS truyền thống. Máy ảnh truyền thống chụp ảnh ánh sáng trực tiếp lên mặt phẳng hình ảnh sau khi nó đi qua ống kính, thường tạo ra hình ảnh 2D. Camera trường ánh sáng thêm một dãy microlens ở phía trước mặt phẳng cảm biến, khiến ánh sáng tới qua thấu kính chính lại đi qua từng microlens và được mảng cảm quang tiếp nhận, từ đó thu được thông tin về hướng và vị trí của tia sáng. Điều này cho phép-xử lý hậu kỳ các kết quả hình ảnh, đạt được hiệu ứng "chụp trước, lấy nét sau".

