自動運転車から病院まで: ロボットが周囲のものをどのように認識できるか
ネオロボット 開示/1X テクノロジー 長い間、見ることはもっぱら生物学的な能力であるように思われていました。人間や動物は、環境を観察し、顔を認識し、障害物を回避し、ほとんど気づかずに数分の一秒で意思決定を行います。 しかし今日では、機械も同様のことを行う方法を学習しています。人工知能とコンピュータービジョンの進歩のおかげで、ロボットはますます洗練された方法で視覚情報を解釈できるようになりました。 コンピューター ビジョンは、コンピューターやロボットが画像やビデオを解釈できるようにする技術分野です。 一般的なカメラのように前方にあるものを単に記録するのではなく、これらのシステムは視覚コンテンツを分析して、人、物体、動き、距離、さらには行動を識別します。 現在G1中 人間の認識にはまだ程遠いですが、このテクノロジーはロボットを環境を認識し、変化に反応し、リアルタイムで意思決定できる機械に変えています。 すでに自動運転車、農業用ドローン、セキュリティシステム、環境監視、病院、工業生産ラインに導入されています。 ビジョンはセンサーから始まります このプロセスは、ロボットにカメラとセンサーを取り付けることから始まります。これらのデバイスは、人間の目と同じように動作して、環境の画像をリアルタイムでキャプチャします。用途に応じて、さまざまなタイプのセンサーを使用できます。 最も一般的なのは、従来のカメラと同様に色を記録する従来の RGB カメラです。 温度差を視覚化するために使用されるサーマルカメラに加えて、熱を検出したり、暗い環境で動作したりできる赤外線センサーも広く使用されています。 ブラジルのスタートアップ企業が AI で「頭脳」を開発し、ロボットをより賢くする しかし、見るだけでは十分ではありません。ロボットは、深度センサーを使用して、深度と空間位置を理解する必要もあります。 周囲の物体間の距離を推定する最も単純なモデルは、すでに広く普及しています。それらは、例えば、家具や階段を自ら回避する家庭用ロボット掃除機に登場します。 最も先進的なモデルは、レーザー光線をベースにしたテクノロジーで、環境の 3 次元マップをより高精度に作成する LiDAR システムを使用しています。 もう 1 つの技術はステレオ ビジョンです。これは 2 台のカメラを同時に組み合わせて、人間の視覚と同様の方法で奥行きを計算します。 AI通訳 画像をキャプチャした後、人工知能が作動します。アルゴリズムは各カメラ フレームを処理して視覚的なパターンを探します。 人間の脳にヒントを得たディープ人工ニューラル ネットワークは、何百万もの画像でトレーニングされます。 したがって、形、色、テクスチャの特定の組み合わせが、人、動物、車、家具、標識、道具、木、道路に対応していることを認識できます。 これにより、システムはシーンの要素を識別するだけでなく、それらが何を表しているのかも分類します。多くの人工知能ビデオでは、人物やオブジェクトの周囲に色付きのボックスが表示されます。これらのマーキングはアルゴリズムによって自動的に生成されます。 中国のロボットが100メートルを10秒で走り、ウサイン・ボルトの記録に迫る。 開示/ユニツリー このタイプの AI を、人間の言語の処理と生成に焦点を当てた ChatGPT などのいわゆる LLM (Large Language Model) とは区別する価値があります。 どちらもディープ ニューラル ネットワークを使用しますが、データと目的はまったく異なります。LLM がテキストを分析するのに対し、コンピューター ビジョンは物理空間でのナビゲーションのためのピクセルと形状の解釈に特化しています。 多くのシステムは認識を超えて、環境の 3D 再構築とマッピングを実行します。一部のロボットは、通過する場所の完全な地図をリアルタイムで作成できます。 このプロセスは、現代のロボット工学で最も重要なテクノロジーの 1 つである、Simultaneous Localization and Mapping の頭字語である SLAM として知られています。 アプリケーション、進歩、制限事項 目覚ましい進歩にもかかわらず、ロボットは依然として人間とはまったく異なる世界を見ています。 私たちは文脈を解釈する並外れた能力を持っていますが、人工知能はそれをまだ学習中です。部分的に隠れた単純なオブジェクトや照明の予期しない変化により、自動システムが混乱する可能性があります。 また、計算上の大きな課題もあります。リアルタイムで見るには、ロボットは 1 秒あたり数千、さらには数百万の計算を処理する必要があり、高度なセンサー、最適化されたアルゴリズム、強力なハードウェアが必要です。 重要な進歩は、もともとビデオ ゲーム用に作成された画像に特化したマイクロプロセッサであるグラフィックス プロセッシング ユニット (GPU) の進歩でした。 Nvidia のモデル Isaac Gr00t N1 を使用したロボットのデモンストレーション 開示/エヌビディア もう 1 つのボトルネックは、大量のデータのラベル付けはコストと時間がかかるプロセスであることが多いことです。研究者は常に新しいアプローチを模索しています。 PUC-Rio の私たちのチームによる最近の医学ジャーナル・オブ・イメージング・インフォマティクス・イン・メディスンでの発表では、不確実な症例を特定し、トレーニング中に人間の介入を効率的に引き起こすための構成主義的教育に触発された方法論が提案されています。 実際に、その成果はすでに顕著なものとなっています。たとえば、自動運転車では、コンピューター ビジョンは非常に複雑な状況で機能します。交通標識、車線、歩行者、前方の障害物を認識します。 さらに、気象条件や他の車両の動きも検出する必要があります。これらすべては、車が走行している間に数ミリ秒で行われます。 産業界では、コンピュータービジョンを備えたロボットが、人間の目には見えない欠陥を特定できる品質検査をすでに実行しています。 病院では、インテリジェント システムが健康診断を分析して病気の初期兆候を見つけます。農業では、ドローンが作物を監視し、不作、害虫、灌漑の問題を検出します。 人工視覚を備えた機械が日常生活にますます登場する傾向にあります。 ロボットが単純な自動機械から、周囲の世界を認識して対話できるシステムに変化した様子を観察する能力。そして、この視覚革命はまだ始まったばかりです。 Alberto Barbosa Raposo は FAPERJ と CNPq から資金提供を受けています。 Alexandre Soares は、この記事の出版によって利益を受ける可能性のあるいかなる企業や組織とも相談したり、協力したり、株を所有したり、資金を受け取ったりすることはなく、学術的立場を超えた関連リンクも明らかにしていません。