自動運転車から病院まで: ロボットが周囲のものをどのように認識できるか

テクノロジー 15/06/2026 G1 Globo 👁 19

⚡ クイックサマリー

ネオロボット開示/1X テクノロジー長い間、見ることはもっぱら生物学的な能力であるように思われていました。人間や動物は、環境を観察し、顔を認識し、障害物を回避し、ほとんど気づかずに数分の一秒で意思決定を行います。しかし今日では、機械も同様のことを行う方法を学習しています。人工知能とコンピュータービジョンの進歩のおかげで、ロボットはますます洗練された方法で視覚情報を解釈できるようになりました。コンピュータービジョンは、コンピューターやロボットが画像やビデオを解釈できるようにする技術分野です。一般的なカメラのように前方にあるものを単に記録するのではなく、これらのシステムは視覚コンテンツを分析して、人、物体、動き、距離、さらには行動を識別します。現在G1中人間の認識にはまだ程遠いですが、このテクノロジーはロボットを環境を認識し、変化に反応し、リアルタイムで意思決定できる機械に変えています。すでに自動運転車、農業用ドローン、セキュリティシステム、環境監視、病院、工業生産ラインに導入されています。ビジョンはセンサーから始まりますこのプロセスは、ロボットにカメラとセンサーを取り付けることから始まります。これらのデバイスは、人間の目と同じように動作して、環境の画像をリアルタイムでキャプチャします。用途に応じて、さまざまなタイプのセンサーを使用できます。最も一般的なのは、従来のカメラと同様に色を記録する従来の RGB カメラです。温度差を視覚化するために使用されるサーマルカメラに加えて、熱を検出したり、暗い環境で動作したりできる赤外線センサーも広く使用されています。ブラジルのスタートアップ企業が AI で「頭脳」を開発し、ロボットをより賢くするしかし、見るだけでは十分ではありません。ロボットは、深度センサーを使用して、深度と空間位置を理解する必要もあります。周囲の物体間の距離を推定する最も単純なモデルは、すでに広く普及しています。それらは、例えば、家具や階段を自ら回避する家庭用ロボット掃除機に登場します。最も先進的なモデルは、レーザー光線をベースにしたテクノロジーで、環境の 3 次元マップをより高精度に作成する LiDAR システムを使用しています。もう 1 つの技術はステレオビジョンです。これは 2 台のカメラを同時に組み合わせて、人間の視覚と同様の方法で奥行きを計算します。 AI通訳画像をキャプチャした後、人工知能が作動します。アルゴリズムは各カメラフレームを処理して視覚的なパターンを探します。人間の脳にヒントを得たディープ人工ニューラルネットワークは、何百万もの画像でトレーニングされます。したがって、形、色、テクスチャの特定の組み合わせが、人、動物、車、家具、標識、道具、木、道路に対応していることを認識できます。これにより、システムはシーンの要素を識別するだけでなく、それらが何を表しているのかも分類します。多くの人工知能ビデオでは、人物やオブジェクトの周囲に色付きのボックスが表示されます。これらのマーキングはアルゴリズムによって自動的に生成されます。中国のロボットが100メートルを10秒で走り、ウサイン・ボルトの記録に迫る。開示/ユニツリーこのタイプの AI を、人間の言語の処理と生成に焦点を当てた ChatGPT などのいわゆる LLM (Large Language Model) とは区別する価値があります。どちらもディープニューラルネットワークを使用しますが、データと目的はまったく異なります。LLM がテキストを分析するのに対し、コンピュータービジョンは物理空間でのナビゲーションのためのピクセルと形状の解釈に特化しています。多くのシステムは認識を超えて、環境の 3D 再構築とマッピングを実行します。一部のロボットは、通過する場所の完全な地図をリアルタイムで作成できます。このプロセスは、現代のロボット工学で最も重要なテクノロジーの 1 つである、Simultaneous Localization and Mapping の頭字語である SLAM として知られています。アプリケーション、進歩、制限事項目覚ましい進歩にもかかわらず、ロボットは依然として人間とはまったく異なる世界を見ています。私たちは文脈を解釈する並外れた能力を持っていますが、人工知能はそれをまだ学習中です。部分的に隠れた単純なオブジェクトや照明の予期しない変化により、自動システムが混乱する可能性があります。また、計算上の大きな課題もあります。リアルタイムで見るには、ロボットは 1 秒あたり数千、さらには数百万の計算を処理する必要があり、高度なセンサー、最適化されたアルゴリズム、強力なハードウェアが必要です。重要な進歩は、もともとビデオゲーム用に作成された画像に特化したマイクロプロセッサであるグラフィックスプロセッシングユニット (GPU) の進歩でした。 Nvidia のモデル Isaac Gr00t N1 を使用したロボットのデモンストレーション開示/エヌビディアもう 1 つのボトルネックは、大量のデータのラベル付けはコストと時間がかかるプロセスであることが多いことです。研究者は常に新しいアプローチを模索しています。 PUC-Rio の私たちのチームによる最近の医学ジャーナル・オブ・イメージング・インフォマティクス・イン・メディスンでの発表では、不確実な症例を特定し、トレーニング中に人間の介入を効率的に引き起こすための構成主義的教育に触発された方法論が提案されています。実際に、その成果はすでに顕著なものとなっています。たとえば、自動運転車では、コンピュータービジョンは非常に複雑な状況で機能します。交通標識、車線、歩行者、前方の障害物を認識します。さらに、気象条件や他の車両の動きも検出する必要があります。これらすべては、車が走行している間に数ミリ秒で行われます。産業界では、コンピュータービジョンを備えたロボットが、人間の目には見えない欠陥を特定できる品質検査をすでに実行しています。病院では、インテリジェントシステムが健康診断を分析して病気の初期兆候を見つけます。農業では、ドローンが作物を監視し、不作、害虫、灌漑の問題を検出します。人工視覚を備えた機械が日常生活にますます登場する傾向にあります。ロボットが単純な自動機械から、周囲の世界を認識して対話できるシステムに変化した様子を観察する能力。そして、この視覚革命はまだ始まったばかりです。 Alberto Barbosa Raposo は FAPERJ と CNPq から資金提供を受けています。 Alexandre Soares は、この記事の出版によって利益を受ける可能性のあるいかなる企業や組織とも相談したり、協力したり、株を所有したり、資金を受け取ったりすることはなく、学術的立場を超えた関連リンクも明らかにしていません。