お問い合わせ

03-5677-3930初診受付

ブログ

2021年7月22日

13001:視覚的な情報の類似性はどの様に認識されるのだろうか?(「文化の盗用」は脳でどう認識されるのだろうか?)

清澤のコメント:「文化の盗用」が話題になっていますが、その「文化」の多くは視覚的なコンテンツであることが多いと思いました。そこでMechanisms of similarity recognition of visual informationという命題を立ててググってみました。その最初の答えは「脳は視覚的な物体認識をどのように解決しますか?ジェームス・J・ディカルロ」というものでした。その要点は腹側視覚路に関する解説です。その要旨と端書、結論部分を訳出してみます。詳しく知りたい方は原典にも乗って見てください。

   -------

NIHMSID:NIHMS352068PMID:22325196

脳は視覚的な物体認識をどのように解決しますか?

ジェームス・J・ディカルロ、ダビデ・ゾッコラン、 ニコール・C・ラスト Neuronで入手できます。

概要

増大する証拠は、実質的な外観の変化にもかかわらずオブジェクトを迅速に認識する能力である「コアオブジェクト認識」が、下側頭葉の強力なニューロン表現で最高潮に達する反射的で主にフィードフォワード計算のカスケードを介して脳で解決されることを示唆しています。ただし、この答を生成するアルゴリズムはほとんど理解されていないままです。ここでは、個々のニューロンからニューロン集団、行動、計算モデルに至るまでの証拠を確認します。このアルゴリズムを理解するには、ニューロンと精神物理学のデータを使用して、共通の機能目標を持つ小さな標準的なサブネットワークのビルディングブロックに基づく多くの計算モデルをふるいにかける必要があることを提案します。

前書き

このページの言葉を認識することは、あなたの机の上のコーヒーカップ、または部屋に入ったばかりの人はすべてとても簡単に思えます。私たちの視覚認識能力の明らかな容易さは、この偉業の計算の大きさを信じています:私たちは数万の可能性の中からオブジェクトを簡単に検出して分類し(Biederman、1987)、ほんの一瞬でそれを行います(Potter、1976 ; Thorpe et al。、1996)、各オブジェクトが私たちの目に生成する外観の途方もない変化にもかかわらず(Logothetis and Sheinberg、1996 総説)。進化の観点から、私たちの認識能力は驚くべきことではありません-私たちの日常の活動(例えば、食べ物を見つける、社会的相互作用、ツールの選択、読書など)、したがって私たちの生存は、私たちの網膜上の光子のパターンの対象アイデンティティの正確で迅速な抽出に依存しています。

ヒト以外の霊長類の新皮質の半分が視覚処理に専念しているという事実(Felleman and Van Essen、1991)とオブジェクト認識の計算の複雑さについて話します。この観点から、私たちには素晴らしい機会があります。堅牢な解法を生成するマシンにアクセスでき、そのマシンを調査して、その動作アルゴリズムを明らかにすることができます。これらの発見されるアルゴリズムは、視覚の領域を超えて、他の生物学的感覚(例:触覚、聴覚、嗅覚)だけでなく、高次元の人工センサーデータ(例:カメラ、生体センサーなど)に共通です。これらのアルゴリズムを明らかにするには、精神物理学、認知神経科学、神経解剖学、神経生理学、計算論的神経科学、コンピュータービジョン、機械学習の専門知識が必要であり、これらの分野間の従来の境界は解消されつつあります。

オブジェクト認識は、1つの特定のオブジェクトを含む画像を含まない画像(他の可能なオブジェクトの画像)から分離する機能です。ーー

機械論的には、決定境界は、母集団を「見下ろし」、各ニューロンの応答の単純な加重和とそれに続くしきい値を介してオブジェクトのアイデンティティを計算する高次ニューロンを近似するものと考えることができます。したがって、視覚処理の初期段階での表現がオブジェクト認識に問題がある理由が明らかになります。ーー

単純な超平面がそれらを分離するために必要なすべてであるように。この概念フレームワークは、信号がこの視覚システムを介して伝播するときに情報が作成されないことを明確にしています。

情報は、オブジェクトIDに関する情報をより明確にする方法で再フォーマットされます。ーー後で、オブジェクトID多様体から、腹側皮質視覚路がこの非線形変換をどのように達成するかについての洞察を拡張します

腹側皮質視覚路がこの幾何学的な視点からコア認識をどのように解決するかを考えると、高レベルの視覚領域でかなりの不均一性を示し、理解するのが難しい従来の単一ニューロン応答特性から重点がシフトします。この視点はコア認識問題の重要な中間レベルの理解であると私たちは主張します。重要なことに、この視点は、各視覚野がニューロン表現をどれだけうまく解きほぐしているかを決定するという当面の目標を示唆しています。

脳の「オブジェクト」表現について私たちは何を知っていますか?

腹側視覚ストリームは、コアオブジェクト認識のための重要な回路を収容します

何十年にもわたる証拠は、霊長類の腹側視覚処理ストリーム-後頭葉と側頭葉に沿って配置された一連の皮質領域(図3A)-オブジェクト認識動作の基礎となる主要な回路を収容します(レビューについては、Gross、1994、Miyashita、1993ほかを参照してください)。腹側野の流れ関数は物体認識だけではありません。より広い議論については、読者に(Kravitz et al。、2010 ; 他)を参照してください。一方、後腹側野の病変は、視野の一部に完全な失明を引き起こします(Stoerig and Cowey、1997によるレビュー))、前部領域、特に下側頭皮質(IT)の病変または不活性化は、複雑な物体を区別する能力に選択的な欠陥を生み出す可能性があります(例(Holmes and Gross、1984 ほか)。これらの欠陥は必ずしも深刻ではなく、まったく見られないこともありますが(Huxlin et al。、2000)、この変動性はオブジェクト認識タスクのタイプ(したがって代替手段)に依存する可能性があります。利用可能な視覚的戦略)たとえば、いくつか(Schiller、1995 ; Weiskrantz and Saunders、1984)、すべてではありませんが、霊長類の腹側皮質視覚路病変の研究では、不変性が明示的に要求されています。

写真やイラストなどを保持する外部ファイル。オブジェクト名はnihms352068f3.jpgです。

図3腹側視覚経路

A)マカクザルの脳における腹側皮質領域の位置、および網膜からの視覚情報の流れ。(B)各領域は、そのサイズがその皮質表面積に比例するようにプロットされます(Felleman and Van Essen、1991)。ニューロン(両方の半球)のおおよその総数は、各領域の隅に表示されます(M =百万)。各表現のおおよその次元(投射ニューロンの数)は、ニューロン密度(Collins et al。、2010)、レイヤー2/3ニューロン分数(O’Kusky and Colonnier、1982)、および部分に基づいて、各領域の上に表示されます。視野の中央10度の処理専用(Brewer et al。、2002)。おおよその中央値応答待ち時間は右側にリストされています(Nowak and Bullier 、1997 ほか)。----

結論

脳がどのように物体認識を解決するかはまだ完全にはわかっていません。最初のステップは、質問自体を明確に定義することです。画像の変化に直面して中心視野内の物体を迅速に認識する能力である「コア物体認識」は、解決されれば、生物学的物体認識を理解するための基礎となる問題です。行動の体系的な特徴付けはまだ進行中ですが、脳はIT(注:下側頭葉)集団のスパイクパターンにおけるこの問題に対するその可能性のある解決策をすでに明らかにしています。人間のようなレベルのパフォーマンスは、広範囲にわたる反復的なコミュニケーション、注意、タスクの依存関係、または正確なスパイクタイミングや同期を組み込んだ複雑なコーディングスキームを必要としないようです。代わりに、実験的および理論的結果は、この倹約的な仮説と一致したままです。

脳がこのソリューションをどのように計算するかを理解するには、さまざまな抽象化レベルでの問題と、それらのレベル間のリンクを考慮する必要があります。ニューロンの集団レベルでは、さまざまなオブジェクトに対応する初期の感覚構造の集団活動パターンが絡み合っていますが、情報が腹側の流れに沿ってITで再表現されるにつれて、徐々に解きほぐされます。単一ユニットレベルでは、このもつれのないITオブジェクト表現は、アイデンティティを保持する変換に対してある程度の許容度(不変性ではなく)を持つITニューロンに起因します。これは、初期段階のニューロンは共有しませんが、腹側に沿って徐々に増加するストリームの特性です。

腹側経路がこれを「どのように」達成するかを理解するには、完全な皮質領域集団と単一ニューロンの間の抽象化の1つ以上のレベルを定義する必要があります。たとえば、約40Kニューロンの標準的なサブネットワークが視覚計算の基本的な「ビルディングブロック」を形成し、そのような各サブネットワークが同じメタ機能を持っていると仮定します。このフレームワークが最終的に正しいことが証明されたとしても、相互作用する多くの「詳細」を正しくすることによってのみ表示できます。したがって、進歩は2つの相乗的な作業ラインから生じます。1つのラインでは、高スループットのコンピューターシミュレーションを使用して、可能なサブネットワークアルゴリズムの非常に広いスペースを体系的に探索し、各可能性をカスケードされたフルスケールアルゴリズムとして実装し、慎重に検討されたベンチマークオブジェクト認識タスクのパフォーマンスを測定します。2行目では、急速に拡大するシステムの神経生理学的データ量と精神物理学的パフォーマンス測定値を使用して、実験データを最もよく説明するアルゴリズムを選別します。簡単に言えば、私たちは、物体認識の問題を中心に、精神物理学、システム神経科学、およびコンピュータービジョンの分野を相乗作用させる必要があります。幸いなことに、それを実現するための基盤とツールが利用可能になりました。

Categorised in: 神経眼科