Looking to Listen: Audio-Visual Speech Separation
視覚と聴覚を組み合わせることで話し声を分離できるというのは、多様な情報の流れの中に何らかの一致を見出すことが、個を認識することにつながっていることを示唆しているようで興味深い。
センサの種類や数を増やすと、個の特定の精度は上がっていくが、精度を上げ過ぎると、人間が同一個体と判定する対象を別個体として判定するようになり、「精度の悪化」と表現されることになるだろう。精度の頭打ちを決めるのは、人間のセンサの仕様だ。
複数の情報の間での齟齬を察知して、個の同一性をチェックする仕組みも作れるだろう。「今日は風邪を引いているから聴覚情報がずれている」というように、理由付けによる一時的なパッチも当てられるようになるだろうか。その過程がブラックボックス化したものは、マガーク効果と同じであるように思う。
No comments:
Post a Comment