WaveNetという音声合成システムがDeepMindから発表された。
これ、すごいな。
ParametricやConcatenativeと比較したサンプルの
自然さもさることながら、Knowing What to Sayの節で、
text sequenceなしで学習させた場合のサンプルが衝撃的だ。
おそらく、ほぼすべての人間はリスニングから言語習得を
開始すると思われるが、原初のリスニングはこうだった
だろうな、という感覚を呼び起こされる思いだ。
耳を介して取得した情報を意味付けすることで人間の声を
認識できるようなセンサ特性をもつ神経系を構築し、逆に
そのセンサを使って人間の声と認識できるような音を選択し、
CNNという意味付けシステムに与えることで、人間の声を生成する。
人間の声に限らず、楽器の音もやることは同じだ。
その上に付与される、言語や音楽という理由付けが絡む要素には、
どこまで踏み込めるだろうか。
例えば、レンブラント風の絵を描いたりする実例は出てきているが、
それはどちらかというと、見る側の意味付け機構に依存した例だ。
新しい言語体系や音楽理論を構築することも可能だろうか。
あるいは、大量のデータを取得できているうちは、理由付け
なんていうものに必要性を見出さないのかもしれない。
No comments:
Post a Comment