AIは表現のどこにいるのか

2022/10/25

NovelAIを用いて出力した画像の枚数が気がつくと2万枚を超えていたので、振り返りがてら画像を見返していた。

自分でも驚いたのだが、サービスを触りはじめた10/4から10/24現在に至るまで、わずか20日間のうちに2万枚にもおよぶ「一定の表現能力を持った個別の画像」(これをイラストレーションと呼ぶべきか否かはさておき)が、たった一人の人間によって生成されたというのは脅威的なことだろう。人類の歴史を振り返っても類似の現象は見当たらないのではないか。

近い感性としては、やはり歴史的には写真技術とGenerative Art、デザインや設計に用いられているComputational Design(主にAlgorithmic Design)が挙げられるだろう。特にAlgorithmicな手法を用いたデザイン活動においては、要件に沿った一定のアルゴリズムを組み上げ無数のパターンを出力し選別を行う流れが主流だ。コンピュータのドライな手続きを通じて人間の恣意性を排除することで、バイアスのない答えを導くための道具として用いられている。

しかしながら、これらのプロセスは人間がコントロールすることを可能にする明示性を備えている仕組みが前提であるから、学習データという巨大なブラックボックスを通じて半ば自動的に出力される、いわゆる「AI」という観念に該当するものはやはり思い付かない。AIというのは人間の代わりをしてしまうのではないかという誤解や不安を生む原因にもなっているセンセーショナルなバズワードではあるが、過去のあらゆる技術とは明確に線引きが存在しているということを示している点では使い分けられる価値があるように思える。実際に画像生成AIに触れてみると、いやが応でもそれらが人類がはじめて直面する文化的課題を持っていることを思い知らされることになる。表現に携わる人間なら尚更なことと思う。

画像をパラパラと見返してみると、画像生成AIが生み出す視覚像は、やはり「それらしさ」の集合でしかないことを実感してしまう。視覚表現として素敵だと思うものはたくさんある。ありすぎるので脳内の報酬系がひたすら満足させられ続けるためにひどい中毒性があるほどだ。イメージの濁流といっても良い。ボタンを押すだけで好みの画像が出力される。いい感じである。しかしどことなく空虚だ。

欲しかったものはこれだったろうか?そんな疑問が頭をよぎる。満足はできても、味わうことができない。薄ぺらく最高に「それらしい」視覚像たちがただただ堆積していく。2万枚。視覚ポルノという表現があるが、まさにそれだ。快楽のためにのみ存在する図像(イメージ)たち。日夜、我々はSNSなどを通じて確かにそこに視覚的快楽を求めている。しかしそれ以上を求めたい気持ちもある。純粋な刺激の快楽以上に満たされるものを求めている。感じる空虚さはより高い快楽を求めているにすぎない。強欲である。そしてその先には知的好奇心と人生と芸術とが待ち構えている。そこに画像生成AIは存在しているだろうか。

ためしに、生成されたイラストレーションの薄ぺらさの原因は、そこに“人間”を感じないからかもしれない、といったことを考える。現代アートでもお決まりのテーマになっていることからも、それはわかりやすい問いであり視点だ。プリンターで「出力した」作品とペンプロッターで「描かせた」作品とを見比べる、みたいな話は枯れるほど行われた思考実験である。ペンで描かれた筆致に人間性を感じてしまうというような話はよくある認知バイアスだが、しかしそうしたバイアスの集積こそが審美性の正体ではないと我々は否定することができるだろうか。

作品から感じる人間性とは、大局的な視点では「文脈」であり、ミクロな視点ではディテールに宿る「人間らしさ」と、その総体的表現である「作家性や作風」と言えるだろう。技巧的な部分に着目する以外にも、表現とアートの視点としては、ここに「表現の意図」や「メッセージ」の独自性、作家や作品の社会的立ち位置などより大きなストーリーが存在する。他にも見方は色々あるが、とりあえずざっくりとこんな感じで捉えたい。これらの人間性を示す要素が作品に如何にして宿るのかを考えることが、比較論的に、AIがもつ道具としての特性についての理解を深める良い視点を切り出してくれるのではないか。そういう期待を持っている。

さて、現代のデジタルクリエイティブにおいては、作品を制作したのが「人間であるかどうか」を厳密に規定することは難しい。あえて過激な言い方をするならば、たとえばバケツツールで1クリックすれば領域が塗りつぶせてしまうが、これは人間が描いたのだろうか?それとも機械が描いたと言えるのだろうか?

ここには様々な意見があると思うが、厳密な線引きとなると、それは結果を見ても、さらには作者でさえもわからない。以前、SAIが登場して流行り出した際、ペンの補正機能を使って描いた絵は邪道であるという“差別”が行われていたことを思い出す(今でもあるのかもしれないが)。わざわざ無補正ですと注釈を入れている作家もいたほどだ。これは現在のAI絵をめぐる状況(AIを用いたことを明示するタグをつけなければコミュニティから排斥される)にもどことなく似ている。

美術の歴史の中では、高額な青色の絵の具を大量に使うことを揶揄するような時代もあった。絵の具を他人の財力で賄ったら、作品の自作としての純粋性が下がるのだろうか?画材は自作しなければならないとでも言うのだろうか。

他にも、ディレクション制作という考え方がある。現代のクリエイティブでは当たり前に行われている分業体制である。大昔にはアーティストはアトリエ(工房)を持ち多数のスタッフ(弟子)を抱え分業を行い作品を制作していた。これと同じである。歴史に残るアーティストの中には、実際には晩年になるとほとんどディレクションのみに専念し、自ら筆をとって描いていない作家も存在する。どこまでが自作であると言えるのかは現代まで続く謎である。この場合、「アトリエに存在するスタッフで構成されるチーム」という“構造”が描いているのである。それは果たして人間なのか?システムが描いているとは言えないだろうか?

視野を広くとると、少し例を挙げるだけでも、すでに「人間ではない要素」が人間の制作活動に多量に混入していることは明らかだ。今にはじまったことではない。これらの歴史の文脈の突端たる現代のイラストレーションが技術的にどれほどピュアに「人間作である」と標榜できるのかはわからない。(これはもちろんその他多くの創作分野にも渡る話だ)

いつからか作品としてのイラストレーションは一人で描くものと相場が決まってしまっている。これはアートも同様である。美術の世界では作家に着目し評価するという歴史的価値観が継続しているからだろう。しかし今まで個人での制作が当たり前だったものであっても、集団制作によってのみ表現され得る地平があるかもしれない。逆もまた然りである。

そういう作家活動はいくらでもあるが、展示などはその代表例だろう。作家だけがいても空間は存在できない。しかし完全な統合性を持った作品を志向する場合、複合的なクリエイティブというのは難度が高い。チームクリエーションに最も重要なのは意思の疎通だが、人間が最も苦手なものもまた意思の疎通である。複数の創造性が織りなす可能性は果てがないけれど、もしかするとそこにいるのは人間でなくとも良いかもしれない。

ここまではあくまで技術(Technique)に着目した話である。つまり芸術(Art)の視点ではない。チーム制作のプロセスやフローの話も、広義の技術に該当するだろう。「どうやって描くか」ではなく「何をいかにして描くか」の視点では、作家が自らの作品であると宣言することは途端に容易になる。作者の意図は作者しか知り得ない。作者の人生を含む文脈を経由することで、どの技法を用いるか等のすべての選択に意図が宿る。

表現の体系の中で、技術や道具は低レベルのレイヤーに位置する描画部分を担当してきた。道具は意図を発揮することができない。だから道具は道具として存在し続けるはずだ。きっとAIもそうなっていくだろう。意図は作家のものである……と考えていたのが3ヶ月前までの我々であった。

突如現れた画像生成AIが示したのは、作家的意図を含んだ作品を丸ごと学習することで「意図のようなものが発現しているように見える」作品が作れるようになるということだった。本来は「技術的に指示した通りに描く」ということを目指した、その技術の中に含まれてしまった、あるはずのない作家性。それを皆わずかながら察知したのではないか。もちろん作品として相対することで、審美的には意図の欠如はある程度わかるものではあるけれど「それらしさ」が宿っているという異質さ、異様さ。そこが画像生成AIの現在の特異的な立ち位置だろう。

制作的視点での、人間とそうでないものについてのAIにまで至る道筋はこんな感じで捉えている。今後道具としては当たり前に使えるようになるのは間違いない。Adobe系ツールにもすでに導入されており、その未来を疑う人間はいない。(というよりすでに市場にAIツールを用いた制作物は広く普及していることを再認識せねばならない)。しかしそれらは技術(Technique)の話だ。気になるのはその先があるのかどうか、AIがその先(Art)に進む存在なのか否か。

*****

2万枚を目前にしたあたりで、NovelAIを用いて、デフォルメされた筆致を再現してみる実験を行ってみることにした。画像生成AIを見定めるために行う、視覚表現の研究のようなものだ。結果として得たのは、記号に宿る情報としての“人間らしさ”は“実装できる”だろうという実感だ。ブラインドで人間かAI作かと比較するテストが少し前に流行ったが、(うぬぼれに聞こえるかもしれないが)あれを私の出力した画像で行えばおそらく見破れる人間は存在しないだろう。という程度には「人間である」という記号を再現することは可能であるという所感を得た。

今回はデフォルメ行為に含まれると思われる、以下の特徴をPromptとシステム上の仕組みを利用して実装した。

  • 手描き感のある筆致
  • 省略されたディテールと人体構造
  • 正確でない誇張された造形 ケレン味
  • 揺らぎ
  • ダイナミックな構図

構築にはおそらく積算すると10時間程度かかり、合計で1500枚ほどの出力、結果としては最終的にこのツイートのようになった。

視覚表現というのは、ビジュアルコミュニケーションであり、つまり記号が交換される活動だ。そして記号が記号として認識可能である時点で、記号を扱う仕組みさえ構築できれば再現が可能であるということである。

技術的には正しい言い方ではないと思うが、表現者の目線からは、画像生成AIは学習データとして高次元の視覚言語(Visual Language)を保持していると仮に考えて、Prompt=テキスト言語(Text Language)と言語同士を交換しながら、高次元の情報空間に存在する視覚言語を低次元の指示によって切り出す活動である、という解釈ができると思う。ちょっと何言ってるのかわからんと思うけどいい感じに掴めてきているので、このあたりはそのうちどこかにまとめたいと思う。

技術的な要素集合として再現が可能であるならば、最終的にはそれらの区別は無意味となる。主に厳密さや品質への懸念の大部分は、商業用途で品質上の劣等が業務に影響を及ぼすリスクを避けたいだとかそのあたりのはずだから、問題は時間と共に解消する。(趣味・ホビー用途のイラストレーションについては前提や利用目的が多様すぎるため考慮に入れていないが、先端のアーティストが商業的な取り組みに移行していくことを踏まえると一定の理解としては有効に思える。)

つまり純粋に作品のみで評価を行うようになるはずだし、その方が色々と楽だ。区別などする必要はあったのかとすら思える。良いものは良い。それでも作品の強度の話はあって、芸術(Art)としての作品制作を能動的に行える人間には圧倒的なアドバンテージがある。表現意図が乗っているかどうかでの分岐もある(AIが疑似再現した意図が機能してしまわなければ)。だから作品としてのイラストレーションはしばらく安泰と言えるかもしれない。そしてこの認識に立つとはじめて見えてくることがある。それではAIは何のためにあるのか?

話を立ち戻ると、AIはやはり道具としては問題なく使えるようになるだろう。しかしその道具は制作者に何を与えてくれるのだろうか。技術的な使用途についてはディテールの増強や描画コストの削減など、いくらでも思いつく。しかしそれらは現在においても、例えばアシスタントやスタッフがいれば事足りる。新しいことではない。コストの低下が及ぼす社会的インパクトについては様々議論されていけばいいと思う。

しかし我々は表現者であるから、表現者としてAIを捉えるならば、もっと新しい視点がほしいと思う。少なくとも私はそうだし、これを読んでいる方も同じ気持ちであることを願う。新しい道具は新しい表現の可能性を広げてくれる。新しい絵筆を買ったら、時間を忘れて描いてしまうように、そういう見方がしたい。

一つヒントになるのは、前述のデフォルメ実験の成果は、Prompt・設定・生成プロセスによって定式化ができた状態になった、と認識できる点だろう。つまり再利用が可能で、同様の表現の異なるパターンの絵を無限に生産できるわけだ。これはある種の関数(function)、もしくはアルゴリズム(algorithm)のようなものとして捉えても良いかもしれない。

つまりPromptや設定値のコントロールを一種の変数とみなし、ランダム化したい箇所の指定、変化させたい概念を代入するなどして、バリエーションの製造器として活用する。現状ではtxt2img(テキストから画像を生成)のみを利用しているが、例えばimg2imgで有効に機能するPromptを構築・関数化して、ラフを投げ込むだけで、特定の意図した表現に整える、といったことが可能になる。これは未来の話ではなく、今でも十分に実現できるはずだ。

これはComputational Designの利用方法と同様のバリエーション出しを、表現の世界でもやってしまえるということを意味している。同じような話に聞こえるかもしれないが、大きな跳躍だ(これらの違いについては信じられないくらいに話が長くなるから別の機会としたい)。さらに、ビジュアルコミュニケーションのための記号を直接編集できるという点で非常に新しい使い方に思える。創作物の限界費用・複製費用、さらには作業費用がゼロに近づくというのは、今までになかった次元の話だ。今後はディレクションの重要性がより高まることが予想される。

もう一つのヒントとしては、デフォルメのような「概念としてしか存在していなかった」手法を、道具として扱えるようになったという点だろう。道具になるというのは、属人的なスキルとしての技術が、外部化され特定個人に依存しないようになるということだ。

社会的には、誰でも扱えるようになり(技術の汎用化)、複製が可能となる(技術の流通)。表現者・制作者目線では、道具同士を掛け合わせたり別の使い道が見えやすくなる(可用性の向上)、個別に適用したり分離ができる(自由度の上昇)、度合いをパラメータで変更可能となる(表現の量子化)、あたりが恩恵となる。

特に最後のパラメータ化に関しては、前述した関数化の観念と併せて用いると、例えば今まではやったことのないような度合いで表現を試してみることができる。その結果、考えもつかなかったような表現の可能性を見出すことができるかもしれない。かつてアウトサイダーアーティストたちが我々の美術的常識を書き換えてくれたことと似ている。

画像生成AIは人の理を知らない存在ゆえ、人智を超えたような掛け合わせの地平も見えるかもしれない。人間であれば失敗であると捨て去られていた可能性の中に、誰も知らない拡がりがあるかもしれない。高度なスキルを有したアーティストであれば、これらの操作は基本的な技能として身についているかもしれない。しかし要点としては熟達者であっても見えていない領域を発見できるところに価値があるので、すべてのクリエーターに恩恵がある。

つらつらと書いたが、なかなか捉えどころが難しい話題だと思う。著作権の話などが複雑に絡み合い、表面的なおもしろさが先行しているため、表現に対する議論がまだ起きてすらいないように思える。いまのところ、画像生成AIは「表現を変換する装置」として捉えると良さそう、というのが個人的所感だ。心の中では表現器(Expression Machine)みたいな呼び方をしている。もしかすると「Artを一定担うことのできるTechnique」という新しい地平になるのかもしれない(し、単なる道具になっていくだけかもしれない)。今後、適切な議論を経て新しい道具としての捉え方や呼び方が定まっていくと良いと思う。

それと、イラストレーションに関しては完全に門外漢なので、もしおかしな点があったら教えていただけるとありがたい。少なくとも、ビジュアルアートを業務で扱う人間としての所感なのでそこまでズレてはいないとは思うが、皆さんと同じく画像生成AIという新たな表現の可能性に対して暗中模索で「こうかもしれない」というところをつついて進んでいるような状態なので、一緒に暗闇を歩いていけると最高にたのしいと思う。 ぜひ多くの議論が技術や利益関係のみならず表現に対して向かうことを願っています。

2022/10/25 記 sabakichi(@knshtyk)