ここまで、一般的なAIについて書いてきました。
「どれが賢いか、どれが優れているか、そういう話ではない」
という前提も置いてきたつもりです。
今回は、少し話題を変えます。
エージェント系AIの話です。
といっても、どのエージェントが一番か、どう使えば便利か、そういう解説をするつもりはありません。
エージェント系AIを使っていて、「これは性能の問題じゃないな」と感じた場面が何度かありました。
一発目は、かなり優秀なんですよね。むしろミスは少ない。
それでも、事故る。
なんでだろう、とずっと引っかかっていました。
今回はその理由を、機能でも性能でもなく、構造の話として整理してみようと思います。
一発目は優秀。問題はそのあと
エージェント系AIを使っていて、最初に感じたのは「思ったより優秀だな」ということでした。
一発目に作らせる分には、かなり安定している。大きな破綻も少なく、むしろ一般的なAIより安心感がある場面もありました。
問題は、そのあとだったんですよね。
修正を入れ始めると、急におかしな挙動が増える。直したはずのところとは別の部分が壊れたり、話の流れがズレたまま進んだりする。
こちらが「直してほしい」と言っている内容と、エージェントが理解している作業の範囲が、少しずつズレていく感覚がありました。
最初は、精度の問題だと思っていました。プロンプトが悪いのか、指示が雑なのか、モデルの限界なのか。
でも、何度か同じことを繰り返すうちに、それとは違う気がしてきたんです。
性能じゃなくて、構造の問題
エージェント系AIは、常に全体を正確に把握して動いている——という前提で見ると、説明がつかない挙動が多い。
むしろ、「今どこを見て作業しているか」「どこまでを一つの文脈として扱っているか」が、人間側からは見えにくい。
これは性能の話というより、構造の話だと思っています。
だから、全部は任せない
だから今は、エージェント系AIにすべてを任せるような使い方はしていません。
一気にまとめて修正させることも、全自動で回すことも、少なくとも自分の環境ではやっていない。
使う場面はかなり限定しているし、途中で人間が止められる前提でしか使わないようにしています。
この使い方に落ち着くまで、正直、かなり試しました。
どういう場面で事故りやすいのか。どこまで任せると危ないのか。
その判断が固まるまでには、それなりに時間がかかっています。何度壊されたか分かりません。
その話は、次に書こうと思います。


