エージェント系AIは、賢くても事故る

AI活用・検証

ここまで、一般的なAIについて書いてきました。

「どれが賢いか、どれが優れているか、そういう話ではない」

という前提も置いてきたつもりです。

今回は、少し話題を変えます。
エージェント系AIの話です。

といっても、どのエージェントが一番か、どう使えば便利か、そういう解説をするつもりはありません。

エージェント系AIを使っていて、「これは性能の問題じゃないな」と感じた場面が何度かありました。

一発目は、かなり優秀なんですよね。むしろミスは少ない。

それでも、事故る。

なんでだろう、とずっと引っかかっていました。

今回はその理由を、機能でも性能でもなく、構造の話として整理してみようと思います。

 

一発目は優秀。問題はそのあと

エージェント系AIを使っていて、最初に感じたのは「思ったより優秀だな」ということでした。

一発目に作らせる分には、かなり安定している。大きな破綻も少なく、むしろ一般的なAIより安心感がある場面もありました。

問題は、そのあとだったんですよね。

修正を入れ始めると、急におかしな挙動が増える。直したはずのところとは別の部分が壊れたり、話の流れがズレたまま進んだりする。

こちらが「直してほしい」と言っている内容と、エージェントが理解している作業の範囲が、少しずつズレていく感覚がありました。

最初は、精度の問題だと思っていました。プロンプトが悪いのか、指示が雑なのか、モデルの限界なのか。

でも、何度か同じことを繰り返すうちに、それとは違う気がしてきたんです。

性能じゃなくて、構造の問題

エージェント系AIは、常に全体を正確に把握して動いている——という前提で見ると、説明がつかない挙動が多い。

むしろ、「今どこを見て作業しているか」「どこまでを一つの文脈として扱っているか」が、人間側からは見えにくい。

これは性能の話というより、構造の話だと思っています。

だから、全部は任せない

だから今は、エージェント系AIにすべてを任せるような使い方はしていません。

一気にまとめて修正させることも、全自動で回すことも、少なくとも自分の環境ではやっていない。

使う場面はかなり限定しているし、途中で人間が止められる前提でしか使わないようにしています。

この使い方に落ち着くまで、正直、かなり試しました。

どういう場面で事故りやすいのか。どこまで任せると危ないのか。

その判断が固まるまでには、それなりに時間がかかっています。何度壊されたか分かりません。

その話は、次に書こうと思います。

 

第5回
エージェント系AIを、かなり使い倒した結果
前回、エージェント系AIは「賢くても事故る」という話を書きました。「性能が足りない」という話ではありません。むしろ一発目の生成だけを見ると、かなり優秀だと思っています。ただ、その判断に至るまでには、それなりに試してきました。使い始めたころは...

 

タイトルとURLをコピーしました