エージェント系AIを、かなり使い倒した結果

前回、エージェント系AIは「賢くても事故る」という話を書きました。

「性能が足りない」という話ではありません。
むしろ一発目の生成だけを見ると、かなり優秀だと思っています。

ただ、その判断に至るまでには、それなりに試してきました。

使い始めたころは、期待も大きかったし、正直、かなり無茶な使い方もしたと思います。

全自動で回そうとしたり、まとめて修正させたり。

今振り返ると、よくやっていたなと思う場面も多いです。

何度環境を壊したか分かりません。

その中で、

「これはうまくいかないな」
「ここは危ないな」

という感覚が、少しずつ溜まっていきました。

今回は、エージェント系AIをかなり使い倒した結果として、どんな判断に至ったのか。

具体的な手順や設計の話ではなく、あくまで使ってきた側の視点として整理してみようと思います。

最初は、全部任せようとしていた

エージェント系AIを使い始めた当初は、正直、かなり期待していました。

一度動かせば、あとは勝手に組み上がっていく。そういう未来を、どこかで想像していたと思います。

だから最初は、細かい区切りを入れずに任せていました。まとめて作らせて、まとめて直させて、最後に確認すればいい、という感覚だったんですよね。

結果は、だいたい事故る。

大きく壊れるわけではないんです。一見すると動いているように見える。でもよく見ると、意図していない変更が混ざっていたり、別の部分が静かに壊れていたりする。

最初は、その原因を探していました。指示が曖昧だったのか。プロンプトが足りなかったのか。使っているモデルが悪いのか。

でも、何度か同じようなことを繰り返すうちに、「これはそういう問題じゃないな」という感覚が強くなってきたんです。

エージェント系AIは、人間が想像しているほど、全体を一枚の地図として見渡して動いているわけではない。

むしろ、その時点で扱っている文脈や作業単位を、順番に積み上げている、という印象に近いです。

そう考えると、まとめて修正させたときに起きるズレも、一気に任せたときの事故も、説明がつくようになりました。

それからは、試し方が変わりました。

一気に任せない。途中で止められない形では使わない。どこまでを一つの作業として扱わせるかを、意識的に切るようになりました。

もちろん、それでもミスがゼロになるわけではありません。

ただ、「どこでおかしくなったか」「どこまで戻せばいいか」が分かるようになる。この差は大きいんですよね。

こうした判断は、一度で決まったわけではありません。

何度も失敗して、「あ、これはやりすぎだな」「ここまでは任せていいな」という感覚が、少しずつ積み上がっていきました。正直、かなり遠回りしたと思います。

今は、エージェント系AIを使うときも、最初から万能だとは思っていません。

便利な場面は確かにある。ただし、人間が手を離しすぎない前提で使う。

それが、今のところの結論に近いです。

こうして振り返ると、エージェント系AIに対する付き合い方は、かなり変わったと思います。

最初は、どこまで任せられるかを探っていました。今は、どこまで任せないかを意識しています。

便利かどうか、ではなく、自分が管理できるかどうか。その基準で、使う場面を選ぶようになりました。

とはいえ、今の使い方が正解だとは思っていません。

環境も変わるし、モデルも進化する。あくまで、現時点での落とし所です。また半年後には全然違うこと言ってるかもしれません。

次は、そうした試行錯誤の末に、「今はどこに落ち着いているのか」という話を書いてみようと思います。

第6回