前回、エージェント系AIは「賢くても事故る」という話を書きました。
「性能が足りない」という話ではありません。
むしろ一発目の生成だけを見ると、かなり優秀だと思っています。
ただ、その判断に至るまでには、それなりに試してきました。
使い始めたころは、期待も大きかったし、正直、かなり無茶な使い方もしたと思います。
全自動で回そうとしたり、まとめて修正させたり。
今振り返ると、よくやっていたなと思う場面も多いです。
何度環境を壊したか分かりません。
その中で、
「これはうまくいかないな」
「ここは危ないな」
という感覚が、少しずつ溜まっていきました。
今回は、エージェント系AIをかなり使い倒した結果として、どんな判断に至ったのか。
具体的な手順や設計の話ではなく、あくまで使ってきた側の視点として整理してみようと思います。
最初は、全部任せようとしていた
エージェント系AIを使い始めた当初は、正直、かなり期待していました。
一度動かせば、あとは勝手に組み上がっていく。そういう未来を、どこかで想像していたと思います。
だから最初は、細かい区切りを入れずに任せていました。まとめて作らせて、まとめて直させて、最後に確認すればいい、という感覚だったんですよね。
結果は、だいたい事故る。
大きく壊れるわけではないんです。一見すると動いているように見える。でもよく見ると、意図していない変更が混ざっていたり、別の部分が静かに壊れていたりする。
最初は、その原因を探していました。指示が曖昧だったのか。プロンプトが足りなかったのか。使っているモデルが悪いのか。
でも、何度か同じようなことを繰り返すうちに、「これはそういう問題じゃないな」という感覚が強くなってきたんです。
全体を見渡しているわけではない
エージェント系AIは、人間が想像しているほど、全体を一枚の地図として見渡して動いているわけではない。
むしろ、その時点で扱っている文脈や作業単位を、順番に積み上げている、という印象に近いです。
そう考えると、まとめて修正させたときに起きるズレも、一気に任せたときの事故も、説明がつくようになりました。
試し方が変わった
それからは、試し方が変わりました。
一気に任せない。途中で止められない形では使わない。どこまでを一つの作業として扱わせるかを、意識的に切るようになりました。
もちろん、それでもミスがゼロになるわけではありません。
ただ、「どこでおかしくなったか」「どこまで戻せばいいか」が分かるようになる。この差は大きいんですよね。
感覚は、少しずつ積み上がっていった
こうした判断は、一度で決まったわけではありません。
何度も失敗して、「あ、これはやりすぎだな」「ここまでは任せていいな」という感覚が、少しずつ積み上がっていきました。正直、かなり遠回りしたと思います。
今は、エージェント系AIを使うときも、最初から万能だとは思っていません。
便利な場面は確かにある。ただし、人間が手を離しすぎない前提で使う。
それが、今のところの結論に近いです。
付き合い方は、かなり変わった
こうして振り返ると、エージェント系AIに対する付き合い方は、かなり変わったと思います。
最初は、どこまで任せられるかを探っていました。今は、どこまで任せないかを意識しています。
便利かどうか、ではなく、自分が管理できるかどうか。その基準で、使う場面を選ぶようになりました。
とはいえ、今の使い方が正解だとは思っていません。
環境も変わるし、モデルも進化する。あくまで、現時点での落とし所です。また半年後には全然違うこと言ってるかもしれません。
次は、そうした試行錯誤の末に、「今はどこに落ち着いているのか」という話を書いてみようと思います。


