Copilot Studioでエージェントを作成していると、「想定通り動いているか?」といった確認は避けて通れません。
手動テスト(チャットテスト)でも確認できますが、テストパターンが増えてくると確認漏れや品質のばらつきが出てきます。そこで活用したいのが、評価(テスト)機能です。
今回は、評価機能の概要と実際に触ってみた流れをまとめます。
目次
- 評価機能とは何か
- テストセットとテストケース
- テスト方法の設定と判定基準
- 実際に試してみた
- ハマりポイント
- 利用シーン
- まとめ
評価機能とは何か
あらかじめ用意した質問群をエージェントに実行させ、その回答を定義済みの基準で自動判定する機能です。通常のテストチャットでの動作確認とは異なり、同じ質問セットを繰り返し実行できる点が特徴です。
主な目的はこのあたりです。
- 変更前後の品質比較
- 想定シナリオに対する応答精度の確認
- 回答の一貫性の検証
- ナレッジにない情報への質問に対する挙動の確認
テストセットとテストケース
評価の基本単位は次の2つです。
解説の続きは、Qiitaの記事をご覧ください。







