Copilot Studioの評価機能とは?

Copilot Studioでエージェントを作成していると、「想定通り動いているか?」といった確認は避けて通れません。

手動テスト(チャットテスト)でも確認できますが、テストパターンが増えてくると確認漏れや品質のばらつきが出てきます。そこで活用したいのが、評価(テスト)機能です。

今回は、評価機能の概要と実際に触ってみた流れをまとめます。

目次

  • 評価機能とは何か
  • テストセットとテストケース
  • テスト方法の設定と判定基準
  • 実際に試してみた
  • ハマりポイント
  • 利用シーン
  • まとめ

評価機能とは何か

あらかじめ用意した質問群をエージェントに実行させ、その回答を定義済みの基準で自動判定する機能です。通常のテストチャットでの動作確認とは異なり、同じ質問セットを繰り返し実行できる点が特徴です。

主な目的はこのあたりです。

  • 変更前後の品質比較
  • 想定シナリオに対する応答精度の確認
  • 回答の一貫性の検証
  • ナレッジにない情報への質問に対する挙動の確認

テストセットとテストケース

評価の基本単位は次の2つです。


解説の続きは、Qiitaの記事をご覧ください。