はつねの日記

Kinect, Windows 10 UWP, Windows Azure, IoT, 電子工作

生成AI時代だからこそのAzure AI Services活用術(その3)~プレイグラウンドを試してみよう~

はじめに

Microsoft Ignite 2025にて「Azure AI Foundry」の名称が「Microsoft Foundry」に変更されました。
以前からAzureを使っていた人は「Windows Azure」から「Microsoft Azure」に変更になったことを思い出した人も多いのではないでしょうか?
この変更によりAzureはWindowsだけのものではなくLinuxオープンソース技術も含めた様々な要素を含んだクラウドとして成長しました。
今回の名称変更も「Azure AI」という枠組みを広げて「Micrsoft製品全体」に対する「Foundry」に成長するというビジョンを感じるのは私だけでしょうか。

現時点で「Microsoft Foundry」の役割として次のような役割が明確になっています。

  1. 企業が生成AIアプリやエージェントを 大規模かつ安全に構築・運用 できる統合基盤。
  2. 単なる開発ツールではなく、AIモデル選択からデプロイ、ガバナンス、セキュリティ統合までを一元管理。
  3. Azure OpenAI(GPT-4/3.5など)に加え、Mistral、Meta、Cohere、オープンソースモデルも利用可能。
  4. Microsoft DefenderやEntraとの統合で、セキュリティ・コスト・パフォーマンス・ガバナンスを改善。

重要なことは、Microsoftが「Microsoft Foundry」をMicrosoft 365 CopilotGitHubFabricなどと連携する エンタープライズAIの工場的プラットフォーム として拡張された位置付けとしている点です。

前回

hatsune.hatenablog.jp
AAD (Azure Active Directory)と Microsoft EntraIDを使った開発担当システムの10月リリースに向けて作業が佳境を向かえてたこともあり若干間が空いてしまいましたが、無事リリースされて2か月無事故・無障害で経過して心理的に通常体制にもどってきましたで、下記記事の続きを再開します。
前回はAzure Portalから「Azure AI Services」のリソース作成方法、具体的には、Speech(音声認識)のリソース作成方法を紹介しました。
また、「Azure AI Foundly」のリソースとして「Speech」を指定する方法についても紹介しています。

今回について

そこで今回は、まずは、「Microsoft Foundry」で「Speech」のリソース指定方法を確認してみたいと思います。
その次に、Speechの「プレイグラウンド」を試してみましょう。

Microsoft Foundry」で「Speech」のリソース指定方法を確認

Microsoft Foundry を開始

名称が変わってもAzure ポータルからの開始方法は同じです。ポータルにサインインしたら、

  1. サイドメニューの[リソースの作成]をクリック
  2. [Azureサービスのみ]チェックとして[Marketplaceを検索]欄で「Microsoft Foundly」と入力して検索
  3. Microsoft Foundly]リソースの[作成]をクリック

とすることで、Microsoft Foundry のリソースを作成できます。
なお、「Azure AI Foundry」と検索してもちゃんと「Microsoft Foundry」が検索されてきます。

今回の記事では、下記のように初期状態でリソースを作成して進めます。

しばらくすると次のようなエンドポイントが生成され、Microsoft Foundry ポータルに移動ができるようになります。

https://<名前>.services.ai.azure.com/api/projects/proj-default

Microsoft Foundry ポータル

Microsoft Foundry ポータルを起動して、まず目に入ってくるのは上部の2つの要素です。

  • 新しいFoundry
  • Foundry Agent
新しいFoundryポータル

新旧のポータルの違いが Microsoft Learn に掲載されていたので引用します。

Portal いつ使用するか
Microsoft Foundry (クラシック) Azure OpenAI、Foundry リソース、ハブベースのプロジェクト、Foundry プロジェクトなど、複数のリソースの種類を使用する場合は、このポータルを選択します。
New Foundry このポータルを選択すると、シンプルさと強力で安全なツールを組み合わせたシームレスなエクスペリエンスを実現し、マルチエージェント アプリケーションを構築、管理、拡張できます。 Foundry プロジェクトのみがここに表示されます。他のすべてのリソースの種類に対して (クラシック) を使用します。

まずは、Azure AI Servicesを使う上での影響をみるために、「クラシック」で作成し、「New Foundry」でどのようになるかというステップをとりたいと思います。
今回のゴールは、その中でも「Speechをプレイグラウンドで試す」というところに注目していきましょう。

Foundry Agent


Foundry Agent は、Foundry ポータル専用の Copilot のようなものです。

Agentにプレイグラウンドについて聞く
早速、「Speech で音声認識をプレイグラウンドで試したい」とエージェントに聞いてみましょう。

Azure AI Foundryのプレイグラウンドで音声認識を試すには、以下の手順に従ってください。

  1. Foundryポータルにアクセス: Foundryポータル に移動し、デプロイされたgpt-realtimeモデルがあるプロジェクトを選択します。
  2. プレイグラウンドを選択: 左側のメニューからPlaygroundsを選択し、次にAudio playgroundを選択してTry the Audio playgroundをクリックします。
  3. モデルの選択: Deploymentドロップダウンからデプロイされたgpt-realtimeモデルを選択します。
  4. 設定の調整: 必要に応じて、モデルに指示を与えるテキストボックスや、しきい値プレフィックスパディング、サイレンスの持続時間などの設定を変更します。
  5. リスニングの開始: Start listeningを選択してセッションを開始します。マイクに向かって話しかけることでチャットを開始できます。
  6. チャットの中断と終了: いつでも話すことでチャットを中断できます。チャットを終了するには、Stop listeningボタンを選択します1。

残念ながら、得られた手順は「Azure AI Services」の音声認識ではなく「OpenAI」のもののようです。

Agentにヒントを与える
「Azure AI Services」の音声認識の手順を知りたいときは「「Azure AI Services Speech」ではどうでしょうか」と更に聞いてあげて、こちらのバイブスを感じてもらいましょう。

Azure AI ServicesのSpeech機能を使用して音声認識を試すには、以下の手順を実行できます。
 :
(中略)
 :
これらの手順に従うことで、Azure AI ServicesのSpeech機能を利用した音声認識を体験できます。さらに詳しい情報は、Azure AI ServicesのSpeechサービスの概要 を参照してください。

プレビューなのでまだこれから改善されることが予想されますが、まだ、こちらも Open AI 前提となっています。
ただし、最後の「Azure AI ServicesのSpeechサービスの概要」は正しいリンクが張られていますので、こちらを参考にしていきます。
learn.microsoft.com

Microsoft Foundry ポータルから「Azure AI Services - Speech」を指定

ポータルの概要には、ライブラリとして「Microsoft Foundry」「Azure OpenAI」「Azure AI サービス」が選択できます。

「Azure AI サービス」を選択すると、Foundry としての Azure AI Services のエンドポイントや「Speech」のエンドポイントを表示できます。
「Speech」だけはレイテンシーの問題もあるためか Microsoft Foundry リソースをデプロイしたリージョン(例:japaneast)付のURLとなっています。
そのほかにも「すべてのリソースを表示する」をクリックして表示される一覧から進むこともできます。

「Azure AI Services - Speech」のプレイグラウンド

Microsoft Foundry ポータルのサイドメニューにある「プレイグラウンド」をクリックすると様々なプレイグラウンドへのリンクを表示できます。

今回はこの中から [音声プレイグラウンド]-[リアルタイムトライスクリプション] を選択します。

音声を入力してプレイグランドを試す


画面上のマイクアイコンがついた「レコード」をクリックするとリアルタイムでの文字起こしがすぐに試せます。
このような形でコードを1行も書かずにAzure AI Servicesの機能や精度を試すことができました。
これがプレイグランドの良い点ですね。

コードサンプルを入手する

機能や精度が目的を達成できそうでされば、いよいよ自分自身のコードから呼び出します。
[コードの表示] をクリックすると、コードから利用するときに必要な [エンドポイント] と [リソースキー] が表示されたダイアログが開きます。
また、[ドキュメントの表示]、[クイックスタートの表示]、[サンプルコードの表示]へのリンクもあります。

クイックスタート

試しに [クイックスタートの表示] をクリックしてみましょう。
ai.azure.com
もし、日本語ではなく英語など別言語で表示されてしまう場合は、右上の [歯車] マークをクリックして言語設定を「日本語」にします。

そうするとプレイグラウンドで試す方法についての解説が書かれています。
このクイックスタートですが、最下層までスクロールするとプログラミング言語が選択できます。

C#」に変更すれば、C#での「Speech SDK」を使ったサンプルコードが表示できます。

ドキュメントの表示

[ドキュメントの表示] で表示される英語ドキュメントを日本語ドキュメントに変更するのは少しだけ手間ですが、こちらも簡単に日本語ドキュメントに変更できます。
クリックして表示されるドキュメントのURLは次のようになっています。

https://learn.microsoft.com/en-us/azure/ai-services/speech-service/speech-to-text

このURLの中の「en-us」を「ja-jp」に変更します。
learn.microsoft.com
これでドキュメントも日本語で読みことができます。

バイブコーディングを試そう。

GitHub Copilot Chatに対して次のような質問をしてみます。

C#とSpeech SDKを使ってリアルタイムに音声認識するコートを教えて。
音声の入力元は選択できるようにしたいです。

すると約180行くらいの「Program.cs」のコードを生成してくれます。
このコードでは下記のようにちゃんと要望をかなえてくれる内容になっていました。

Console.WriteLine("\n入力ソースを選んでください:");
Console.WriteLine("1) デフォルトマイク");
Console.WriteLine("2) マイク一覧から選択");
Console.WriteLine("3) WAV ファイルを認識");
Console.WriteLine("4) 終了");
Console.Write("選択(1-4): ");

特にマイク一覧などはなかなかコードが見つからない時もあるのですが、NAudioというOSSを使ったコードを生成してくれていました。

for (int i = 0; i < deviceCount; i++)
{
var caps = WaveIn.GetCapabilities(i);
Console.WriteLine($"{i}) {caps.ProductName}");
}

この生成されたコードですごいと思うのは、音声認識系をコードを書くときに必要なサンプリングレートを合わせるリサンプリングなどのノウハウも入っている点です。
初めて取り組む場合には、実際にやって、きれいな音声がとれずに悩んで、理由を探し回ってやっとたどり着く内容です。
そして、たどり着いてから次に解決方法を探し始めないといけないのですが、そのあたりが丸っとGitHub Copilotから提示されているのです。
まさに「なるほどね」と一気に知識が高まる感じを実感できるのではないでしょうか。まさに心優しき有識者が伴走してくれているようですね。

おわりに

今回のFoundryポータル変更で一番気になったのは、まだプレビューですが Foundry Agent です。
ポータルから離れることなく AI と会話しながら設定を行っていける可能性があり、まさに、バイブセッティングの幕開けを予感するものでした。
更にエージェントの機能が拡充され、GitHub Copilot Chatで生成したコードを自動的にコードに入れてくれるように、Foundry Agent が設定値まで提案&影響を見せてくれて、承諾するだけで設定が進むような未来も近いのかなという予感を感じさせるものでした。
来年の Build や Ignite がますます楽しみになりますね。