news 2026/4/23 13:26:47

54_Spring AI 干货笔记之 Azure OpenAI 语音转录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
54_Spring AI 干货笔记之 Azure OpenAI 语音转录

一、Azure OpenAI 语音转录

Spring AI 支持 Azure Whisper 模型。

二、前置条件

从 Azure 门户的 Azure OpenAI 服务部分获取您的 Azure OpenAI 端点和 API 密钥。Spring AI 定义了一个名为 spring.ai.azure.openai.api-key 的配置属性,您应将其设置为从 Azure 获取的 API 密钥值。同时还有一个名为 spring.ai.azure.openai.endpoint 的配置属性,应设置为在 Azure 中部署模型时获取的端点 URL。

三、自动配置

Spring AI 的自动配置及其 Starter 模块的构件名称发生了显著变化。更多信息请参阅升级说明。

Spring AI 为 Azure OpenAI 语音转录生成客户端提供了 Spring Boot 自动配置。要启用它,请将以下依赖项添加到项目的 Maven pom.xml 文件中:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-azure-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-starter-model-azure-openai'}

请参考“依赖管理”部分,将 Spring AI BOM 添加到您的构建文件中。

转录属性

现在通过顶级属性 spring.ai.model.audio.transcription 来启用或禁用音频转录的自动配置。

  • 要启用:spring.ai.model.audio.transcription=azure-openai (默认已启用)

  • 要禁用:spring.ai.model.audio.transcription=none (或任何非 azure-openai 的值)

此项变更是为了支持配置多个模型。

前缀 spring.ai.openai.audio.transcription 用作属性前缀,用于配置 OpenAI 图像模型的重试机制。

四、运行时选项

AzureOpenAiAudioTranscriptionOptions 类提供了进行转录时使用的选项。在启动时,会使用 spring.ai.azure.openai.audio.transcription 指定的选项,但您可以在运行时覆盖这些选项。

例如:

AzureOpenAiAudioTranscriptionOptions.TranscriptResponseFormatresponseFormat=AzureOpenAiAudioTranscriptionOptions.TranscriptResponseFormat.VTT;AzureOpenAiAudioTranscriptionOptionstranscriptionOptions=AzureOpenAiAudioTranscriptionOptions.builder().language("en").prompt("Ask not this, but ask that").temperature(0f).responseFormat(this.responseFormat).build();AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=azureOpenAiTranscriptionModel.call(this.transcriptionRequest);

五、手动配置

将 spring-ai-openai 依赖项添加到项目的 Maven pom.xml 文件中:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-azure-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-azure-openai'}

请参考“依赖管理”部分,将 Spring AI BOM 添加到您的构建文件中。

接下来,创建一个 AzureOpenAiAudioTranscriptionModel

varopenAIClient=newOpenAIClientBuilder().credential(newAzureKeyCredential(System.getenv("AZURE_OPENAI_API_KEY"))).endpoint(System.getenv("AZURE_OPENAI_ENDPOINT")).buildClient();varazureOpenAiAudioTranscriptionModel=newAzureOpenAiAudioTranscriptionModel(this.openAIClient,null);vartranscriptionOptions=AzureOpenAiAudioTranscriptionOptions.builder().responseFormat(TranscriptResponseFormat.TEXT).temperature(0f).build();varaudioFile=newFileSystemResource("/path/to/your/resource/speech/jfk.flac");AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(this.audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=this.azureOpenAiAudioTranscriptionModel.call(this.transcriptionRequest);
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 20:38:29

YOLO目标检测部署Kubernetes:大规模GPU调度方案

YOLO目标检测部署Kubernetes&#xff1a;大规模GPU调度方案 在智能制造车间的质检线上&#xff0c;每分钟都有成百上千张图像等待被分析&#xff1b;城市的交通监控中心需要实时识别数万个摄像头中的异常行为&#xff1b;自动驾驶车辆必须在毫秒内完成对周围环境的感知——这些…

作者头像 李华
网站建设 2026/4/23 12:14:10

YOLO目标检测可视化工具推荐:Feature Map怎么看?

YOLO目标检测可视化工具推荐&#xff1a;Feature Map怎么看&#xff1f; 在工业质检车间里&#xff0c;一台基于YOLO的视觉系统正对高速传送带上的PCB板进行缺陷检测。突然&#xff0c;报警响起——一个微小焊点缺失未被识别。工程师调出日志&#xff0c;发现模型输出“无异常”…

作者头像 李华
网站建设 2026/4/23 11:59:04

YOLO目标检测标注工具推荐:LabelImg还是CVAT?

YOLO目标检测标注工具推荐&#xff1a;LabelImg还是CVAT&#xff1f; 在构建一个高效的目标检测系统时&#xff0c;模型选择固然重要&#xff0c;但真正决定性能上限的&#xff0c;往往是数据的质量。尤其是对于像YOLO这样广泛应用于工业质检、自动驾驶和智能监控的实时检测框架…

作者头像 李华
网站建设 2026/4/23 12:56:50

YOLO目标检测模型评估指标详解:mAP、Precision、Recall

YOLO目标检测模型评估指标详解&#xff1a;mAP、Precision、Recall 在工业质检车间的流水线上&#xff0c;一台搭载YOLOv10的视觉相机正高速扫描经过的产品。突然警报响起——系统检测到异物&#xff0c;产线暂停。工程师调出日志发现&#xff1a;过去一小时内&#xff0c;系统…

作者头像 李华
网站建设 2026/4/23 12:11:51

YOLO镜像支持FP16混合精度,节省显存开销

YOLO镜像支持FP16混合精度&#xff0c;节省显存开销 在工业质检产线上&#xff0c;一台搭载多路高清摄像头的视觉检测系统正以每秒30帧的速度持续运行。突然&#xff0c;第13路视频流因“显存不足”被中断——这并非硬件故障&#xff0c;而是传统FP32推理模式下难以避免的资源…

作者头像 李华
网站建设 2026/4/23 10:46:31

YOLO模型云端部署全流程:从镜像拉取到API上线

YOLO模型云端部署全流程&#xff1a;从镜像拉取到API上线 在智能制造车间的边缘服务器上&#xff0c;一个摄像头正以每秒30帧的速度扫描流水线。突然&#xff0c;系统标记出一块异常焊点——从图像采集到缺陷报警&#xff0c;整个过程不到80毫秒。这背后支撑的&#xff0c;正是…

作者头像 李华