55_Spring AI 干货笔记之 OpenAI 语音转录-深圳市維司達科技有限公司

一、OpenAI 语音转录

Spring AI 支持 OpenAI 的语音转录模型。

二、前置条件

您需要创建一个 OpenAI API 密钥以访问 ChatGPT 模型。请在 OpenAI 注册页面创建账户，并在 API 密钥页面生成令牌。Spring AI 项目定义了一个名为 spring.ai.openai.api-key 的配置属性，您应将其设置为从 openai.com 获取的 API 密钥值。

三、自动配置

Spring AI 的自动配置及其 Starter 模块的构件名称发生了显著变化。更多信息请参阅升级说明。

Spring AI 为 OpenAI 语音转录客户端提供了 Spring Boot 自动配置。要启用它，请将以下依赖项添加到项目的 Maven pom.xml 文件中：

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-starter-model-openai'}

请参考“依赖管理”部分，将 Spring AI BOM 添加到您的构建文件中。

3.1 转录属性

3.1.1 连接属性

前缀 spring.ai.openai 用作连接 OpenAI 的属性前缀。

对于属于多个组织的用户（或通过其旧版用户 API 密钥访问其项目的用户），可以选择指定用于 API 请求的组织和项目。这些 API 请求的使用量将计入指定组织和项目的用量。

3.1.2 配置属性

现在通过顶级属性 spring.ai.model.audio.transcription 来启用或禁用音频转录的自动配置。
要启用：spring.ai.model.audio.transcription=openai (默认已启用)
要禁用：spring.ai.model.audio.transcription=none (或任何非 openai 的值)
此项变更是为了支持配置多个模型。

前缀 spring.ai.openai.audio.transcription 用作属性前缀，用于配置 OpenAI 语音转录模型的重试机制。

您可以覆盖通用的 spring.ai.openai.base-url、spring.ai.openai.api-key、spring.ai.openai.organization-id 和 spring.ai.openai.project-id 属性。如果设置了 spring.ai.openai.audio.transcription.base-url、spring.ai.openai.audio.transcription.api-key、spring.ai.openai.audio.transcription.organization-id 和 spring.ai.openai.audio.transcription.project-id 属性，它们将优先于通用属性。这在您希望为不同模型和不同模型端点使用不同的 OpenAI 账户时非常有用。

所有以 spring.ai.openai.transcription.options 为前缀的属性都可以在运行时被覆盖。

四、运行时选项

OpenAiAudioTranscriptionOptions 类提供了进行转录时使用的选项。在启动时，会使用 spring.ai.openai.audio.transcription 指定的选项，但您可以在运行时覆盖这些选项。

例如：

OpenAiAudioApi.TranscriptResponseFormatresponseFormat=OpenAiAudioApi.TranscriptResponseFormat.VTT;OpenAiAudioTranscriptionOptionstranscriptionOptions=OpenAiAudioTranscriptionOptions.builder().language("en").prompt("Ask not this, but ask that").temperature(0f).responseFormat(this.responseFormat).build();AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=openAiTranscriptionModel.call(this.transcriptionRequest);

五、手动配置

将 spring-ai-openai 依赖项添加到项目的 Maven pom.xml 文件中：

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-openai'}

请参考“依赖管理”部分，将 Spring AI BOM 添加到您的构建文件中。

接下来，创建一个 OpenAiAudioTranscriptionModel

varopenAiAudioApi=newOpenAiAudioApi(System.getenv("OPENAI_API_KEY"));varopenAiAudioTranscriptionModel=newOpenAiAudioTranscriptionModel(this.openAiAudioApi);vartranscriptionOptions=OpenAiAudioTranscriptionOptions.builder().responseFormat(TranscriptResponseFormat.TEXT).temperature(0f).build();varaudioFile=newFileSystemResource("/path/to/your/resource/speech/jfk.flac");AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(this.audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=openAiTranscriptionModel.call(this.transcriptionRequest);

六、示例代码

OpenAiTranscriptionModelIT.java 测试文件提供了一些如何使用该库的通用示例。

YOLO模型镜像提供客户成功案例集下载

YOLO模型镜像客户成功案例集：从技术内核到工业落地在现代工厂的自动化产线上，每分钟有数百个产品流过检测工位。传统的人工质检不仅效率低下、成本高昂，还容易因疲劳导致漏检。而今天，一台搭载了AI视觉系统的工控机，仅…

李华

YOLO在体育赛事分析中的应用：运动员动作识别追踪

YOLO在体育赛事分析中的应用：运动员动作识别与追踪在一场激烈的篮球比赛中，教练席上的战术板已经不再是唯一的数据来源。取而代之的是实时跳动的热力图、自动标注的跑位轨迹和即时生成的动作分类报告——这些背后，往往离不开一个高效视觉引擎…

李华

MATLAB基于BP神经网络-多模态多目标优化的喷墨打印纳米银导线工艺参数优化

一、问题定义与核心思想核心目标在喷墨打印纳米银导线工艺中，通过优化工艺参数组合，同时实现多个性能目标（如导电性、分辨率、附着力、成本等）的平衡，并识别出可能对应不同应用需求的多组最优参数（多模态&…

李华

YOLOv8与YOLOv10在mAP-s上的对比实测报告

YOLOv8与YOLOv10在mAP-s上的对比实测报告在工业质检线上，一张高清PCB板图像缓缓流过视觉检测工位。镜头下，那些尺寸仅为几个像素的微小焊点，正决定着整块电路的命运——漏检一个虚焊点，可能导致整机失效。这类对小目标“零容忍”…

李华

YOLO目标检测灰度发布完成：新模型GPU性能达标

YOLO目标检测灰度发布完成：新模型GPU性能达标在智能制造车间的流水线上，一台工业相机正以每秒60帧的速度捕捉高速运动的零部件。后台服务器中，一个深度学习模型正在逐帧分析图像——它需要在20毫秒内判断是否存在缺陷，并立即触发…

李华

YOLO模型输入分辨率设置指南：平衡精度与GPU负载

YOLO模型输入分辨率设置指南：平衡精度与GPU负载在工业质检线上，一台搭载YOLOv8s的检测设备正以每秒30帧的速度扫描PCB板——突然，一个仅占15像素的微型电容被漏检。工程师调出日志发现，GPU显存使用率长期处于98%高位，…

李华