news 2026/4/23 14:58:04

55_Spring AI 干货笔记之 OpenAI 语音转录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
55_Spring AI 干货笔记之 OpenAI 语音转录

一、OpenAI 语音转录

Spring AI 支持 OpenAI 的语音转录模型。

二、前置条件

您需要创建一个 OpenAI API 密钥以访问 ChatGPT 模型。请在 OpenAI 注册页面 创建账户,并在 API 密钥页面 生成令牌。Spring AI 项目定义了一个名为 spring.ai.openai.api-key 的配置属性,您应将其设置为从 openai.com 获取的 API 密钥值。

三、自动配置

Spring AI 的自动配置及其 Starter 模块的构件名称发生了显著变化。更多信息请参阅升级说明。

Spring AI 为 OpenAI 语音转录客户端提供了 Spring Boot 自动配置。要启用它,请将以下依赖项添加到项目的 Maven pom.xml 文件中:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-starter-model-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-starter-model-openai'}

请参考“依赖管理”部分,将 Spring AI BOM 添加到您的构建文件中。

3.1 转录属性

3.1.1 连接属性

前缀 spring.ai.openai 用作连接 OpenAI 的属性前缀。

对于属于多个组织的用户(或通过其旧版用户 API 密钥访问其项目的用户),可以选择指定用于 API 请求的组织和项目。这些 API 请求的使用量将计入指定组织和项目的用量。

3.1.2 配置属性

现在通过顶级属性 spring.ai.model.audio.transcription 来启用或禁用音频转录的自动配置。

  • 要启用:spring.ai.model.audio.transcription=openai (默认已启用)

  • 要禁用:spring.ai.model.audio.transcription=none (或任何非 openai 的值)

此项变更是为了支持配置多个模型。

前缀 spring.ai.openai.audio.transcription 用作属性前缀,用于配置 OpenAI 语音转录模型的重试机制。

您可以覆盖通用的 spring.ai.openai.base-url、spring.ai.openai.api-key、spring.ai.openai.organization-id 和 spring.ai.openai.project-id 属性。如果设置了 spring.ai.openai.audio.transcription.base-url、spring.ai.openai.audio.transcription.api-key、spring.ai.openai.audio.transcription.organization-id 和 spring.ai.openai.audio.transcription.project-id 属性,它们将优先于通用属性。这在您希望为不同模型和不同模型端点使用不同的 OpenAI 账户时非常有用。

所有以 spring.ai.openai.transcription.options 为前缀的属性都可以在运行时被覆盖。

四、运行时选项

OpenAiAudioTranscriptionOptions 类提供了进行转录时使用的选项。在启动时,会使用 spring.ai.openai.audio.transcription 指定的选项,但您可以在运行时覆盖这些选项。

例如:

OpenAiAudioApi.TranscriptResponseFormatresponseFormat=OpenAiAudioApi.TranscriptResponseFormat.VTT;OpenAiAudioTranscriptionOptionstranscriptionOptions=OpenAiAudioTranscriptionOptions.builder().language("en").prompt("Ask not this, but ask that").temperature(0f).responseFormat(this.responseFormat).build();AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=openAiTranscriptionModel.call(this.transcriptionRequest);

五、手动配置

将 spring-ai-openai 依赖项添加到项目的 Maven pom.xml 文件中:

<dependency><groupId>org.springframework.ai</groupId><artifactId>spring-ai-openai</artifactId></dependency>

或者添加到您的 Gradle build.gradle 构建文件中。

dependencies{implementation'org.springframework.ai:spring-ai-openai'}

请参考“依赖管理”部分,将 Spring AI BOM 添加到您的构建文件中。

接下来,创建一个 OpenAiAudioTranscriptionModel

varopenAiAudioApi=newOpenAiAudioApi(System.getenv("OPENAI_API_KEY"));varopenAiAudioTranscriptionModel=newOpenAiAudioTranscriptionModel(this.openAiAudioApi);vartranscriptionOptions=OpenAiAudioTranscriptionOptions.builder().responseFormat(TranscriptResponseFormat.TEXT).temperature(0f).build();varaudioFile=newFileSystemResource("/path/to/your/resource/speech/jfk.flac");AudioTranscriptionPrompttranscriptionRequest=newAudioTranscriptionPrompt(this.audioFile,this.transcriptionOptions);AudioTranscriptionResponseresponse=openAiTranscriptionModel.call(this.transcriptionRequest);

六、示例代码

OpenAiTranscriptionModelIT.java 测试文件提供了一些如何使用该库的通用示例。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:52:57

YOLO模型镜像提供客户成功案例集下载

YOLO模型镜像客户成功案例集&#xff1a;从技术内核到工业落地 在现代工厂的自动化产线上&#xff0c;每分钟有数百个产品流过检测工位。传统的人工质检不仅效率低下、成本高昂&#xff0c;还容易因疲劳导致漏检。而今天&#xff0c;一台搭载了AI视觉系统的工控机&#xff0c;仅…

作者头像 李华
网站建设 2026/4/22 7:54:02

YOLO在体育赛事分析中的应用:运动员动作识别追踪

YOLO在体育赛事分析中的应用&#xff1a;运动员动作识别与追踪 在一场激烈的篮球比赛中&#xff0c;教练席上的战术板已经不再是唯一的数据来源。取而代之的是实时跳动的热力图、自动标注的跑位轨迹和即时生成的动作分类报告——这些背后&#xff0c;往往离不开一个高效视觉引擎…

作者头像 李华
网站建设 2026/4/13 10:41:11

YOLOv8与YOLOv10在mAP-s上的对比实测报告

YOLOv8与YOLOv10在mAP-s上的对比实测报告 在工业质检线上&#xff0c;一张高清PCB板图像缓缓流过视觉检测工位。镜头下&#xff0c;那些尺寸仅为几个像素的微小焊点&#xff0c;正决定着整块电路的命运——漏检一个虚焊点&#xff0c;可能导致整机失效。这类对小目标“零容忍”…

作者头像 李华
网站建设 2026/4/23 12:12:25

YOLO目标检测灰度发布完成:新模型GPU性能达标

YOLO目标检测灰度发布完成&#xff1a;新模型GPU性能达标 在智能制造车间的流水线上&#xff0c;一台工业相机正以每秒60帧的速度捕捉高速运动的零部件。后台服务器中&#xff0c;一个深度学习模型正在逐帧分析图像——它需要在20毫秒内判断是否存在缺陷&#xff0c;并立即触发…

作者头像 李华
网站建设 2026/4/22 16:16:47

YOLO模型输入分辨率设置指南:平衡精度与GPU负载

YOLO模型输入分辨率设置指南&#xff1a;平衡精度与GPU负载 在工业质检线上&#xff0c;一台搭载YOLOv8s的检测设备正以每秒30帧的速度扫描PCB板——突然&#xff0c;一个仅占15像素的微型电容被漏检。工程师调出日志发现&#xff0c;GPU显存使用率长期处于98%高位&#xff0c;…

作者头像 李华