杜旭嘉 - AI 应用工程师（RAG / Agent）

跳转到主内容

IPA Demo

2025.11 - 2025.12

概要

中文方言语音转写演示系统：把本地 ASR 模型封装成可试用的 Web 原型，支持上传、录音、批量处理、IPA 拆分和结果导出。

业务价值

把研究型语音识别能力快速收敛成可试用原型，帮助客户低成本验证需求与技术路线。

工程深度

覆盖本地模型推理封装、音频预处理、批处理并发、结构化导出和面向演示场景的 Web 交付。

证据来源

仓库 · 置信度高 · 验证时间 2026-03-31

证据级别：严格复核（核心区仅展示可复核指标）
来源类型：仓库/代码记录
来源链接：未提供公开链接，需结合履历或交付记录复核
验证时间：2026-03-31（距今 0 天，时效性高）

判定原因：判定为高置信度：按严格口径整理，可回溯到仓库或代码记录，验证时间距今 0 天。

背景

目标是在短周期内把中文方言语音转写能力做成可直接演示的系统，用于科研场景验证和客户验收。

挑战

需要同时解决模型推理封装、音频标准化、批量转写、结果导出和非技术用户可操作性，且交付周期有限。

行动与成果

解决方案

Web 化封装：用 Flask 承载本地 ASR pipeline，并提供上传、录音、示例音频和二次转写接口。
音频处理：结合 torchaudio 与 ffmpeg 做格式检测、标准化转换和并发加载。
结果结构化：通过 Excel 表维护 IPA 映射，支持声母/韵母/声调拆分与 Excel 导出。
演示交付：补齐系统手册、模板下载、错误日志与批量处理能力，便于现场演示和验收。

成果

交付完整的 IPA Demo 原型，覆盖“录音/上传 -> 转写 -> IPA 拆分 -> 导出”的核心闭环。

关键指标

基于 Flask 封装本地 ASR 模型，支持多文件上传、流式转写、浏览器录音与示例音频体验。

加入音频标准化、并发处理、IPA 声母/韵母/声调拆分与日志体系，使原型既可演示也便于排障。

支持 Excel 模板校验、批量导出与系统手册下载，降低客户试用和验收成本。

技术栈

PythonFlaskPyTorchTransformersTorchaudioASRPandasFFmpeg