杜旭嘉 - AI 应用工程师（RAG / Agent）

跳转到主内容

外包技术顾问

南方科技大学

2025.11 - 2025.12

深圳

概要

独立承接并交付 IPA Demo 原型：围绕中文方言语音转写做出可演示、可批处理、可导出的 Web 系统，帮助客户快速验证技术路线。

业务价值

把研究型语音能力收敛成客户可直接试用的演示系统，帮助对方在短周期内验证技术可行性与交互形态，降低立项风险。

工程深度

覆盖本地 ASR 推理封装、音频预处理、批量并发处理、结构化结果导出与面向演示场景的 Web 化交付。

证据来源

项目验收确认

项目经历 · 置信度中 · 验证时间 2026-02-10

证据级别：严格复核（核心区仅展示可复核指标）
来源类型：项目经历/交付记录
来源链接：未提供公开链接，需结合履历或交付记录复核
验证时间：2026-02-10（距今 49 天，时效性高）

判定原因：判定为中置信度：缺少公开来源链接。

仓库 · 置信度高 · 验证时间 2026-03-31

证据级别：严格复核（核心区仅展示可复核指标）
来源类型：仓库/代码记录
来源链接：未提供公开链接，需结合履历或交付记录复核
验证时间：2026-03-31（距今 0 天，时效性高）

判定原因：判定为高置信度：按严格口径整理，可回溯到仓库或代码记录，验证时间距今 0 天。

背景

客户希望验证中文方言语音自动转写在科研场景中的可行性，需要在较短周期内拿到可直接演示和试用的原型系统。

挑战

既要把本地 ASR 模型稳定封装成 Web 应用，又要兼顾批量上传、浏览器录音、结果导出和非技术用户可操作性，时间窗口也比较紧。

行动与成果

解决方案

推理封装：基于 Flask + transformers ASR pipeline 封装本地模型，并结合 torchaudio、ffmpeg 做音频格式标准化。
交互链路：支持多文件上传、流式上传、浏览器录音、示例音频体验与上传后再次转写，覆盖演示与试用主路径。
结果结构化：通过 Excel 表维护声调/声母/韵母映射，输出 IPA 拆分结果，并支持文本/Excel 导出。
可运维性：加入请求日志、错误日志、批量并发处理和系统手册页面，方便验收与后续排障。

成果

按期交付 IPA Demo 原型，形成“上传/录音 -> 转写 -> IPA 拆分 -> 导出”的完整演示闭环，可用于后续工程化讨论与立项评估。

关键指标

将本地方言 ASR 模型封装为 Flask Web 服务，支持上传转写、流式转写、浏览器录音与示例音频体验，形成可直接演示的闭环。

补齐音频标准化、批量并发处理、IPA 声母/韵母/声调拆分与日志落盘，使原型既能跑通演示也便于问题定位。

支持 Excel 模板校验、批量识别结果导出与系统手册下载，降低非技术用户试用与验收成本。

技术栈

FlaskPyTorchTransformersTorchaudioASRPandasFFmpeg