本文共 1203 字,大约阅读时间需要 4 分钟。
Whisper 是一款开源的自动语音识别 (ASR) 系统,基于深度学习和神经网络技术构建,支持多语言识别和多任务处理。它通过 PyTorch 框架实现,完全免费,适合开发者和研究人员使用。
Whisper 可通过 Anaconda 提供的开源包管理器进行安装,以下是具体操作步骤:
下载并安装 Anaconda
使用 Wget 命令下载最新版本的 Anaconda 安装脚本:$ wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh
运行安装脚本
执行脚本并按照提示完成安装:$ bash Anaconda3-2022.10-Linux-x86_64.sh
conda init
初始化 Anaconda 环境,关闭当前终端后重新打开以应用更改。创建并激活新环境
使用 conda 创建一个名为whisper
的新环境并激活:$ conda create --name whisper$ conda activate whisper
安装 Whisper
使用 pip 安装开源包:$ pip install -U openai-whisper
安装完成后,会自动下载所需的依赖库。
Whisper 是命令行工具,无需图形界面即可进行语音识别。
系统提供多种预训练模型,可根据需求选择合适的规模,包括:
使用下列命令将音频文件转录为文本:
$ whisper input.mp3 --model medium --language en
--model
:指定要使用的预训练模型,默认使用最小规模。--language
:指定语音语言,默认自动检测声音内容,但建议手动指定以节省计算资源。转录期间系统会显示实时进度信息。
如果系统配备 GPU 可用资源,可通过以下方式加速转录:
$ whisper --use-gpu
注意:部分大型模型可能需要超出 8GB VRAM,不可在此环境下运行。
获取更多选项信息,可执行:
$ whisper --help
Whisper 凭借其高效性与准确性,成为众多开发者的首选工具。其开源特性和丰富功能使其在多个领域得到了广泛应用。如需了解更多信息,可访问其官方 GitHub 仓库:https://github.com/openai/whisper。
转载地址:http://ytwfk.baihongyu.com/