PDF2Audio 是一个开源项目,旨在将 PDF 文件转换为音频格式,如播客、讲座或摘要。该项目利用 OpenAI 的 GPT 模型进行文本生成和文本转语音(TTS)转换。用户可以上传多个 PDF 文件,并根据不同的模板(例如播客、讲座、摘要)生成音频内容。
功能亮点
- 支持多个 PDF 文件上传:用户可以同时上传多个 PDF 文件,批量处理文档。
- 多种模板选择:根据用户需求,支持生成不同类型的音频内容,模板包括播客、讲座、摘要等不同场景。
- 自定义生成模型:用户可以自定义选择 GPT 模型和文本转语音(TTS)模型,以生成符合特定需求的音频内容。
- 不同语音选择:支持选择多种语音风格和音色,为生成的音频提供不同的听觉体验。
GitHub:https://github.com/lamm-mit/PDF2Audio
在线体验:https://huggingface.co/spaces/lamm-mit/PDF2Audio
视频播放器
00:00
00:00
如何使用:
- 上传一个或多个 PDF 文件。
- 选择需要的模板(如播客、讲座或摘要)。
- 选择模型,输入API KEY
- 自定义生成参数,例如选择音色或调整生成指令。
- 点击“生成音频”,应用程序将处理文档并生成音频文件。
该项目受到以下两个开源项目的启发并建立在它们的基础上:
Listnr是一个人工智能语音生成器和文本到语音的在线工具,允许用户从142种不同语言的900多个声音的文本创建逼真的画外音。