一个名为 PDF2Audio 的新开源工具让用户能够从复杂文档和数据中创建播客、讲座和摘要。这个工具由麻省理工学院的马克斯·J·比勒(Markus J. Buehler)带领的研究团队开发,旨在作为谷歌 NotebookLM 中“音频概述”播客功能的替代品。PDF2Audio 旨在提供灵活性和可定制性,用户可以从复杂文档中创建可控的播客、讲座、讨论和摘要。它支持多种模型,包括 OpenAI 的 GPT-4 以及其他开源选项。用户可以上传多个 PDF 文件,选择提示模板,自定义文本生成和音频模型,还可以选择不同的声音选项。简单来说,这个工具允许用户灵活上传文件并定制音频内容,同时提供反馈以改进生成的文本。01 技术原理—这个应用程序支持多种语言和高级编辑功能。用户可以从任何源语言生成法语、德语、西班牙语、葡萄牙语、印地语、中文等内容。编辑功能让用户可以对记录进行注释、添加评论,还能要求模型进行特定的修改,比如改变语气或翻译成其他语言。PDF2Audio 主要参考了两个项目,promptic和PDF to Podcast。
promptic 是一个轻量级的、基于装饰器的 Python 库,旨在简化与大型语言模型(LLMs)的互动,使用 litellm。通过 promptic,你可以轻松创建提示、处理输入参数,并以结构化的方式接收 LLM 的输出,只需几行代码。PDF to Podcast 提供了将任何 PDF 文档转换为播客节目的工具!这个工具使用 OpenAI 的文本转语音模型和 Google Gemini,处理 PDF 内容,生成适合音频播客的自然对话,并输出为 MP3 文件。
PDF2Audio是在promptic和PDF to Podcast的技术上进一步做了优化,做了统一接口以及其他设置。
右侧为选择相应的操作提供的模板描述,例如:总结、播客和讨论。02 部署使用—
下载项目代码:
创建虚拟环境并安装相应依赖:
输入对应的OpenAIKey或者本地ollama均可,然后启动并运行服务:
http://127.0.0.1:7860,打开浏览器就可以进入服务web页面。上传一个或多个 PDF 文件,选择所需的说明模板;如果需要自定义说明,单击“生成音频”以创建您的音频内容:
暂无评论内容