PDF变音频：轻松享受知识的全新方式！开源项目PDF2Audio新应用

一个名为 PDF2Audio 的新开源工具让用户能够从复杂文档和数据中创建播客、讲座和摘要。这个工具由麻省理工学院的马克斯·J·比勒（Markus J. Buehler）带领的研究团队开发，旨在作为谷歌 NotebookLM 中“音频概述”播客功能的替代品。PDF2Audio 旨在提供灵活性和可定制性，用户可以从复杂文档中创建可控的播客、讲座、讨论和摘要。它支持多种模型，包括 OpenAI 的 GPT-4 以及其他开源选项。用户可以上传多个 PDF 文件，选择提示模板，自定义文本生成和音频模型，还可以选择不同的声音选项。简单来说，这个工具允许用户灵活上传文件并定制音频内容，同时提供反馈以改进生成的文本。01 技术原理—这个应用程序支持多种语言和高级编辑功能。用户可以从任何源语言生成法语、德语、西班牙语、葡萄牙语、印地语、中文等内容。编辑功能让用户可以对记录进行注释、添加评论，还能要求模型进行特定的修改，比如改变语气或翻译成其他语言。PDF2Audio 主要参考了两个项目，promptic和PDF to Podcast。

promptic 是一个轻量级的、基于装饰器的 Python 库，旨在简化与大型语言模型（LLMs）的互动，使用 litellm。通过 promptic，你可以轻松创建提示、处理输入参数，并以结构化的方式接收 LLM 的输出，只需几行代码。PDF to Podcast 提供了将任何 PDF 文档转换为播客节目的工具！这个工具使用 OpenAI 的文本转语音模型和 Google Gemini，处理 PDF 内容，生成适合音频播客的自然对话，并输出为 MP3 文件。

PDF2Audio是在promptic和PDF to Podcast的技术上进一步做了优化，做了统一接口以及其他设置。

右侧为选择相应的操作提供的模板描述，例如：总结、播客和讨论。02 部署使用—