上百万智能体在OASIS模拟平台上玩推特，AI玩社交媒体和真人有多像？

OASIS 的共同第一作者为（按随机顺序）：阿卜杜拉国王科技大学（KAUST）访问学生，上海 AI Lab 实习生，CAMEL AI 社区实习生杨子熠，以及大连理工大学博士生、上海 AI Lab 实习生张再斌（导师为卢湖川教授）。

通讯作者包括：上海 AI Lab 星启研究员尹榛菲，Egent.AI CEO、CAMEL AI 社区发起人李国豪，以及上海 AI Lab 青年科学家邵婧。

由超过一百万个大模型智能体组成的虚拟社会会是什么样的？

最近，上海 AI Lab、CAMEL-AI.org、大连理工大学、牛津大学、马普所等国内外多家机构联合发布了一个名为 OASIS 的百万级智能体交互开源项目。

该项目构建了一个以大模型为基座的通用社会模拟平台，支持多达百万个 AI 智能体进行交互。研究人员可以利用 OASIS 轻松模拟超大规模 AI 智能体在复杂社会环境中的互动。

例如，在社交媒体场景（例如 Twitter 和 Reddit 等平台）上对消息传播、群体极化和羊群效应等经典社会现象进行研究。

这些示范性研究验证了 OASIS 作为社会模拟平台的有效性和实用性，同时 OASIS 也对智能体社会在大模型和智能体迈向 AGI 的技术路径中产生的影响进行了讨论。

论文标题：OASIS: Open Agent Social Interaction Simulations with One Million Agents

研究背景

随着大语言模型通用能力的不断提升，基于大语言模型的 AI 智能体已成为当前 AI 领域的主要研究趋势。从单个智能体的研究到多个智能体的交互，诞生了诸多引人注目的成果，例如 CAMEL [1]、Generative Agents [2]、ChatDEV [3]、MetaGPT [4] 等。

然而，现有方法普遍面临以下几个挑战：

1. 规模扩展不足：目前很少有研究将智能体的交互数量扩展到上万量级，而实现这一目标需要克服复杂的工程挑战。

2. 交互形式有限：即便有一些工作实现了上万量级的智能体交互，这些交互的形式仍然较为初步，通常只能支持简单场景的模拟。

OASIS 平台思考的核心问题之一是：「如何设计一个平台，能够支持上万甚至上百万智能体的交互模拟？」

一个很直观的想法是采用类似「群聊」的模式，但让一百万个智能体同时参与群聊显然不现实。

现实生活中，有一种成熟的平台每天支持数亿用户的高频交互，那就是社交媒体。
琳琅满目的社交媒体 APP [5]

社交媒体已经深刻改变了我们的生活、工作和学习方式，同时也彻底革新了人们的沟通与协作模式。它不仅能够支持超大规模用户的高效交互，还可以灵活扩展到各种应用场景。

因此，社交媒体为构建一个支持大规模智能体交互的通用平台提供了理想的基础。

正是基于这一认识，OASIS 团队从社交媒体的视角出发，设计并搭建了这一平台，旨在充分利用社交媒体的优势，探索和实现智能体的大规模交互与协作。

OASIS 框架

OASIS 框架的主要特点有：

可扩展性

OASIS 基于社交媒体的基本组件进行设计，因此可以适配不同形式的社交媒体平台，例如 X（原 Twitter）、Reddit 等，用户能够轻松搭建符合自身需求的社交媒体环境。进一步来说，OASIS 模块性的设计使得研究人员可以轻松的将其拓展到其他场景中，例如城市模拟、AI Scientist Society 等等，这种灵活性使其适用于多种研究和应用场景。
支持大规模交互

OASIS 在计算资源上的优化表现尤为突出。例如，利用 24 块 A100 GPU，可以在一周内完成百万级智能体的模拟；而对于上万规模的智能体交互，仅需 1 块 A100 GPU 即可完成。这种高效性能大幅降低了大规模智能体研究的门槛。

复杂性和真实性

OASIS 支持 21 种不同的交互动作，包括发帖、转发、点赞、关注、搜索等，全面模拟社交媒体用户的行为。此外，OASIS 还集成了推荐系统、动态环境等高级功能，为研究复杂的社会行为提供了一个高度仿真的环境，满足用户多样化的研究需求。

OASIS 整体结构

OASIS 由以下五大核心组成部分：

1. Environment Server（环境服务）

环境模块是整个社交媒体环境的核心数据库，负责存储用户、帖子、关注关系等动态信息。这些数据支持实时更新，模拟真实社交媒体交互的动态性和复杂性。

2. Information Channel（信息通道）

Information Channel（信息通道）将根据当前环境的定义来选择如何传递智能体之间的交互信息。如在社交媒体中，信息通道会根据社交网络和推荐系统从 Environment Server 获取用户信息、帖子内容和关注关系等数据，并参考 Twitter 的开源技术方案搭建了类似 X 平台的算法。该系统可以根据用户的关注和兴趣进行精准的信息推送。

同时，信息通道是模块化的，即插即用，支持轻松切换到其他平台（如 Reddit）的推荐机制，以及其他领域的信息交换机制（如 AI 审稿和 Arxiv 机制）。

3. Action Module

推荐系统会将精选的帖子推送给智能体。智能体根据帖子信息采取不同的动作（action）。OASIS 支持多种开源或闭源的大语言模型（LLM），并赋予智能体丰富的交互能力，从而与环境进行高度仿真的互动。

4. Time Engine

为了模拟社交媒体中的时间概念，OASIS 设计了时序概率激活模块，通过采集用户发布内容的频率，模拟用户在不同时间点的行为，提升系统的仿真性。

5. Scalable Inferencer

为支持大规模智能体的高效模拟，OASIS 采用多线程调度、负载均衡等技术，在模拟过程中同时运行上百个线程以处理推理任务。该设计显著提升了推理效率，满足上万甚至百万级智能体交互的需求。

OASIS 的工作流

1. 用户生成

该团队通过数据采集与生成的方式获取大规模用户信息，并将这些信息注册到 Environment Server（环境服务器）中，构建社交媒体环境的基本框架。

2. 信息通道

Environment Server（环境服务器）将用户、帖子和关系数据传递给 Information Channel（信息通道）。

信息通道会根据当前场景中特定的环境规则，决定信息如何推送给其他智能体。例如，在社交媒体中，信息通道会根据社交网络和推荐算法将个性化内容推送给不同的智能体。

3. 智能体交互

智能体基于推荐内容与环境进行交互，其行为（action）会动态更新到 Environment Server（环境服务器）中，从而形成闭环模拟真实社交媒体的动态演化过程。

社会模拟实验

研究团队利用 OASIS 框架在 X 平台和 Reddit 平台上开展了多个经典的社会现象实验，包括消息传播、群体极化、流言传播以及羊群效应。

1. 消息传播实验

消息传播实验旨在通过 OASIS 尽可能模拟真实世界的场景，观察其是否能够较好地复现消息传播的趋势。

研究团队选用了开源的 Twitter15 和 Twitter16 数据集，并通过 Twitter API 收集了数据集中用户的相关信息（如个人简介、历史推文等）。

在实验中，他们重现了 200 条源推文的传播路径，并将模拟结果与真实数据进行了对比分析，以评估模型的复现能力。

研究团队从三个维度分析了模拟结果与真实结果之间的差距：传播规模（Scale，指影响到的用户数量）、传播深度（Depth，指信息传播的层级渗透程度）以及传播最大广度（Max Breadth，指传播路径的最大分支数）。

结果显示，在传播规模和广度方面，模拟结果与真实结果较为接近。然而，在传播深度上，模拟结果与真实情况存在一定差距。

这种差距是可以理解的，因为 Twitter 在用户建模方面更为精细，能够更准确地捕捉用户的兴趣偏好和行为特征，从而更有效地反映传播深度的实际情况。

2. 群体极化实验

研究团队还利用 OASIS 模拟了一个经典的社会心理学实验 —— 群体观点极化实验（Group Polarization），并将实验场景迁移至 Twitter 平台进行。群体极化现象指用户的观点在交互过程中逐渐变得更加极端化。

在实验中，该团队向 196 名用户发布了一条争议性的帖子。帖子的内容是：「一个已经取得一定成功的作家，是否应该冒着收入中断的风险撰写一部宏伟巨著以增加成名概率，还是维持现状，享受稳定的收入。」

通过这种情景模拟，研究团队在多轮交互中对用户的观点进行问卷调查，以记录其态度的变化趋势。结果如图所示。

从实验结果可以看出，随着交互的不断进行，用户的观点逐渐趋于极端，并给出愈发偏激的回答。

该团队进一步测试了未设安全护栏的 Uncensored 模型与经过对齐处理的 Aligned 模型，结果显示，Uncensored 模型的极端化趋势显著更加明显。这表明，去除安全约束后，模型在交互中的观点极端化程度会进一步加剧。

3. 羊群效应实验

该团队利用 OASIS 的 Agent Society 模块复现了一项发表于 Science 的研究 [6]，探讨了羊群效应（Herding Effect）的现象。

羊群效应是指个体倾向于追随群体的行为或观点，例如用户更倾向于点赞那些已有大量点赞的帖子。

实验在模拟的 Reddit 平台中进行，该平台仅显示帖子的最终得分（点赞数减去点踩数）。帖子被分为三组进行对比实验：

点赞组：帖子初始设置为有一个「赞」。
对照组：帖子初始得分为零（无「赞」或「踩」）。
点踩组：帖子初始设置为有一个「踩」。

通过观察智能体在交互后各组帖子的最终得分变化，可以评估初始得分对用户行为的影响。实验结果（如下图所示）表明，初始「赞」显著提高了帖子最终得分，而初始「踩」则对得分造成了抑制效果。这表明，用户在决策时受到群体行为的显著影响，进一步验证了羊群效应的存在。

实验结果显示，agent 表现出比人类更强的羊群效应。当一条初始评论收到「反对」时，agent 更倾向于继续跟随他人行为，进一步点「踩」或减少点「赞」。

4. 流言传播实验

研究团队构建了一个包含 100 万用户的 Twitter 社交环境，其中包括 196 个核心用户（拥有大量粉丝的大 V），其余用户为普通用户。

在实验中，论文作者们让分析能力最强的核心用户发布了 8 条消息，这些消息包括 4 对真假消息对，分别涉及科技、娱乐、教育和健康等领域。

实验模拟了 96 分钟的交互过程，每 3 分钟为一个时间步。在此期间，该团队统计了真假消息相关帖子的数量变化，以分析真假消息的传播和影响力差异。

实验结果显示，流言（假消息）的影响力显著强于真消息。这一现象表明，在 OASIS 构建的代理社会中，假消息的传播规律与人类社会中类似 [7]，表现出对假消息的强倾向性。团队对新增的关注关系进行了可视化，其中绿色的点表示用户，红色的线表示新增的关注关系。从可视化结果可以观察到，用户之间的新增关注关系呈现出明显的聚集效应。

这种现象与谢林隔离模型（Schelling Segregation Model)[8] 中的群体聚集模式有一定相似之处。