阿里甩出视频生成新王炸；苹果造车团队转岗做AI；Pika推出唇形同步功能丨AIGC大事日报

全球AIGC产业要闻

1、阿里发布肖像视频生成框架EMO2、Pika推出“对口型”功能3、传苹果放弃电动汽车制造转向生成式AI4、特斯拉APP推出AI聊天助手测试版5、Gemini 1.5通过视频成功修复Bug6、谷歌将进行结构性调整以解决Gemini偏见问题7、研究显示Gemini等在选举上存在偏见8、传谷歌向媒体付费测试AI写作工具9、扎克伯格拜访日韩讨论AI、XR合作10、OpenAI称《纽约时报》侵权指控存在欺骗行为11、欧盟监管机构拟审查微软对Mistral的投资12、GitHub推出企业版Copilot13、微软正测试Copilot GPT14、百度2023年净利润涨39%15、百度Comate启动众测活动16、蚂蚁集团推出多模态遥感模型SkySense17、魅族Aicy语音助手接入AI大模型18、OPPO Reno11系列将引入生成式AI功能19、南京大学开设AI通识核心课程体系20、传Tumblr等计划将数据出售给AI公司21、Prophesee与高通合作进入可量产阶段22、芯片大神Jim Keller创企与日企合作设计AI芯片23、法AI图像创企获4300万美元融资24、字节推出MegaScale 将LLM训练扩展到1万个GPU

1、阿里发布肖像视频生成框架EMO今日，来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架EMO（Emote Portrait Alive），相关论文同步发表于arXiv。输入一张参考图像和声音音频，该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。论文地址：arxiv.org/pdf/2402.17485.pdf项目主页：humanaigc.github.io/emote-portrait-alive/
2、Pika推出“对口型”功能昨晚，AI视频生成平台Pika宣布推出为生成视频中的人物配音，并同时“对口型”的唇形同步功能LipSync，目前仅支持Pro用户体验。其中，音频生成部分由AI语音克隆创企ElevenLabs提供技术支持。
3、传苹果放弃电动汽车制造转向生成式AI据彭博社援引知情人士消息报道，苹果在当地时间周二于公司内部宣布取消长达十年的电动汽车项目，从事该项目的近2000名员工中的许多人将被转到由约翰·詹南德雷亚（John Giannandrea）领导的AI部门，专注于生成式人工智能项目。4、特斯拉APP推出AI聊天助手测试版据electrek报道，特斯拉今日更新了移动端应用程序，推出测试版聊天助手，可以回答有关特斯拉或其他产品的问题。
5、Gemini 1.5通过视频成功修复Bug昨日，社交平台X博主Mckay Wrigley称Gemini Pro 1.5通过视频和文本成功修复了问题代码。他将整个代码库以文本形式发送给Gemini Pro 1.5，并同时上传了摄像头拍摄的三个出错的程序界面，输入“请帮我修复代码中的所有Bug”等提示词，Gemini直接给出了问题代码位置和解决方案。
6、谷歌将进行结构性调整以解决Gemini偏见问题据Semafor今日报道，谷歌CEO桑达尔·皮查伊（Sundar Pichai）在当地时间周二晚间回应了Gemini的种族偏见争议，称该问题“不可接受”，并发誓要进行结构性调整来解决问题。他在内部信中说，公司在修复Gemini护栏方面已经取得了进展，“我们的团队一直在夜以继日地工作来解决这些问题。我们已经看到各种提示都得到了显着的改进。”7、研究显示Gemini等在选举上存在偏见据非盈利新闻工作室Proof今日发布的报告，GPT-4、Llama 2、Gemini、Mixtral和Claude等领先的五个AI文本模型在26个选举相关问题上准确性表现不佳，超过一半的相应被AI专家评委不准确，40%的回答被评为有害。其中，Gemini、Llama2和Mixtral的不准确答案率最高，均超过60%。
8、传谷歌向媒体付费测试AI写作工具据ADWEEK昨日报道，谷歌上个月为少数独立出版商推出一项计划，为后者提供未发布的生成式AI平台测试版访问权限，来换取分析和反馈。作为协议的一部分，出版商将使用该工具套件在12个月内每天发布3篇内容，每月可以获得五位数的津贴。9、扎克伯格拜访日韩讨论AI、XR合作据路透社报道，Meta CEO扎克伯格周二拜访了东京，与日本首相岸田文雄讨论了AI问题。周二晚间，他抵达韩国，并于今日会见了LG电子CEO、LG母公司COO，讨论下一代XR设备开发相关业务，以及在AI领域的潜在合作。10、OpenAI称《纽约时报》侵权指控存在欺骗行为据The Verge报道，OpenAI在当地时间周一提交的一份动议中称，《纽约时报》使用“欺骗性提示”让ChatGPT重复其内容，并请求纽约南部的美国地方法院驳回《纽约时报》版权侵权诉讼中的几项索赔。11、欧盟监管机构拟审查微软对Mistral的投资据The Information报道，欧洲最高反垄断监管机构欧盟委员会当地时间周二称，计划审查微软对法国生成式AI初创公司Mistral的投资。微软于周一宣布与Mistral建立合作伙伴关系，向Mistral投资1630万美元，并在云平台Azure中提供Mistral的模型。12、GitHub推出企业版Copilot微软旗下的GitHub今日推出Copilot Enterprise，可根据企业内部的代码和知识库定制，每人每月39美元。
13、微软正测试Copilot GPT昨日，微软副总裁兼Copilot和必应工程与产品负责人约尔迪·里巴斯（Jordi Ribas）透露，微软正在测试Copilot GPT，当用户打开Microsoft Copilot时会出现一个新的Copilot GPT列表，可为用户提供健身训练计划、计划假期和帮助烹饪等功能。
14、百度2023年净利润涨39%据百度微信公众号今日发文，其2023年营收为1345.98亿元，净利润287亿元，同比增长39%；其第四季度营收349.51亿元，净利润77.55亿元，同比增长44%。其中，AI成为增长新动力，百度智能云、PP飞桨等AI平台高速增长，千帆大模型平台累计精调模型1万个，AI出行平台萝卜快跑第四季度提供乘车服务83.9万次。15、百度Comate启动众测活动据百度安全应急响应中心微信公众号今日发文，百度智能编程工具Comate及千帆大模型平台开启专项加码众测活动，活动时间为2月29日-3月12日，单个漏洞奖励最高可达3万元。16、蚂蚁集团推出多模态遥感模型SkySense蚂蚁集团今日宣布推出20亿参数多模态遥感基础模型SkySense，这是蚂蚁百灵大模型在多模态领域最新的研发成果，其论文已被世界计算机视觉顶会CVPR 2024接收。数据显示，SkySense在17项测试场景中指标均超过国际同类产品，可用于地貌、农作物观测和解译等，有效辅助农业生产和经营。
17、魅族Aicy语音助手接入AI大模型据IT之家报道，魅族21系列手机今日获推Flyme 10.5.0.1A稳定版系统，语音助手小溪（Aicy）接入大模型，支持自然语言对话、文档总结、知识问答、出行规划、运动健康建议、文案生成等AI功能。18、OPPO Reno11系列将引入生成式AI功能昨日，OPPO在2024年世界移动通信大会（MWC 2024）宣布将全面发力AI领域。OPPO还宣布，今年第二季度，全球OPPO Reno11系列及OPPO Find N3也将引入包括AI消除功能在内的一系列生成式AI功能。19、南京大学开设AI通识核心课程体系昨日，南京大学宣布将面向全体本科新生开设“人工智能通识核心课程体系”。南京大学将建设“1+X+Y”三层次“人工智能通识核心课程体系”，以1门必修的AI通识核心课+X门AI素养课+Y门个学科与AI深度融合的前沿拓展课为基础，从知识、能力、价值观与伦理三个维度开展教育教学。20、传Tumblr等计划将数据出售给AI公司据404 Media今日援引内部文件报道，社交平台Tumblr和博客网站WordPress.com的所有者正在与AI公司Midjourney和OpenAI进行谈判，以提供从用户帖子中抓取的训练数据。21、Prophesee与高通合作进入可量产阶段神经拟态视觉传感公司Prophesee 2月27日宣布与高通的合作进入可量产阶段。在巴塞罗那世界移动通信大会MWC 2024期间，Prophesee展示了其解决方案与骁龙旗舰移动平台的原生兼容性，以及神经拟态视觉技术为智能手机摄像头带来的速度、能效和成像质量方面的提升。Prophesee Metavision事件视觉传感器和AI算法针对骁龙平台进行了优化，使运动模糊消除的效果和整体图像的质量都得到前所未有的提升，尤其是在快速移动和低光等传统基于帧的RGB传感器难以应对的场景中。22、芯片大神Jim Keller创企与日企合作设计AI芯片根据彭博社昨日报道，日本政府投资的半导体研发集团Rapidus将与加拿大芯片创企Tenstorrent合作设计其首款AI芯片。Tenstorrent将授权其设计日本AI加速器的一部分，并与Rapidus共同设计整个芯片。Tenstorrent成立于2016年，首席执行官为芯片界大神吉姆·凯勒（Jim Keller）。Rapidus成立于2022年，计划在2027年开始芯片生产，与台积电和三星电子等公司竞争。23、法AI图像创企获4300万美元融资据TechCrunch昨日报道，法国AI图像编辑器创企Photoroom近期以5亿美元估值完成了4300万美元融资，Balderton Capital领投此轮融资，新投资者Aglaé和之前的投资者Y Combinator参投。Photoroom目前拥有约50名员工，计划利用这笔融资雇用更多员工，并投资于研发和基础设施。24、字节推出MegaScale 将LLM训练扩展到1万个GPU2月24日，来自字节和北大的团队在arXiv上发表论文，提出大模型生产系统MegaScale。MegaScale将大型语言模型训练扩展到超过10000个GPU，在12288个GPU上训练175B LLM模型时，MegaScale实现了55.2%的模型FLOP利用率（MFU），与层内模型并行技术Megatron-LM相比，MFU提高了1.34倍。论文地址：https://arxiv.org/abs/2402.15627

全球AIGC产业要闻

1、阿里发布肖像视频生成框架EMO今日，来自阿里巴巴的团队发布了音频驱动的肖像视频生成框架EMO（Emote Portrait Alive），相关论文同步发表于arXiv。输入一张参考图像和声音音频，该框架能够生成具有丰富面部表情和头部姿势的声音肖像视频。论文地址：arxiv.org/pdf/2402.17485.pdf项目主页：humanaigc.github.io/emote-portrait-alive/ 2、Pika推出“对口型”功能昨晚，AI视频生成平台Pika宣布推出为生成视频中的人物配音，并同时“对口型”的唇形同步功能LipSync，目前仅支持Pro用户体验。其中，音频生成部分由AI语音克隆创企ElevenLabs提供技术支持。 3、传苹果放弃电动汽车制造转向生成式AI据彭博社援引知情人士消息报道，苹果在当地时间周二于公司内部宣布取消长达十年的电动汽车项目，从事该项目的近2000名员工中的许多人将被转到由约翰·詹南德雷亚（John Giannandrea）领导的AI部门，专注于生成式人工智能项目。4、特斯拉APP推出AI聊天助手测试版据electrek报道，特斯拉今日更新了移动端应用程序，推出测试版聊天助手，可以回答有关特斯拉或其他产品的问题。 5、Gemini 1.5通过视频成功修复Bug昨日，社交平台X博主Mckay Wrigley称Gemini Pro 1.5通过视频和文本成功修复了问题代码。他将整个代码库以文本形式发送给Gemini Pro 1.5，并同时上传了摄像头拍摄的三个出错的程序界面，输入“请帮我修复代码中的所有Bug”等提示词，Gemini直接给出了问题代码位置和解决方案。 6、谷歌将进行结构性调整以解决Gemini偏见问题据Semafor今日报道，谷歌CEO桑达尔·皮查伊（Sundar Pichai）在当地时间周二晚间回应了Gemini的种族偏见争议，称该问题“不可接受”，并发誓要进行结构性调整来解决问题。他在内部信中说，公司在修复Gemini护栏方面已经取得了进展，“我们的团队一直在夜以继日地工作来解决这些问题。我们已经看到各种提示都得到了显着的改进。”7、研究显示Gemini等在选举上存在偏见据非盈利新闻工作室Proof今日发布的报告，GPT-4、Llama 2、Gemini、Mixtral和Claude等领先的五个AI文本模型在26个选举相关问题上准确性表现不佳，超过一半的相应被AI专家评委不准确，40%的回答被评为有害。其中，Gemini、Llama2和Mixtral的不准确答案率最高，均超过60%。 8、传谷歌向媒体付费测试AI写作工具据ADWEEK昨日报道，谷歌上个月为少数独立出版商推出一项计划，为后者提供未发布的生成式AI平台测试版访问权限，来换取分析和反馈。作为协议的一部分，出版商将使用该工具套件在12个月内每天发布3篇内容，每月可以获得五位数的津贴。9、扎克伯格拜访日韩讨论AI、XR合作据路透社报道，Meta CEO扎克伯格周二拜访了东京，与日本首相岸田文雄讨论了AI问题。周二晚间，他抵达韩国，并于今日会见了LG电子CEO、LG母公司COO，讨论下一代XR设备开发相关业务，以及在AI领域的潜在合作。10、OpenAI称《纽约时报》侵权指控存在欺骗行为据The Verge报道，OpenAI在当地时间周一提交的一份动议中称，《纽约时报》使用“欺骗性提示”让ChatGPT重复其内容，并请求纽约南部的美国地方法院驳回《纽约时报》版权侵权诉讼中的几项索赔。11、欧盟监管机构拟审查微软对Mistral的投资据The Information报道，欧洲最高反垄断监管机构欧盟委员会当地时间周二称，计划审查微软对法国生成式AI初创公司Mistral的投资。微软于周一宣布与Mistral建立合作伙伴关系，向Mistral投资1630万美元，并在云平台Azure中提供Mistral的模型。12、GitHub推出企业版Copilot微软旗下的GitHub今日推出Copilot Enterprise，可根据企业内部的代码和知识库定制，每人每月39美元。 13、微软正测试Copilot GPT昨日，微软副总裁兼Copilot和必应工程与产品负责人约尔迪·里巴斯（Jordi Ribas）透露，微软正在测试Copilot GPT，当用户打开Microsoft Copilot时会出现一个新的Copilot GPT列表，可为用户提供健身训练计划、计划假期和帮助烹饪等功能。 14、百度2023年净利润涨39%据百度微信公众号今日发文，其2023年营收为1345.98亿元，净利润287亿元，同比增长39%；其第四季度营收349.51亿元，净利润77.55亿元，同比增长44%。其中，AI成为增长新动力，百度智能云、PP飞桨等AI平台高速增长，千帆大模型平台累计精调模型1万个，AI出行平台萝卜快跑第四季度提供乘车服务83.9万次。15、百度Comate启动众测活动据百度安全应急响应中心微信公众号今日发文，百度智能编程工具Comate及千帆大模型平台开启专项加码众测活动，活动时间为2月29日-3月12日，单个漏洞奖励最高可达3万元。16、蚂蚁集团推出多模态遥感模型SkySense蚂蚁集团今日宣布推出20亿参数多模态遥感基础模型SkySense，这是蚂蚁百灵大模型在多模态领域最新的研发成果，其论文已被世界计算机视觉顶会CVPR 2024接收。数据显示，SkySense在17项测试场景中指标均超过国际同类产品，可用于地貌、农作物观测和解译等，有效辅助农业生产和经营。 17、魅族Aicy语音助手接入AI大模型据IT之家报道，魅族21系列手机今日获推Flyme 10.5.0.1A稳定版系统，语音助手小溪（Aicy）接入大模型，支持自然语言对话、文档总结、知识问答、出行规划、运动健康建议、文案生成等AI功能。18、OPPO Reno11系列将引入生成式AI功能昨日，OPPO在2024年世界移动通信大会（MWC 2024）宣布将全面发力AI领域。OPPO还宣布，今年第二季度，全球OPPO Reno11系列及OPPO Find N3也将引入包括AI消除功能在内的一系列生成式AI功能。19、南京大学开设AI通识核心课程体系昨日，南京大学宣布将面向全体本科新生开设“人工智能通识核心课程体系”。南京大学将建设“1+X+Y”三层次“人工智能通识核心课程体系”，以1门必修的AI通识核心课+X门AI素养课+Y门个学科与AI深度融合的前沿拓展课为基础，从知识、能力、价值观与伦理三个维度开展教育教学。20、传Tumblr等计划将数据出售给AI公司据404 Media今日援引内部文件报道，社交平台Tumblr和博客网站WordPress.com的所有者正在与AI公司Midjourney和OpenAI进行谈判，以提供从用户帖子中抓取的训练数据。21、Prophesee与高通合作进入可量产阶段神经拟态视觉传感公司Prophesee 2月27日宣布与高通的合作进入可量产阶段。在巴塞罗那世界移动通信大会MWC 2024期间，Prophesee展示了其解决方案与骁龙旗舰移动平台的原生兼容性，以及神经拟态视觉技术为智能手机摄像头带来的速度、能效和成像质量方面的提升。Prophesee Metavision事件视觉传感器和AI算法针对骁龙平台进行了优化，使运动模糊消除的效果和整体图像的质量都得到前所未有的提升，尤其是在快速移动和低光等传统基于帧的RGB传感器难以应对的场景中。22、芯片大神Jim Keller创企与日企合作设计AI芯片根据彭博社昨日报道，日本政府投资的半导体研发集团Rapidus将与加拿大芯片创企Tenstorrent合作设计其首款AI芯片。Tenstorrent将授权其设计日本AI加速器的一部分，并与Rapidus共同设计整个芯片。Tenstorrent成立于2016年，首席执行官为芯片界大神吉姆·凯勒（Jim Keller）。Rapidus成立于2022年，计划在2027年开始芯片生产，与台积电和三星电子等公司竞争。23、法AI图像创企获4300万美元融资据TechCrunch昨日报道，法国AI图像编辑器创企Photoroom近期以5亿美元估值完成了4300万美元融资，Balderton Capital领投此轮融资，新投资者Aglaé和之前的投资者Y Combinator参投。Photoroom目前拥有约50名员工，计划利用这笔融资雇用更多员工，并投资于研发和基础设施。24、字节推出MegaScale 将LLM训练扩展到1万个GPU2月24日，来自字节和北大的团队在arXiv上发表论文，提出大模型生产系统MegaScale。MegaScale将大型语言模型训练扩展到超过10000个GPU，在12288个GPU上训练175B LLM模型时，MegaScale实现了55.2%的模型FLOP利用率（MFU），与层内模型并行技术Megatron-LM相比，MFU提高了1.34倍。论文地址：https://arxiv.org/abs/2402.15627

THE END

AI资讯