语言,正在成为视频时代最后一道可被AI击穿的壁垒。今日,全球AI视频生成平台HeyGen正式发布新一代视频翻译引擎,以三大核心技术突破,将跨语言视频本地化推向“以假乱真”的新高度——外国演讲者不仅“说中文”,连语气、表情、唇动都宛如本地产出,真正实现“一人拍摄,全球共鸣”。上下文感知翻译:告别机械直译,拥抱文化共鸣新引擎彻底摒弃传统“字对字”的翻译逻辑,转而采用多模态语境理解机制。系统同步分析视频画面中的场景、人物表情、肢体语言乃至情绪起伏,动态调整译文风格。例如,一段充满激情的英文产品发布演讲,在转为中文时,AI会自动选用更具感染力的本土化表达,如将“I’m thrilled”译为“我太激动了!”而非生硬的“我很兴奋”,让观众感受原汁原味的情绪传递。唇形同步革命:侧脸、遮挡全搞定,误差降至毫秒级唇形不同步曾是AI视频翻译的最大“破绽”。HeyGen新引擎通过像素级面部动力学建模,即使在人物侧脸、手部遮挡嘴巴或快速转头等复杂场景下,也能生成与目标语言语音完美匹配的唇部动作。实测显示,动态头部运动中的同步误差已压缩至毫秒级别,远超行业平均水平。创作者无需绿幕、无需重拍,手机拍摄的视频也能 ...
在AI成本高企、大模型调用费用动辄百万的当下,Pinterest正悄然走出一条“高性价比智能之路”。公司CEO Bill Ready在最新财报电话会上透露,通过大规模采用微调后的开源大模型,Pinterest在视觉AI任务中实现了与闭源顶级模型相当的性能,而成本却降低了一个数量级。这一策略不仅有效对冲了广告收入增长放缓的压力,更可能为整个电商与内容推荐行业提供新的降本增效范式。作为用户购物旅程的“灵感起点”,Pinterest长期依赖AI驱动个性化推荐、图文混合搜索、广告定向及新品发现。今年推出的Pinterest Assistant更是其向“AI购物伙伴”转型的关键产品——用户可直接对话AI,获取基于个人收藏板、浏览习惯及相似人群偏好的穿搭、家居或礼品类建议。然而,面对投资者对“AI代理购物”(Agentic Commerce)商业前景的追问,Ready显得审慎而务实。他表示,尽管平台已通过与亚马逊合作实现“一键购买”,但是否让AI自动替用户下单,仍需观察用户真实意愿。“我们更关注引导用户完成决策,而非代替他们行动,”他强调。开源模型成降本利器,闭源API被边缘化Ready特别指出, ...
近日,IBM 宣布将裁员数千人,以便更加专注于快速发展的软件和人工智能(AI)服务。这一举措标志着这家已有114年历史的科技巨头正在进行重要的战略重组,反映出科技行业的新趋势。据 IBM 公司确认,此次裁员将影响其全球约270,000名员工中的 “个位数百分比”,这意味着受影响员工的数量可能在2,700至5,000人之间。IBM 发言人表示:“我们会定期审查我们的员工队伍,并根据需要进行调整。” 这次裁员计划预计将主要集中在美国的基础设施部门。那些被通知进行 “资源行动” 的员工将有30天的时间寻找内部新职位,否则将面临解雇及相应的遣散费。此次裁员是 IBM CEO 阿文德・克里希纳(Arvind Krishna)领导下的战略转型的一部分,旨在将公司资源更多地投入到利润率更高的软件和云服务领域,其中包括收购的红帽(Red Hat)部门。尽管 IBM 在最近的财报中报告软件收入增长了10%,但分析师指出,红帽业务的增长放缓可能促使公司进行此次重组。IBM 正在积极投资于更高增长的领域,包括软件开发、销售和其生成式 AI 平台 watsonx。同时,内部消息显示,基础设施部门将受到重创,有 ...
微软于 10 月 17 日宣布,OpenAI开发的新一代视频生成模型Sora2 已在Azure AI Foundry国际版上线,并进入公共预览阶段。这是该模型首次通过云平台向企业和开发者开放API接口,标志着生成式AI视频工具开始从封闭测试走向商业化应用。Sora2 是一款多模态视频生成模型,能够处理文本、图像和视频等多种类型的输入数据,并将这些元素组合生成新的视频内容。这种能力使其适用于广告制作、教育视频、社交媒体内容等多个应用场景。用户可以通过文本描述直接生成视频片段,省去了传统视频制作中的拍摄、剪辑等环节。图源备注:图片由AI生成从接入方式来看,用户需通过Azure AI Foundry的Standard Global API访问Sora2 服务,定价为每秒视频0. 1 美元。这一定价策略采用了按生成时长计费的模式,对于需要批量生成短视频内容的企业用户而言,成本结构相对透明且可预测。微软选择将Sora2 部署在Azure平台上,延续了其与OpenAI在云服务领域的深度合作模式。此前GPT系列模型也是通过Azure率先向企业客户开放。这种合作关系让微软能够将最新的AI能力快速整合到 ...
近日,旅行搜索引擎Kayak宣布推出全新的 “AI 模式”,该功能使用户可以通过内置聊天机器人在其网站上直接研究、规划和预订旅行。此功能现已在桌面和移动网页上提供,用户可以使用该 AI 聊天机器人提出与旅行相关的问题,如比较航班、酒店和租车服务。“AI 模式” 利用Kayak与 ChatGPT 的集成技术,能够提供更具上下文的搜索结果。此项功能的推出紧随Kayak于四月份推出的 Kayak.ai 测试平台,后者旨在为用户提供一个结合凯亚数据与 OpenAI 技术的实验环境,以便进行 AI 技术的尝试和改进。在 “AI 模式” 中,用户可以询问诸如 “我想在预算内去哪儿旅行?” 或者 “我希望在新年派对去哪里?” 等开放性问题,以获取旅行建议。此外,用户还可以询问最佳飞行时间以及相关票价信息。Kayak的博客上还分享了一些 AI 使用提示,以帮助用户更好地与该功能互动。这一新功能将为用户在旅行规划的早期阶段提供便利,帮助他们探索各种旅行选择。然而,Kayak尚未明确用户使用这一功能后的转化率,即这些 AI 用户是否会变成实际支付的客户。目前,“AI 模式” 仅支持英语,并已在美国推出,预 ...
维基百科运营方维基媒体基金会近日表示,由于越来越多用户通过 AI 聊天机器人和搜索引擎直接获取维基百科上的信息,导致其人类访问流量显著下降。这一现象引发了基金会对维基百科未来可持续发展的担忧。维基媒体基金会的高级总监 Marshall Miller 在官方博客中指出,虽然人们以新的方式获取知识是受欢迎的,但 AI 工具和社交平台在使用维基百科内容时,应该鼓励用户访问维基百科本身。他强调,维基百科的流量减少将导致志愿者减少,内容生产与扩充受到影响,甚至可能导致个人捐赠的减少,这将直接威胁到维基百科的正常运营。有趣的是,尽管 AI 和搜索引擎使维基百科的直接流量减少,但维基百科的数据对这些平台而言愈发重要。许多大型语言模型都使用维基百科作为核心数据集,而 Google 等平台长期依赖维基百科的文章来生成摘要和知识面板,这也进一步分流了维基百科的访问量。Miller 提到,维基百科在2025年5月观察到源自巴西的 “人类访问流量” 异常高。经过调查后,基金会调整了自动检测系统,发现最近的人类页面浏览量同比下降约8%。这一趋势反映出 AI 和社交媒体改变了用户获取信息的方式,搜索引擎越来越多地 ...
北京清华长庚医院与北京电子数智科技有限责任公司(北电数智)于10月16日宣布达成战略合作,双方将联合研发国内首个药学领域专用大模型。该项目旨在通过AI技术优化药学工作流程,提升针对老年人、儿童和孕产妇等特殊人群的用药安全评估效率和精准度。从行业背景来看,当前药品信息更新速度快,新药持续上市,而特殊人群的用药评估因个体差异和药物相互作用的复杂性,需要药师投入大量时间进行风险判断。传统依赖人工经验的药学服务模式在效率和准确性上已难以满足现代临床对用药安全的需求,这成为医疗机构亟待解决的痛点。图源备注:图片由AI生成,图片授权服务商Midjourney技术层面,该药学大模型将基于北电数智的”星火·医疗底座”平台构建,结合清华长庚医院的临床实践数据和科研资源。清华长庚医院作为国家药监局批准的药物临床试验机构,拥有30个专业的临床试验资质,覆盖肿瘤、心血管、神经等关键疾病领域,并配备经验丰富的临床研究团队。这些资源为模型训练提供了高质量的临床数据基础。从应用路径看,药学大模型将首先在清华长庚医院落地应用,建立技术迭代与临床用药之间的反馈闭环。通过实际临床场景的验证和优化,模型将逐步提升对复杂用药 ...
近日,OpenAI 宣布暂停其 AI 视频生成模型 Sora 对马丁・路德・金(Martin Luther King Jr.)的肖像生成。这一决定是应马丁・路德・金遗产管理处的请求而做出的,原因在于用户在 Sora 上生成了一些 “失礼” 的视频内容。OpenAI 在其社交媒体平台 X 上发布声明称:“虽然描绘历史人物的言论自由是重要的,但我们认为公众人物及其家属应该最终控制他们肖像的使用。” 此外,相关授权代表或遗产所有者可以请求禁止在 Sora 平台上使用他们的肖像。该限制出台之际,正值 OpenAI 刚刚推出其社交视频平台 Sora。用户可以在此平台上创造与历史人物、朋友或自愿提供肖像的用户相似的真实感 AI 视频。然而,Sora 的发布引发了关于 AI 生成视频的安全性以及如何在技术上实施保护措施的激烈讨论。马丁・路德・金的女儿伯尼斯・金(Bernice King)上周在 Instagram 上呼吁人们停止发送她父亲的 AI 视频。她的呼声与罗宾・威廉姆斯的女儿的观点一致,后者也要求 Sora 用户停止生成关于她父亲的 AI 视频。根据《华盛顿邮报》的报道,Sora 用户曾生成 ...
2025年,AI音乐创作工具的普及正在改变音乐行业的创作格局。今年1月,一位《原神》玩家使用游戏台词结合AI作曲工具Suno创作的歌曲《奥奇坎竟是我自己》在B站获得近640万播放量,引发了关于AI创作能力的广泛讨论。程序员群体成为AI音乐创作的活跃参与者。今年3月,程序员Yapie利用DeepSeek和Make Best Music等工具,以”暗恋到分手”为主题,在数小时内完成了歌曲《七天爱人》的词曲创作。该作品在网易云音乐上线后迅速突破200万播放量,并成功出售版权获得数万元收入。这一案例展示了AI音乐工具在降低创作门槛和商业变现方面的潜力。AI生成音乐的质量提升已经到了难以辨识的程度。今年7月,拥有超百万月听众的乐队Velvet Sundown被曝光其作品实际由Suno等AI工具生成,这一事件引发了关于AI音乐透明度的讨论。从市场数据来看,截至2025年,AI已生成超过一亿首乐曲。业内预测,到2026年AI音乐市场收益将达到70亿美元。这一增长趋势反映出AI工具在音乐创作领域的快速渗透。创作者对AI工具的态度正在转变。从最初的抵制到逐步接受,许多音乐人开始将AI视为创作辅助工具而非 ...
近日,百度正式发布并开源其自研的多模态文档解析模型 PaddleOCR-VL。这一模型在全球权威的文档解析评测榜单 OmniBenchDoc V1.5中,以92.6分的佳绩荣登综合性能全球第一的宝座,展现出其在文本、表格、公式和阅读顺序四大核心能力上的卓越表现。PaddleOCR-VL 的核心模型参数仅为0.9B,具有轻量高效的特点,能够在极低的计算开销下,精准识别包括文本、手写汉字、表格、公式及图表等复杂元素。该模型支持109种语言,涵盖中文、英语、法语、日语、俄语、阿拉伯语和西班牙语等多种语言场景,适用于政企文档管理、知识检索、档案数字化以及科研信息抽取等多种智能文档处理任务。作为文心4.5的衍生模型,PaddleOCR-VL-0.9B 通过融合 NaViT 动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,成功实现了在精度和效率上的双重突破。具体而言,该模型在 OmniDocBench v1.5上的表现极为亮眼,文本编辑距离为0.035,公式识别的 CDM 为91.43,表格的 TEDS 达到了93.52,阅读顺序预测误差值为0.043,这些数据展示了其在复杂文档、 ...