马斯克最近爆料称,他所创立的 xAI 公司的整个代码库遭到窃取。这一消息震惊了科技界,xAI 已经对一名前员工提起诉讼,指控他窃取了公司的商业机密,且此人已跳槽至竞争对手 OpenAI。据悉,涉事的前员工名叫 Xuechen Li,他曾是 xAI 的核心成员之一。根据 xAI 向加州北区联邦地方法院递交的起诉书,Li 面临四项指控,涉及违反保密协议、侵犯商业秘密、违反加州计算机数据法规以及欺诈。xAI 要求法院对 Li 实施禁令,禁止其在 OpenAI 等竞争对手工作,并要求其归还所有被盗取的数据。事件的起因追溯到 Li 于7月28日从 xAI 辞职,辞职前的三天,他便已将大量公司的数据上传至个人系统。令人瞩目的是,在辞职前夕,Li 还将手中的 xAI 股份套现,获得了近700万美元的收益。虽然 Li 在离职时签署了相关文件,承诺归还公司财产和删除所有副本,但他仍然采取了一系列手段来掩盖其窃密行为。根据 xAI 的调查,8月11日,公司的安全软件检测到数据外泄的迹象,随即向 Li 发函要求他归还被盗信息。可 Li 不但没有配合,反而更改了存储盗取数据的账户密码,试图阻止公司的访问和恢复 ...
近日,阿里巴巴 Qwen 团队推出了两款革命性的产品 ——Mobile-Agent-v3和 GUI-Owl,这些工具旨在解决图形用户界面(GUI)自动化中的一系列挑战。现代计算设备普遍采用图形用户界面,然而,以往的自动化方法往往依赖于复杂的脚本和手工规则,效果并不理想。GUI-Owl 作为一种新型的多模态代理模型,构建于 Qwen2.5-VL 之上,并在大量 GUI 交互数据上进行了后续训练,旨在提升任务理解和执行的能力。GUI-Owl 的设计初衷是处理真实世界中 GUI 环境的多样性和动态性。它通过整合感知、推理、规划和执行能力,提供了一个统一的政策网络。这种设计使得它能够在复杂的任务中进行多轮决策,同时实现清晰的推理过程,适应实际使用中的变化。为了确保高质量的数据支持,团队开发了一个自我演化的数据生产管道。该管道生成真实应用程序导航流程,并通过人类注释进行验证,确保了生成数据的真实性和有效性。此外,团队还使用了多种数据合成策略,以丰富模型的学习内容,使其在任务执行时具备更强的适应性和灵活性。Mobile-Agent-v3框架则侧重于多代理的协作,它将复杂任务分解为子目标,通过动态更 ...
9月1日,阶跃星辰正式发布最强开源端到端语音大模型Step-Audio2mini。该模型在多个国际基准测试集上取得了SOTA(State-of-the-Art)成绩,将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,并率先支持语音原生的Tool Calling能力,可实现联网搜索等操作。Step-Audio2mini被形容为“听得清楚、想得明白、说得自然”,其模型现已上线GitHub、Hugging Face等平台,供用户下载、试用并反馈。Step-Audio2mini在多个关键基准测试中取得SOTA成绩,在音频理解、语音识别、翻译和对话场景中表现卓越,综合性能超越Qwen-Omni、Kimi-Audio等所有开源端到端语音模型,并在大部分任务上超越GPT-4o Audio。在通用多模态音频理解测试集MMAU上,Step-Audio2mini以73.2的得分位列开源端到端语音模型榜首;在衡量口语对话能力的URO Bench上,Step-Audio2mini在基础与专业赛道均拿下开源端到端语音模型最高分;在中英互译任务上,S ...
自今年6月以来,尽管Meta向数据标注公司Scale AI投资了高达143亿美元,并聘请其首席执行官Alexandr Wang等高管加盟Meta Superintelligence Labs (MSL),但双方的关系似乎正面临挑战。核心问题源于数据质量的争议。尽管进行了巨额投资,但消息人士透露,Meta核心AI部门TBD Labs的研究人员普遍认为Scale AI的数据质量不佳,更倾向于与Scale AI的主要竞争对手Mercor和Surge合作。Meta的TBD Labs在成立前就已与这两家公司有合作,但向一家数据供应商投入如此巨资后,仍然依赖其竞争对手的情况十分罕见。这种现象背后反映出数据标注行业的变化。早期,Scale AI的众包模式依赖低成本劳动力处理简单任务,但随着AI模型复杂化,需要医生、律师等高技能领域专家来提供高质量数据。尽管Scale AI推出了Outlier平台,但像Mercor和Surge这样从一开始就建立在高薪人才模式上的竞争对手正迅速崛起。除了商业合作上的紧张,双方的人事整合也遭遇挫折。Scale AI前高管Ruben Mayer在加入Meta仅两个月后便离职 ...
在人工智能的快速发展中,Meta 与加州大学圣地亚哥分校(UCSD)合作,推出了一项名为 “DeepConf” 的创新技术。这项新技术在高难度推理题的准确性和计算成本方面取得了突破性的进展,成为业界关注的焦点。DeepConf 解决了长期以来困扰人工智能领域的一个核心问题:如何在进行复杂推理时保持高准确率的同时,降低计算资源的消耗。此次技术的推出,尤其是在 AIME2025数学竞赛中的表现,更是让人惊叹。DeepConf 与开源的 GPT-OSS-120B 模型结合,取得了高达99.9% 的准确率,并成功将计算资源的使用减少了84.7%。传统的推理方法往往依赖于生成大量不同解题思路,然后进行投票选出最佳答案。然而,这种方法在准确性和计算开销上面临重大挑战。Meta 与 UCSD 的研究团队指出,过多的解题路径可能导致效益递减,甚至可能由于低质量答案影响最终结果。此外,传统方法还需要消耗大量计算资源,这在经济上并不可行。DeepConf 通过引入 “置信度” 机制,改变了传统的推理模式。AI 在解题过程中会对每一步的信心进行评估,如果发现某一步骤的信心不足,就会及时停止并调整解题策略。这 ...
AI语音交互的天花板被彻底突破了!OpenAI刚刚正式发布的GPT-realtime语音模型,以其前所未有的自然流畅度和情感表达力,瞬间引爆了整个科技圈。这不再是那种机械化的合成语音,而是一个能够精准模拟人类语调、情感波动和语速变化的超级语音大脑。GPT-realtime的核心突破在于它对人类语音细节的极致还原。传统的AI语音系统往往听起来生硬僵化,缺乏人类交流中那种自然的韵律感和情感色彩。而GPT-realtime却能够捕捉到语音交流中最微妙的元素,从轻快的笑声到深沉的思考停顿,从激动的语速飙升到温和的音调转换,每一个细节都被精准地融入到语音生成中。这款多模态语音模型的能力远超单纯的语音合成。它不仅能够处理语音对话,还具备强大的图像理解能力,可以同时结合视觉信息和语音交流进行综合分析和响应。这种多维度的信息处理能力,为构建更加智能化的AI助手奠定了坚实基础。在复杂指令执行方面,GPT-realtime展现出了令人惊叹的精准度。它能够完美处理那些对传统语音系统极具挑战性的任务,比如逐字母拼读复杂单词、按照特定节奏朗读数字序列、在句子中间无缝切换不同语言等。这种精细化的控制能力,让AI语 ...
AIbase报道 -8月29日,阿里巴巴集团发布2026财年第一季度财报,业绩表现远超市场预期。剔除已出售业务影响,集团整体收入同比稳健增长10%,净利润同比大幅增长76%,充分展现了AI+云与消费两大战略领域投入的显著成效。阿里云本季度表现尤为亮眼,收入同比增长26%,创下三年来最高增速。这一成绩主要得益于AI需求的强劲推动,AI相关产品收入已连续八个季度实现三位数同比增长。阿里巴巴已建立起从AI算力、AI云平台、AI模型到应用开源生态的完整技术栈,有效支撑千行百业的AI需求。本季度,阿里对AI+云的资本支出达386亿元,同比激增220%,显示出对AI基础设施建设的坚定投入。近期,通义AI大模型表现抢眼,接连开源千问3非思考基础模型、推理模型和AI编程模型,分别夺得基础模型、编程模型、推理模型等主流领域全球开源冠军。同时开源的还包括视频生成模型Wan2.2、文生图模型Qwen-Image等多模态产品。据悉,4月底上线的即时零售业务快速见效,8月前三周成功带动淘宝app月度活跃消费者同比增长25%,展现出强大的用户吸引力和市场潜力。通过淘天集团、饿了么与飞猪的战略整合,阿里巴巴中国电商 ...
《人工智能生成合成内容标识办法》于9月1日起强制实施,这不仅仅是一纸技术标准,更是国家对AI内容治理的系统性布局,每一位内容创作者和AI从业者都将直面这场史无前例的合规大考。当前的AI内容生态确实到了必须规范的关键节点。从栩栩如生的AI换脸视频到以假乱真的合成音频,从精美绝伦的AI绘画作品到流畅自然的机器写作,AI生成内容已经渗透到我们数字生活的每个角落。然而,技术进步的另一面却是信息真实性的严重危机。AI声音克隆诈骗案件频发,虚假信息传播速度惊人,普通用户越来越难以区分真实与虚构的边界。新规的核心机制围绕双重标识体系展开。显式标识要求所有AI生成内容都必须以用户可直观感知的方式进行标注。文本内容需要在醒目位置标注”AI生成”或”人工智能生成”字样,图片和视频必须在边角位置添加清晰可见的标识文字,音频内容则要求在开头或结尾播放”由AI生成”的语音提示。这种强制性的明示要求,彻底打破了AI内容的”隐身术”。隐式标识的技术要求更加深入和精密。每一份AI生成内容都必须在文件元数据中嵌入结构化的标识信息,包括AI生成确认标志、内容提供方身份、生成时间戳、唯一识别编号等关键数据。这套”数字指纹” ...
根据风险投资公司 Andreessen Horowitz(a16z)发布的最新《前100名生成式 AI 消费应用报告》,AI 应用市场正在经历新一轮变化。尽管谷歌的 Gemini 依然落后于 ChatGPT,但在网络和移动应用领域,谷歌的产品正在逐步缩小差距,而中国公司在移动领域则占据主导地位。与2025年3月的版本相比,本次报告中仅新增11款网络应用,较上期的17款有所减少,显示出 AI 应用市场正趋于稳定。在移动应用方面,则有14款新应用上榜,这部分原因是应用商店正在加强对 “ChatGPT 克隆” 的监管。报告通过月独立访问量(来自 Similarweb)对前50名 AI 原生网络产品进行排名,同时对月活跃用户数(来自 Sensor Tower)排名前50的 AI 原生移动应用进行统计。在网络应用中,ChatGPT 仍以独特的月访问量位居榜首,谷歌的 Gemini 和 Deepseek 紧随其后。而在移动应用方面,ChatGPT 同样占据首位,Gemini、AI Gallery 和 Doubao 则名列前五。谷歌的 Gemini 家族首次在网络榜单上占据四个席位,现时 Gemin ...
8月31日,上海人工智能实验室(上海AI实验室)宣布开源发布多模态大模型书生·万象InternVL3.5。该模型通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构,实现了推理能力、部署效率与通用能力的全面升级。InternVL3.5开源了从1B到241B各尺寸参数的全量级版本,刷新了开源模型性能标杆,在多种任务上达到领先水平。InternVL3.5的旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获得开源模型最高分77.7分,多模态通用感知基准MMStar和OCRBench分别取得77.9分和90.7分,超越GPT-5(75.7分/80.7分)。文本推理基准AIME25和MMLU-Pro分别达到75.6和81.3分,全面领先现有开源多模态大模型。依托级联式强化学习框架,全系列模型推理性能相比上一代平均提升16.0分。其中,InternVL3.5-241B-A28B综合推理性能达到66.9分,超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,在数学推理、逻辑推理等复杂任务中表现突出。借助创新 ...