多纳鲁马在10场比赛中拿到了4张黄牌。如果再领到一张黄牌,他将成为英超历史上第一位累计5张黄牌并被停赛的门将。

北京时间12月2日,《太阳报》报道称,曼城主力门将多纳鲁马在加盟球队仅仅三个月后就有望创造英超历史。 26岁的多纳鲁马今年夏天以3000万欧元从巴黎加盟曼城。本赛季他代表蓝月亮队出场10场英超比赛,但迄今为止已经收到四张黄牌。据《太阳报》报道,如果多纳鲁马在英超赛季过半前再次领到黄牌,他将成为英超历史上第一位单赛季因五张黄牌停赛的门将。前19轮比赛结束后,累计黄牌停赛数将增加至10张黄牌。 【咪咕独家观看英超联赛】
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(含鹿鼎图像和视频(如有)由网易号用户上传和发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 每日更新 | 留下评论

国际足联同意在12月15日之前释放非洲国家杯球员,比之前晚了7天。

《每日邮报》最近报道称,国际足联已同意将英超俱乐部释放非洲国家杯(AFCON)球员的最后期限延长一周。据报道,曼联是要求国际足联推迟发布截止日期的俱乐部之一。如果国家队在1月18日打进决赛,曼联球员可能会缺席8场联赛和一场足总杯第三轮比赛。《每日邮报》报道称,球队直到12月8日才需要释放他,而是将转会日期推迟到12月15日,比原定时间晚了7天。这对于球员因参加非洲比赛而受到影响的球队来说是一个巨大的优势。这项裁决意味着桑德兰的七名首选球员将能够参加12月14日泰恩郡和威尔队九年来的首次顶级联赛德比。曼联也可以从中受益,阿马德·迪亚洛、姆贝莫和马兹拉维很可能会对阵伯恩茅斯。目前尚不清楚是否这些球员将能够参加比赛,因为比赛日期恰逢国际足联为俱乐部设定的释放球员的新截止日期。利物浦可能会保留萨拉赫参加12月13日对阵布莱顿的比赛(他在周日战胜西汉姆联的比赛中被轮换),而埃及同胞马尔穆什也将参加12月14日曼城对阵水晶宫的比赛。不过,马尔穆什是本赛季曼城队中出场时间最少的球员之一,所以毫不夸张地说,他的影响有限。萨拉赫本赛季开局并不顺利,在为利物浦出战的18场比赛中仅打入5球并贡献3次助攻。尽管斯洛特的球队不再那么依赖他,但萨拉赫的缺席将减少斯洛特在紧张赛程的困难时期进攻的选择。多达 45 名英超球员可以在 12 月 21 日开始的非洲国家杯之前离开自己的俱乐部,但只有四家具乐部 -阿森纳、切尔西、利兹联和纽卡斯尔联——没有球员参加比赛。纽卡斯尔联队对签证可用性表示担忧 然而,这位受伤的前锋自以 5500 万英镑从布伦特福德加盟以来尚未首次亮相,并且没有入选刚果民主共和国队。桑德兰受到的影响最为严重,所有七名球员都可能因非洲国家杯而缺席节日期间的关键比赛。积分榜垫底的狼队在 13 场比赛中仅获得 2 分,并且可能缺席最多 5 名球员,比水晶宫和诺丁汉森林多 1 名。曼联是要求国际足联扩大计划公布范围的俱乐部之一。如果他的国家队在1月18日进入决赛,他可能会缺席8场联赛和一场足总杯第三轮比赛。包括对阵阿斯顿维拉(客场)、纽卡斯尔联(主场)、狼队(主场)、利兹联(客场)、伯恩利(客场)、足总杯第三轮和曼城(主场)的比赛。球员迟到是有先例的,即使在国际足联截止日期之后。奥纳纳出人意料地被排除在喀麦隆参加本届世界杯的大名单之外,但他在 2023 年非洲国家杯期间前往科特迪瓦的行程也被推迟。他选择留在曼联迎战热刺,错过了小组赛首回合比赛。 【咪咕独家观看英超联赛】
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供存储服务、信息传递。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 吃瓜热门 | 留下评论

“第二代”国企Avita登陆香港股市。资本会买账吗?

股改后不到两个月,Avita 开始IPO。 11月27日晚间,艾维达科技(重庆)股份有限公司(以下简称艾维达)向香港联交所提交上市申请。由中信证券、中金公司共同保荐。这意味着Avita迈出了进军资本市场的重要一步。这家第二代国企得到了长安汽车、宁德时代和华为的支持。公司累计融资超过190亿元,完成了“3年4款”的产品设计。我们现在发现自己正处于一个新的转折点。然而,Avita的高层战略面临尚未盈利和外部竞争加剧的双重挑战。漫长的准备终于有了成果:最新估值在260亿左右。 Avita科技成立于2018年,Avita品牌预计于2021年正式推出。首款量产旗舰车型Avita 11计划于2022年8月上市。招股书显示,长安汽车为第一大股东,持股40.99%,其次为CATL,持股14.1%。华为不是Avita的股东,而是通过智能驾驶解决方案、鸿蒙舱等技术参与其中。 Avita还完成了对华为的投资。长安汽车与艾维塔多次明确表示,艾维塔计划独立上市。 2024年9月,长安汽车向投资者披露,艾维塔科技将独立开发,独立进行市场化运营,整合战略合作伙伴资源,制定独立上市计划。 2024年12月,Avita宣布完成C轮融资时,提到计划于2026年进行IPO(首次公开募股)。今年以来,有关Avita上市的传闻已多次泄露。 2025年9月29日,阿维公司进行了工商变更,公司名称由爱维达科技(重庆)有限公司变更为爱维达科技(重庆)有限公司。公司的资本结构和治理模式更加符合上市公司的监管要求,股改被认为是上市前的规范做法和必要前提。此前,今年6月,艾维塔注册资本从约19.95亿元增至约30.65亿元,并引入重庆安宇私募股权投资基金等新股东。截至目前,Avita已完成四轮融资,融资总额超过190亿元。阿维塔的最后一次评级是在她提交表格之前发布的。博泰车联在其《出售标的公司股份》公告中表示,其子公司湖州壮盛吉明股权投资合伙企业与芜湖恒和三号创业投资基金合伙企业rship已签署股权转让协议。后者将以6244万元收购前者持有的Avita股份0.24%。按本次股份收购价格计算,艾维塔估值约为260亿元。高利润与高亏损并存。与其他车企投资建厂的“重资产”模式不同,艾维塔走的是“轻资产”路线,专注于产品设计、研发、品牌营销、用户运营等生产、供应等环节,艾维塔的重资产类别均由股东和合作伙伴共同完成。长安汽车提供整车研发和制造支持,宁德时代提供电池技术,华为提供智能汽车解决方案。不过,Avita的招股说明书也反映出了这一点:轻资产模式的另一面已经出现。今年上半年,Avita向华为控股的深圳银网及其子公司采购了价值18.34亿元的产品和材料。并支付研发服务费3.76亿元,合计22.1亿元。今年上半年,Avita共售出56,729辆汽车。这相当于每售出一辆车分配给华为系统的费用约为39,000元。今年上半年Avita的销量几乎达到了去年的销量。其中,Avita 07依然是Avita销量的中流砥柱。由于销量增加,Avita 实现了收入增长。 2022年至2025年上半年至今,艾维塔营业利润分别为2834万元、564.5万元、1519.5万元、1220.8万元。但阿维塔仍面临资金压力,与其他新能源车企有着相同的特点:高利润与高亏损并存。 2022年至2025年上半年,艾维塔税前亏损分别为20.16亿元、36.93亿元、40.18亿元和15.85亿元。这意味着截至目前,艾维塔三年半累计亏损超过110亿元。当前新能源汽车市场竞争激烈,传统汽车企业正在加速设计,包括“二代”、阿维塔在内的新兴力量面临着更大的竞争压力。深度技术研究院院长张晓荣认为,赴港上市不仅可以拓宽融资路线,获得融资“输血”,还能提升公司知名度,推进全球化战略。长安汽车董事、总会计师、董事会秘书张德勇曾对新京报贝壳财经记者表示,今年阿维塔仍处于投资期,很难实现盈亏平衡。预计2026年实现盈亏平衡。Avita在招股说明书中表示,盈利能力显着改善。 Avita 2022年至2025年上半年毛利润分别为-1亿元、-1.69亿元、-9.6亿元、12.38亿元。相应的毛利率分别为-365.5%、-3%、6.3%和10.1%。与华为深度联结有何赋能效应?在长安汽车、宁德时代、华为的支持下,艾维塔的发展正在不断深化。今年9月,长安汽车董事长朱华荣在接受新京报贝壳财经记者采访时表示,阿维塔需要“钱对钱、人对人、技术对技术”、“组织对组织、生态对生态”。在Avita公布的战略2.0中,表示将坚定加强与华为、宁德时代的战略合作。今年10月,Avita完成对华为银网公司10%的投资,共计115元,支付1亿元。通过收购银王股份,Avita与华为建立了深厚的联系,也可以提高其在资本的声誉l 市场化。在今年的广州车展上,Avita与华为联合宣布,将把合作从HI模式升级为HI PLUS模式,并将合作范围拓展到用户洞察、产品定义、产品开发、整合营销和团队建设等领域。 “华为”一词在Avita宣传册中频繁出现。例如,在驾驶辅助方面,Avita表示将成为首批采用华为乾坤下一代驾驶辅助的集团之一。汽车品牌的推进系统。但Avita并不是华为独有的。目前,除了“五区”外,华为还与广汽、东风合作推出奇景、逸景“两区”。华为公开数据显示,截至10月底,乾坤智驾或鸿蒙座舱解决方案已安装在14家汽车公司的33款量产车型上。对于Avita来说,智能驾驶技术对华为的信任造成了同质化竞争的隐患诉讼。为了跟上华为的步伐,Avita还面临着如何打造超越“5领域和2领域”的竞争力的挑战。电池供应依赖宁德时代,但存在原材料价格波动削弱议价能力的风险。艾维达科技总裁王辉曾对新京报贝壳财经记者表示,艾维塔将与华为共同开发更多产品。以前有一些产品是基于HI模式开发的,但现在所有产品都采用共创模式。明年计划推出四款与华为联合开发的产品。艾维塔在招股书中表示,将集中资源快速拓展“市场需求大、盈利能力高”的高端中型、大型SUV市场,致力打造多款年销量超过10万辆的大型个性化车型。今天,Avita 设定了一个新目标。我们的目标是全球年销量达到40万台,年销量达到40万台。2027年总收入达1000亿元,到2030年全球年销量将增至80万台。 Avita的目标是到2035年全球销量达到150万台。正如王辉所言,CHN(长安、华为、宁德合作)模式以及与华为的合作是难得的战略资源,但绝不是可以赚到的资本。对于Avita来说,关键是如何利用这些资源来发展品牌竞争力。
特别提示:以上内容(包括图片和视频,如有)由m平台用户自己的edios“网易账号”上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 每日更新 | 留下评论

外媒:苹果低端MacBook芯片“被三星拆解”,英特尔获大规模“救援”订单

来源:环球网【全球网络综合技术报告】据 sammobile 报道,苹果首席供应链分析师郭明池透露,苹果已决定采用英特尔 18A(相当于 1.8 纳米)工艺来制造用于下一代低端 MacBook 和其他 Mac 设备的 M 系列芯片。此次战略调整标志着苹果有意将英特尔纳入先进制程代工厂选择范围,并避免代工目前已具备2nm量产能力的三星晶圆。苹果的低端MacBook芯片是“来自三星”。据报道,英特尔将于 2027 年中期开始向苹果供应基于 18A 工艺的芯片。这些芯片预计属于M6或M7系列,并将用于MacBook Air、iPad Air和iPad Pro等未来产品线。所有相关芯片都将在北美生产,本地化尚未实现。加上苹果的供应链。据外媒报道,三星在许多主要领域都是苹果的直接竞争对手。市场,例如智能手机、平板电脑、笔记本电脑、智能手表,甚至 XR 设备。由于双重身份,苹果对于供应链安全非常谨慎,避免在关键技术上依赖竞争对手。 (青云)
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 吃瓜热门 | 留下评论

幸运的是,德拉蒙德在轮椅上完成了比赛,没有受到任何重大伤害。膝盖没有结构性损伤,他将每天接受监测。

北京时间今天,NBA记者迈克尔·斯科特表示,核磁共振检查证实76人队中锋安德烈·德拉蒙德的膝盖没有结构性损伤。由于膝盖过度伸展,他将被列入每日观察名单。昨天76人队115-103战胜篮网队的比赛中,德拉蒙德在抢篮板时倒地受伤。说完,我紧紧抓住右膝盖,感到剧烈的疼痛。经过队医的短暂治疗后,德拉蒙德坐在轮椅上离开了球馆。这种伤害曾经让人们很担心,但幸运的是,现在已经证实并不严重。本赛季至今,德拉蒙德出战17场比赛,场均出场23.4分钟,得到8.2分、10.3个篮板、0.7次抢断和1次盖帽,投篮命中率为55%,三分命中率为43.5%。
特别说明:之前的内容(包括图片和视频,如有)由自有媒体平台“网易账号”用户上传发布。这个平台rm仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 每日更新 | 留下评论

开拓者官方:克林根感觉不舒服,能否参加对阵雷霆的比赛存疑

北京时间11月30日,开拓者队官方更新了球队的伤病报告。开拓者队官方宣布,克林根因病缺席12月1日对阵雷霆队的比赛。本赛季到目前为止,克林根一直是全员球员,代表开拓者队出战了 19 场常规赛,全部首发。他场均上场25分钟,得到10.2分和10个篮板的两双数据。其中,场均进攻篮板数为4.7个,排名联盟第二,进攻篮板总数达到90个,排名联盟第一。他还贡献了1.7次助攻和1.5次盖帽。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。注:以上内容(包括图片、视频,如有)由网易号社交网站用户上传发布仅提供信息存储服务的媒体平台。

发表在 吃瓜热门 | 留下评论

京东方:布局AI眼镜相关显示技术

新京报贝壳财经讯 对于公司AI眼镜业务的进展,京东方A11月28日晚间在互动平台表示,公司对AI眼镜等应用场景的前景保持乐观。在显示器方面,该公司有相关显示技术的计划。镜头方面,公司依托成熟的液晶调光技术研发调光镜头,并与国内外众多品牌进行交流与合作。编辑:陈伟成、校对:赵琳
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易H usersao上传发布,该社交媒体平台仅提供信息存储服务。

发表在 每日更新 | 留下评论

小鹏汽车回应网传“淫秽车模视频”:因AI生成已报警

11月28日下午,针对“某车型淫秽视频”,小鹏汽车法务部在微博发布公告称,该视频由人工智能技术生成,目前已向警方报案。近日,一段汽车模型的淫秽视频出现在网络上。小鹏P7车旁,一名身穿绿色裙子的女子正在做出猥亵动作。该视频也引起了外界的关注,不少网友认为其“低俗”。小鹏汽车法务部回应称,公司发现部分账号利用人工智能技术生成账号,在社交媒体和私人渠道恶意传播在广州车展小鹏汽车展台拍摄的虚假、低俗色情视频,造成负面谣言,诽谤小鹏汽车品牌和产品。此类行为不仅严重违反公共秩序和道德,而且有悖于民意调查破坏了网络环境,也侵犯了小鹏汽车的合法权益,触碰了不应跨越的法律底线。小鹏汽车回应称,公司不邀请模特或明星参加车展,并一直坚决抵制和反对使用有害内容进行广告宣传。目前,该公司已获取充分相关证据,正式向警方报案,公安机关正在介入调查。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 吃瓜热门 | 留下评论

到2030年,情况将发生巨大变化! “世界前10名的车企有一半在中国。”

【文/熊超兰观察者网】“未来五年,随着技术和规模的进步,中国汽车制造商将不断改变现有的领导格局,跻身全球汽车英雄之列。” 11月28日,香港《南华早报》援引全球顶级咨询公司麦肯锡公司预测,到2030年,多达5家中国汽车企业将凭借在电动汽车制造方面的技术和产能优势跻身全球前10名汽车制造商,从而改变全球汽车产业的现有格局。 “到2030年,汽车行业将发生重大变革。事实上,有一些迹象表明重大变革即将到来。”麦肯锡高级合伙人关明宇在11月27日的新闻发布会上表示。去年,吉利控股集团收购了中国电动汽车巨头比亚迪和沃尔沃汽车,使其成为全球十大汽车集团之一。关明玉没有透露是否另外三家中国汽车制造商将进入全球前十。 分析人士指出,小米汽车、小鹏汽车、零跑汽车等新兴智能电动汽车制造商的销量在过去一年中有所增长。该公司的新车型吸引了中国市场成千上万的消费者放弃特斯拉的Model 3和Model Y,展现出在全球最大汽车市场挑战传统车企的巨大潜力。 航拍:山东烟台港蓬莱港区,大批比亚迪电动车等待发运出口。视觉中国报道称,数据分析公司Global Data的数据显示,比亚迪去年以427万辆的销量位居全球第五,吉利以334万辆的销量位居全球第十。两家公司的大部分汽车都在国内市场销售。比亚迪预计今年出口占总销量的比例将从去年的10%上升至20%左右耳朵。 Li Yunfei, general director of BYD’s brand and public relations office, said in September that the company expects deliveries outside mainland China to reach between 800,000 and 1 million units this year, with total sales of 4.6 million units.分析师表示,以比亚迪为首的中国汽车制造商将受益于政府的支持和消费者对创新技术的接受。他指出,在这一雄心的支持下,该公司处于电动汽车技术和生产的前沿。 According to data from the Information AssociationAccording to the China Passenger Car Market (CPCA), China accounts for more than 30% of global automobile production, and three in five electric cars sold worldwide are purchased by mainland Chinese buyers. 《南华早报》强调,中国在全球电动汽车供应链中占据主导地位。全球电动汽车使用的电池70%以上由中国企业生产。 CATL和比亚迪位列前两名年产量方面。中国汽车工业协会数据显示,2025年前10个月,中国汽车出口,包括乘用车和商用车(如卡车、客车)达562万辆,同比增长15.7%。关明宇指出,未来几年中国汽车出口增速可能会放缓,但会继续增长。我们会继续增长。 《南华早报》援引独立分析师的话说,中国汽车企业需要提高海外销售比例,以支撑盈利能力并影响全球汽车行业。对于一些中国汽车集团来说,未来五年对于让消费者和投资者相信其盈利能力至关重要。此外,摩根大通亚太区汽车研究主管尼克·赖表示,今年中国汽车产量(包括公共汽车、卡车和轿车)可能达到3300万辆,但预计产品产量将达3300万辆。离子容量约为5000万个单位。随着海外市场价格更加优惠,中国电动汽车制造商在海外市场的利润率可能达到每辆车2万元,是国内市场的四倍。观察者网inf报道,中国乘用车市场信息联合会秘书长崔东秀近日发表文章预测,“十五五”期间整个汽车行业年销量将达到4000万辆。同时我们也相信这个行业有很大的潜力达到这样的规模。到“十五五”结束时的2030年,与“十四五”结束时的2025年相比,崔东柱表示,国内严格意义上的乘用车零售量将增长1.8%,制造商批发量将增长3%,进口将减少18%,出口将增长10%。我是这么预测的。国内汽车总销量将增长2%,出口总额增长9%,汽车销售总量增速将达到3%,明显低于“十四五”期间。崔东树表示,2025年零售额强劲的国外市场将是东南亚、非洲和欧盟,而美国、中南美洲等地区将疲软。他表示,中国汽车在海外市场的份额差异较大,非洲为20%,大洋洲为15%,东南亚、中东和拉美为10%,但在美国、日本、韩国等市场还没有存在。因此,中国汽车在世界南方国家市场的发展空间非常广阔。本文为观察者网独家稿件,未经许可不得转载。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“Ne”用户上传发布tEase账户”。本平台仅为nte提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 每日更新 | 留下评论

上海人工智能研究院实现3D重建和空间推理AI助手

这项开创性的研究由上海人工智能研究院与加州大学洛杉矶分校、上海交通大学、复旦大学、浙江大学、中国科学技术大学、香港大学和香港中文大学合作完成,并于 2025 年 11 月发表,文章编号为 arXiv:2511.21688v1。研究团队开发了一种名为G?VLM的创新人工智能系统。这是世界上第一个能够同时执行3D空间重建和高级空间推理的统一视觉语言模型。有兴趣了解更多信息的读者可以通过文章编号查看完整的研究报告。当谈到人类视觉系统的奇迹时,我们的大脑实际上是通过两组完全不同但密切协调的视觉通道来运作的。第一组称为 vito ventral,负责识别“这是什么?”当你看到一只猫时,系统会告诉你“这是一只猫”。这第二组称为背侧通路,处理“哪里”的问题。显示猫离您有多远以及它在房间中的位置。这就像我们的大脑里住着两位专家。一个是“物体识别专家”,另一个是“空间定位专家”。它们共同努力使我们能够充分理解和驾驭这个三维世界。然而,目前的AI视觉系统似乎有一个不完整的大脑,只有“识别专家”,却缺少“定位专家”。它们可以识别图像中的不同物体,甚至可以与人类进行对话,但在空间理解方面它们却表现得很愚蠢。他们无法准确判断物体之间的距离关系,无法理解空间排列的复杂性,更不用说进行空间推理。这就像一个人可以认出所有的家具,但不知道哪张沙发或咖啡桌最近,也不知道如何从客厅到厨房。的r研究团队发现,这个问题的根本原因是现有AI系统的学习方式过于“扁平化”。他们就像永远生活在二维世界中的生物。他们只能从大量的平面照片和文字描述中学习,却从未真正体验过三维空间的深度和立体性。正如从未离开过平坦领域的居民无法理解立体几何一样。当然,这些人工智能系统无法获得真正的空间智能。基于这一想法,研究团队决定创建一个创新的人工智能系统G?VLM,它模仿人脑的双向视觉系统。hand,既是“几何感知专家”又是“语义感知专家”。这就像给人工智能配备了真正的眼睛,让它不仅能够理解世界,还能感知空间。 1. 两位专家合作的令人惊叹的建筑。 G?VLM的核心设计灵感来自于视觉处理人脑的机制。研究团队巧妙地构建了两位专家的协作体系。该系统就像一个高效的建筑工作室,有两名专业人员密切合作,各司其职。几何识别专家就像精密测量员,他们的工作是从二维照片中“看到”三维世界的几何形状。如果你给它一张照片,它会准确地告诉你现实世界照片中每个像素的三维坐标,就像用 X 射线视觉透过飞机看一样。三维。更神奇的是,它还能计算出拍照时相机的准确位置和角度,仿佛可以时光倒流,回到拍摄地点。语义识别专家类似于专家翻译,负责理解图像内容并与人类保持自然对话。您可以识别图像中的物体,理解场景的含义e,并回答有关图像内容的各种问题。然而,与传统的视觉语言模型不同,这位专家并不是单独工作,而是始终与几何专家保持密切的信息交流。两位专家以特别聪明的方式进行合作。他们通过一种名为“共享自我照顾”的机制进行交流,可以随时互相询问问题并共享信息,就像两个人在同一件事上工作一样。sma 办公室。几何专家发现的空间结构信息被实时传输给语义专家,使后者能够更准确地理解空间关系并做出推理。同样,语义专家对场景内容的理解反馈给几何专家,使三维重建更加准确。简单的不同模块与以往结合G?VLM双专家的系统相比,真正实现了集成。它们保持着有机的相互作用在整个处理过程中进行协作,而不是独立操作并简单地汇集结果。每个动作都很协调,就像一对舞伴配合得很好。这种设计的另一个很大的优点是它的可扩展性。该系统不需要昂贵的3D标注数据,可以直接从大量常规照片和视频中学习知识3D几何实体,从而利用互联网上大量的多视角图像和视频资源进行训练。这就像让AI在三维虚拟世界中自由探索和学习,逐渐掌握空间感知的奥秘。 2. 循序渐进的学习策略 G?VLM 的训练过程就像是通过精心设计的两步学习策略来训练孩子逐渐掌握一项复杂的技能。这种方法使系统能够稳定地构建一个完整的能力系统,从基本的几何意识到高级的空间领域奥宁。第一阶段就像孩子第一次学习走路一样。研究人员首先要求几何识别专家关注最基本、最重要的技能:从二维图像中识别三维几何结构。在这个阶段,语义识别专家暂时“休息”,不改变训练前的状态,类似于获得语言技能的助手在场边平静等待。几何专家在这个阶段接受“魔鬼训练”。研究团队组织了一个包含大量3D场景数据的训练场,涵盖从室内房间到室外城市景观等多种环境。这些数据就像一本立体几何教科书。每一页都包含空间中每个点的确切位置、相机拍摄角度、表面法向量等详细信息。几何专家需要学习三项基本技能。首先是点云的重建。就像一个s雕刻师需要为了能够从一块石头上看到最终的形状,平面图像必须能够准确预测三维空间中每个像素的位置。第二个是相机姿态估计。这相当于能够猜测出摄影师当时站在哪里,看向哪个方向,以什么角度拍摄。 。最后,还有表面法线的估计。这涉及精确确定物体表面的方向,例如能够检测每个表面是朝上、朝下还是其他方向。为了保证学习效果,研究团队设计了综合损失函数,利用多种评价标准综合评价学生的掌握程度。这种能力要求几何专家不仅能够精确地重建3D点云,而且能够在相机位姿的测量、成像和表面法线的预测方面实现高精度。钍经过如此严格的训练,几何专家逐渐获得了敏锐的空间意识。第二阶段就像教一个已经会走路的孩子跑和跳。在这个阶段,研究团队解冻了语义识别专家,让两位专家开始了真正的合作。目前的训练目标是学习使用几何信息进行高级空间推理和交互,而不是简单的几何重建。在协作训练中,系统面临更困难的挑战,例如空间推理问题,例如“你坐在墙上一幅画下的椅子上,书架相对于你在哪里?”为了回答这些问题,系统不仅必须识别图像中的物体,还要准确理解它们的空间关系,并能够从不同的角度进行推理。研究小组发现了一个有趣的现象。提高几何专家的性能意味着整体系统在空间推理任务上表现更好。这表明几何意识和语义理解之间实际上存在着深刻的、相辅相成的关系。一个人的空间感越好,就越能准确地描述和理解复杂的空间场景。 3. 令人难以置信的空间智能性能 G?VLM在各种测试中的能力令人印象深刻。它不仅在传统3D重建任务中达到业界领先水平,而且在复杂的空间推理任务中展现出前所未有的智能。在3D重建能力测试中,G·VLM作为专家架构师,我们能够准确地恢复3D场景的完整结构。在著名的Sintel数据集上的单目深度估计测试中,系统将之前最佳模型的误差从0.335降低到0.297。这相当于测量精度提高了 10% 以上。虽然这种改进在数字上可能看起来并不显着,但我这在实际应用中非常重要。正如 GPS 定位精度的微小改进可以显着改善您的浏览体验一样。 G?VLM 在更复杂的任务上也表现良好,例如点云重建和相机姿态估计。准确预测图像中每个像素的 3D 坐标,并以与专业 3D 重建软件相同的精度计算拍摄时的相机位置和角度。更重要的是,G?VLM只需要常规的2D图像即可实现这些功能,不需要额外的3D传感器或设备。然而,G?VLM 最令人印象深刻的是它在空间推理任务上的表现。在权威空间推理基准测试SPAR-Bench上,G?VLM-SR(专门优化的空间推理版本)取得了54分的成绩,87分的成绩比之前表现最好的GPT-4o模型高出18.5个百分点。差异非常显着,就好像一名学生在测试中获得了 90 分,而另一名学生仅获得了 70 分。更令人惊讶的是,G?VLM 可以执行复杂的多步骤推理。例如,如果你面临这样的问题:“当我在冰箱前面时,如何到达桌子上的电脑显示器?”,系统不仅可以识别场景中的不同物体,还可以准确理解它们的空间关系,并给出详细的导航指令,例如“转身直接到白色打印机,然后右转,经过盒子,到达黑色显示器。”在一次特别有趣的任务演示中,G?VLM 展示了卓越的空间记忆和推理能力。该系统找到了在复杂的室内环境中存放泰迪熊的完美礼品盒。不仅要能够记住不同房间的礼盒尺寸,还要能够比较、权衡,最终找到最佳的尺寸。整个过程是相似的ar 与人类在实际存储物品时的思维过程相似,反映了接近人类的空间智能水平。该系统还具有出色的视角转换功能。如果你问某人“当我坐在墙上一幅画下的椅子上时,书架相对于你在哪里?”,G?VLM 会准确地转换视角,从提问者的虚拟位置理解空间关系并准确回答,例如“书架在我的右边”。 4、创新点详细分析 G?VLM的创新点不仅体现在架构设计上,还体现在一系列重要技术问题的解决上。这些进步为整个人工智能领域的发展开辟了新的可能性。在选择视觉编码器时,研究团队做出了一个看似简单却非常重要的决定,为两位专家配备不同的“眼睛”。几何识别专家使用 DINOv2 编码器,这是一种系统干专门捕捉低级视觉特征,作为检测图像中微妙几何线索的精密仪器。语义识别专家,以及能够深入理解图像含义的专家学者,使用Qwen2视觉编码器来更好地理解图像的语义内容。这种双编码器设计最初遭到了一些怀疑,因为传统观点认为使用集成编码器会更容易、更高效。然而实验结果表明,这个设计是巧妙的。双编码器系统在几何重建和空间推理任务中都显着优于单编码器方案,这表明不同类型的视觉任务需要不同的视觉表示方法。研究团队还对护理机制的设计进行了广泛的研究。传统的 3D 重建模型通常会在帧之间交替关注。也就是说,有时我们会关注局部特征有时是单个图像的对应关系,有时是多个图像之间的对应关系。然而,或者说,这种切换机制是由现代语言模型架构支持的。这就像尝试在两台不同机器之间共享控制系统一样困难。经过大量实验,团队发现全局注意力机制效果最好。这种机制允许系统同时考虑所有输入图像的所有位置,就像指挥家可能会听到整个交响乐团同时演奏一样。尽管该方法计算量较大,但可以更好地捕获复杂的空间对应关系,为精确的三维重建奠定基础。研究团队的巧妙之处还体现在损失函数的设计上。我们不是简单地使用单一的评估标准,而是设计了一个多目标优化函数,同时考虑点云的重建精度。相机位姿估计的 y 以及表面法线预测的质量。这就像使用几种不同的规则来同时衡量产品的质量,并确保系统在各个维度上都符合高标准。尤其值得注意的是,研究团队还解决了影响大规模几何学习的训练稳定性的重要问题。他们发现训练过程中经常出现数值爆炸的情况,导致训练失败。经过仔细分析,团队发现这主要是由于 3D 注释数据中的噪声造成的。这就是为什么他们设计了智能损失截断机制。如果损失值超过阈值,则会进行平滑处理。这就像在强化学习过程中设置一个安全阀,以确保训练过程的稳定性。 5.广泛的应用可能性 G?VLM的创新特性为许多实际应用场景开辟了新的可能性。这些是应用程序将彻底改变我们与数字世界互动的方式。在机器人导航领域,G?VLM的空间理解能力可以让家庭机器人真正实用起来。传统机器人在开始工作之前通常需要创建其环境的详细地图。这就像路痴一样,出发前必须记住地图。配备G?VLM的机器人就像与生俱来的方向感。只需通过观察即可了解复杂的室内环境,准确判断物体之间的空间关系,提供复杂的导航指令。可以理解和实施。当谈到增强现实(AR)应用时,cG?VLM的3D重建能力可以让AR体验更加自然和准确。虽然当前的 AR 系统通常需要特殊标记或长期环境扫描来建立空间锚点,但 G?VLM 可以立即了解场景的三维结构,从而允许虚拟现实将物体精确地放置在现实世界中的正确位置。它就像虚拟世界和现实世界之间的完美桥梁。在建筑和室内设计领域,G?VLM可以成为设计师的得力助手。设计师只需对现有空间拍几张照片,系统就会自动生成精确的3D模型,以了解空间的功能布局和使用需求。此外,还可以通过与设计师的对话来支持空间规划,例如“我应该如何组织这个客厅,以便空间”G?VLM在电子商务和零售领域也具有广泛的应用潜力。消费者可以通过简单的语言描述和一些照片让系统了解他们的空间需求并获得个性化的产品推荐。例如,“我的卧室比较小,所以我需要一件可以用作书桌和梳妆台的家具。”我们会准确了解您的空间限制和功能需求,并为您提供最佳建议。在教育领域,G?VLM 可以彻底改变几何和空间概念的教学方式。传统的几何教育通常依赖于抽象的公式和图表,而 G?VLM 允许学生通过与现实生活场景的交互来理解空间概念。学生可以拍摄教室的照片,通过与系统的对话探索地理关系、度量和空间概念,使抽象知识具体化、生动化。在娱乐创作领域,G?VLM成为内容创作者的有力工具。电影制作者可以使用该系统快速生成场景的 3D 模型,用于镜头规划和特效设计。游戏开发人员可以从简单的照片快速构建游戏场景的几何基础。一般用户也可以利用该技术来完成创建具有空间感的交互内容。研究小组还指出,G?VLM 的非统一的架构将成为未来3D场景编辑功能的基础。未来,用户将可以使用自然语言指令直接修改3D场景,例如“将这个房间的墙壁颜色改为蓝色”或“为客厅添加沙发”。系统不仅能理解指令,还能准确地在三维空间中进行操作。 6.面临的挑战和未来展望 尽管G?VLM取得了令人瞩目的成果,但研究团队也坦诚地指出了当前的挑战和未来发展的方向。这些挑战不仅仅是技术问题,更是未来发展的方向。 AI空间智能整体发展过程中需要克服的里程碑,训练稳定性是我们目前面临的主要技术挑战之一,因为G?VLM需要同时学习两种复杂的技能:几何感知和语义理解,训练过程就像教一个人一样困难。同时学习高等数学和文学创作。特别是随着模型规模的增加,cap process.Citation变得更加不稳定,需要更仔细的调整和更多的计算资源。研究团队正在探索更先进的优化技术和训练策略来解决这个问题。计算资源需求也是一个真正的挑战。训练G?VLM需要大量的GPU资源和时间。 Geometry Recognition Expert 的预训练阶段需要 32 至 64 个 A800 GPU 运行数天或数周。目前,只有大型研究机构和科技公司才有能力满足这些计算需求,限制了该技术的采用和应用。该团队正在研究使用模型压缩和知识蒸馏等技术来降低计算阈值的方法。数据质量和注释成本也是持续的挑战。虽然G?VLM可以从普通的多-查看图像,高质量的 3D 几何注释数据仍然稀有且昂贵。现有的 3D 数据集经常受到标签噪声和有限覆盖范围的影响,使得对复杂的现实世界场景进行建模变得困难。文件性能。研究团队正在探索自监督学习和弱监督学习方法,以减少对高质量注释数据的依赖。增加模型规模是团队特别关注的一个发展方向。目前的G?VLM基于基本的2B参数模型,但与往往拥有数十亿参数的大型语言模型相比,它仍然相对较小。研究表明,较大的模型在一些复杂的空间推理任务上表现更好。该团队将开发一个更大的版本,用于探索太空智能的上限,他们计划发射该版本。提高泛化能力也是一个重要的研究方向。尽管G?VLM在测试数据集上表现良好,但性能仍然下降当面对完全看不见的场景类型时。模型需要更加稳健,尤其是在处理极端光照条件、复杂动态场景或文化起源截然不同的环境时。扩展联运功能也是一个有趣的方向。目前,G?VLM 主要处理视觉和语言信息,但真正的空间智能还应包括其他感官信息,例如触觉和听觉。例如,通过声音定位自己,通过触摸检测材料和形状等。研究团队正在寻找将这些功能集成到统一框架中的方法。实时优化是实际应用的关键要求。虽然目前G?VLM的推理速度尚可,但在需要实时反馈的应用场景,如机器人控制、AR交互等,仍有提升空间。该团队正在研究模型加速技术硬件优化解决方案可显着提高推理速度,同时保持准确性。最终,G?VLM 代表了人工智能迈向真正空间智能的重要一步。这不仅解决了长期困扰视觉语言模型的空间理解问题,更重要的是,为构建能够真正理解和操纵三维世界的人工智能系统奠定了坚实的基础。尽管我们距离完整的空间智能还很遥远,但这项研究为未来提供了明确的方向。正如人类婴儿需要不断探索和学习才能获得空间认知技能一样,人工智能空间智能的发展也是一个渐进的过程。 G?VLM的成功表明,通过模仿人脑的视觉处理机制,AI可以实现接近人类的空间理解能力。这不仅是技术进步,也加深了我们对自然的理解。智力的确定性。随着这项技术的进步和普及,我们有理由展望人工智能能够真正理解和参与三维世界的未来。届时,AI助手将不再是单纯“看图说话”的被动工具,而将成为能够真正理解空间、进行空间推理、甚至帮助改造环境的智能伙伴。这样的未来可能比我们想象的更近。 G?VLM 是通向这个未来的重要桥梁。 Q AQ1:什么是G?VLM? A:G?VLM是上海人工智能研究院与多所高校联合研发的创新人工智能系统。它是世界上第一个能够同时进行3D空间重建和高级空间推理的统一视觉语言模型。该系统模仿人脑的双视觉通路,拥有两位几何和语义感知专家。它不仅可以从 2D 照片重建 3D 场景,还可以进行合成lex 空间交互和推理。 Q2:G?VLM和现有的AI视觉系统有什么区别? A:传统的AI视觉系统就像一个不完整的大脑,里面只有“识别专家”,缺少“定位专家”。它只能识别物体,而不能识别空间关系。 G?VLM fIt由两位专家联合设计,让我们不仅能够识别“这是什么”,还能准确捕捉“它在哪里”、“它有多远”等空间信息。它允许真正的三维空间推理,类似于完整的人类视觉系统。 Q3:G?VLM 在实际应用中如何工作?答:G?VLM 在多项测试中表现出了良好的表现,在 3D 重建精度上优于专业模型,在空间推理测试中优于 GPT-4o 18.5 分。它能够进行复杂的多步推理,例如精确规划室内导航路线、执行透视变换以确定空间关系,并记住和比较不同房间中物体的尺寸特征,展示了接近人类的空间智能水平。
特别提示:以上内容(包括图片、视频,如有)时代)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

发表在 吃瓜热门 | 留下评论