UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成

声明:文来自微信公众号“量子位”,作者:UniToken团队,,授权站长之家转载发布。首次在统一框架内实现理解与生成的“双优表现”,打破了多模态统一建模的僵局!复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”

医疗AI新星每因智能获千万融资,致力于精准疾病风险预测

近日,杭州的医疗 AI 公司每因智能科技有限公司宣布完成千万元级种子轮融资,资金将主要用于其核心产品的研发及商业化落地。此次融资由卓源亚洲等机构领投,西湖政府直投基金也进行了跟投。每因智能专注于运用人工智能技术来预测疾病风险,推动健康管理。其核心产品是基于自研的 DP-LLM 大模型,能够支持多模态医疗数据的处理,精准量化个体未来的疾病风险,涵盖数百种疾病及上万个风险因子。创始人兼 CEO 郭潇宇

AI进化论——音乐、绘画和舞蹈的DeepSeek时刻

声明:本文来自于微信公众号 AI微果酱,作者:黄永轩,授权站长之家转载发布。“昔者仓颉作书,而天雨粟,鬼夜哭”——人类掌握文字后,天地为之动容,因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》,距离人类掌握文字已经过去了千年。也许,下一个千年,后人记载2025年大语言模型的涌现时,也会做出类似的描述。当机器掌握文字后,人类文明必然发生嬗变,只是身在局中的我们,感知不到这种天地动容的震撼

韵达股份新动作:成立“韵耀科技”公司,发力机器人与AI硬件领域

近日,深圳市韵耀科技有限公司正式成立,标志着作为物流巨头的韵达股份正积极拓展其业务版图至智能化领域。工商信息显示,深圳市韵耀科技有限公司的法定代表人为徐建根,注册资本为100万元人民币。该公司的经营范围广泛,重点聚焦于机器人与人工智能相关产业,具体包括服务消费机器人制造、工业机器人安装与维修、智能机器人销售、工业机器人销售、人工智能硬件销售以及人工智能公共数据平台等。通过股权穿透图可知,深圳市韵耀

DeepSeek引爆 AI原生App活跃用户数一个月几乎翻倍

快科技4月16日消息,QuestMobile数据表明,截至2025年2月,AI原生App的活跃用户数量达到了2.4亿。这主要得益于年初AI领域迎来标志性事件,DeepSeek-R1模型迅速引爆全球。短短一个月内,国内原生App行业规模几近翻倍。DeepSeek-R1模型不仅为整个行业带来了成倍的增长,还打破了去年长期稳定的市场格局。根据QuestMobile的数据,2025年3月,DeepSe

南京大学与阿里云联合启动人工智能人才培养合作计划,共同培养 AI 创新人才

IT之家 3 月 31 日消息,IT之家从阿里云官方微信公众号获悉,近日,南京大学与阿里云宣布启动人工智能人才培养合作计划,共同培养适应未来技术变革、具备跨学科思维的 AI 创新人才。基于阿里云在云计算和 AI 大模型领域的技术优势和南京大学在人工智能领域的学科优势,双方将共同设计兼具前瞻性和应用性的人工智能通识课程,研发跨学科融合的大模型应用实践课程,加速南京大学“1+X+Y”三层次“人工智能

互联网平台现状:鼓励AI,限制AI

声明:本文来自于微信公众号新莓daybreak,作者:何聆筝,授权站长之家转载发布。一场针对AIGC作品的限制,正规模化地席卷各个平台。一些AIGC创作者在小红书拉起群组,分享自己被限制的经历。有人发布12星座内容被判定「传播封建迷信」,有人因为生成AI明星而遇到「侵权」提示。「虚构事件」和「假冒真人」是最常被引用的处罚理由。同样的情况也发生在视频号和抖音,大量AIGC作品遭遇下架和封禁。作品

挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

声明:本文来自于微信公众号 AI新榜,作者:王萌,授权站长之家转载发布。AI的“神仙打架”从未停歇,尤其在文生图这个烧钱又内卷的赛道。但当所有人的目光都聚集在OpenAI、Google、Midjourney等“头号玩家”时,一个相对低调的中国团队,却悄然登上了多个AI模型能力榜单前列,引起AI圈热议,它就是HiDream。4月21日排名海外论坛Reddit网友对HiDream的评价而且HiDr

华晨宝马与字节跳动火山引擎合作,推动AI赋能汽车营销

近日,华晨宝马领悦数字信息技术有限公司(“领悦”)与字节跳动旗下火山引擎达成合作,双方将在人工智能(AI)技术的帮助下创新汽车营销服务。此次合作通过AI技术实现精准的产品匹配与购车建议,优化内容引导,提升用户购车体验及经销商运营效率。宝马集团大中华区总裁高翔表示,AI是宝马打造更智能、贴心出行解决方案的关键,正在加速融入研发、生产、供应链、产品、服务及运营各个环节。“此次合作将推动营销模式的创新,

GPT-4o图像生成能力跻身顶尖行列:多领域表现亮眼,挑战AI创意极限

近日,人工智能领域再次掀起热议,OpenAI旗下的GPT-4o图像生成模型凭借卓越性能,在行业权威评测中脱颖而出。据最新社交媒体讨论透露,GPT-4o在图像生成质量的ELO评分中与新兴模型Reve并列第一,超越了Recraft V3、FLUX1.1[pro]以及Google的Gemini2.0Flash等强劲对手。这一成绩不仅巩固了OpenAI在生成式AI领域的领先地位,也引发了业界对该模型应用潜

全球第一个会原创的AI来了!马斯克:Grok 3.5将提供互联网上根本不存在的答案

快科技4月30日消息,马斯克把他的第一性原理,也带到了AI大模型上。随着Grok 3的使用和下载量飙升10倍,马斯克宣布,下周,Grok 3.5的早期测试版本将面向SuperGrok订阅者发布。他还透露,这将是第一个可以准确回答有关火箭发动机或电化学技术问题的AI。Grok从第一性原理进行推理,并提出互联网上根本不存在的答案。”马斯克说。换而言之,如果Grok 3.5真的像马斯克所说,那么它将

谷歌突发大招刷爆AI编程榜,网友:不用买Cursor了

声明:本文来自微信公众号“量子位”,作者:白交,授权站长之家转载发布。因为大家太过热情, Gemini2.5提前重磅更新——史上最强编码模型Gemini2.5Pro Preview的I/O版。只需一张手绘的草图,就可以构建一个「绘图变音频」的网页版应用。其他游戏、对象模拟等等也都可以通过一句提示完全搞定。它在所有LMArena排行榜上均超越Claude位列第一,包括所有文本领域、视觉以及Web

Llama 4大模型跌落神坛:作弊刷榜、代码能力极差、和DeepSeek比就是伪开源

4月8日消息,被寄予厚望的美国Meta公司的最新开源大模型Llama 4发布不到2天时间,口碑急转直下,被质疑为刷榜作弊实际效果差、开源条件多部署门槛高是伪开源等。今天,大模型评测平台LM Arena亲自下场发文,打脸Meta提供给平台的Llama 4是“特供版”。据知情人士爆料称,Meta因面临DeepSeek、Gemini等竞品的快速迭代压力,选择“仓促发布未完成优化的模型”,牺牲技术严谨

从BP到复盘全程接管,虎牙AI智能体“虎小Ai”亮相电竞直播

虎牙全新AI智能体“虎小Ai”上线,首次亮相即登陆虎牙最高等级的《英雄联盟》自制赛事“传奇杯”S3,进行全程实时AI解说,标志着直播行业首次将AIGC(生成式人工智能)技术深度融入电竞赛事直播流。据介绍,“虎小Ai”不仅参与了比赛的实时解说,还覆盖了赛前选人、教练BP(Ban/Pick)分析、战术拆解、赛中解读以及赛后复盘等多个环节,全面实现了赛事直播全链路的AI赋能。与传统解说相比,“虎小Ai”

瑞士研究人员称AI能够识别出可能存在生命行星的隐藏位置

浩瀚宇宙,繁星亿万,寻找另一颗蓝色星球的梦想,如同大海捞针。但现在,来自瑞士的一支科研团队,为这场史诗级的探索注入了强大的新动能。他们精心打造了一款人工智能模型,如同一位目光锐利的星际侦探,能够穿透星尘,洞察那些可能隐藏着宜居世界的未知角落。这不仅仅是一项技术突破,更像是一张指向未来的藏宝图。在一篇发表于《天文学与天体物理学》杂志的最新研究中,科学家们详细描绘了这位 AI 侦探的非凡能力。通过深度

智谱发布Agent产品AutoGLM沉思:首个实现"边想边干"的智能体

今日,智谱AI在2025中关村论坛上发布了其最新Agent产品——AutoGLM沉思。这是业内首个集深度研究能力和操作能力于一体的Agent产品,其最大特点是能够"边想边干"。AutoGLM沉思突破了传统AI模型的局限,能够同时进行复杂思考与执行操作。它可以像人类一样打开并浏览网页,完成从数据检索、分析到生成报告的全流程任务,实现了思考与行动的紧密结合。智谱表示,AutoGLM沉思背后的技术支撑是

得州大学奥斯汀分校开发新型 AI 智能体 Metamon:能像人一样玩宝可梦

IT之家 4 月 10 日消息,据外媒 ASCII 今日报道,美国得克萨斯大学奥斯汀分校的 Yuke Zhu 助理教授及其团队于 4 月 10 日发布了一款能够像人类一样进行宝可梦对战的 AI 智能体“Metamon”。IT之家附项目地址:点此前往我们暂时从机器人技术中抽身,构建了一个能够像人类一样进行竞技宝可梦对战的 AI 智能体。部分可观测。随机性。长期规划。现在通过离线强化学习 + Tra

OpenAI高管计划收购谷歌Chrome:对ChatGPT搜索至关重要

快科技4月23日消息,据报道,OpenAI高管Nick Turley在华盛顿举行的谷歌反垄断庭审中爆出重磅消息:若法院裁定谷歌必须出售Chrome浏览器以恢复搜索市场竞争,OpenAI将有意收购谷歌Chrome浏览器。这场备受瞩目的庭审始于2024年法官裁定谷歌在在线搜索及相关广告市场具有垄断地位。虽然谷歌计划上诉,但庭审已揭开生成式AI领域激烈竞争的冰山一角。检方担忧谷歌的搜索垄断可能延伸至

全球首个自回归视频生成大模型 MAGI-1 重磅发布,Swin Transformer 团队引领视频创作新潮流

在视频生成领域,最近涌现出了一位强劲的新选手 ——MAGI-1。这款由马尔奖和清华特奖得主曹越领导的创业公司 Sand AI 推出的自回归视频生成大模型,正在重新定义视频创作的可能性。MAGI-1通过预测视频块的序列来生成视频,以其自然流畅的效果和多个可下载版本引发广泛关注。MAGI-1在生成视频时具有诸多优越性能。首先,它提供了无缝流畅的视频体验,能够生成连续的长视频场景,没有尴尬的剪辑或突兀的

ElevenLabs推出MCP服务器:AI语音能力无缝整合到智能助手

ElevenLabs最新推出的MCP(Multi-modal Communication Protocol)服务器为AI生态系统带来重大升级。这项服务允许用户通过简单的文本提示,让AI助手(如Claude、Cursor、Windsurf等)直接访问ElevenLabs的完整AI音频平台能力。MCP服务器本质上充当了一座桥梁,将ElevenLabs先进的文字转语音、语音克隆等技术连接到用户日常使用的