芝浦工大创新Vote-based框架,大幅提升手持物体姿态估计精度

在增强现实(AR)等应用中,手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期,日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架,显著提高了这一领域的准确性,令人瞩目地提升了13.9% 的姿态估计精度。这一新方法的核心在于有效整合来自 RGB(颜色)和深度图像的数据,特别是在手遮挡物体的情况下。研究团队指出,现有的姿态估计技术往往在手部遮挡时遇到精度下降的难题,而手与

DeepSeek 首次用于地震国际救援,7 小时攻克缅甸救灾语言关

IT之家 4 月 2 日消息,近日缅甸发生 7.9 级地震,灾情牵动人心。在救援行动中,一项由中国团队开发的中缅英互译系统发挥了重要作用,为救援工作的顺利开展提供了有力支持。据央视新闻报道,地震发生后,中国驻缅甸使馆称,在救援工作中使用了基于 DeepSeek 紧急开发的中缅英互译系统。该系统由国家应急语言服务团秘书处和北京语言大学迅速组建的语言服务支持团队,在短短七小时内利用 DeepSeek

OpenAI继续商业化狂飙:要靠Agent 5年赚1750亿美元

声明:本文来自微信公众号“硅星人Pro”,作者:李京亚,,授权站长之家转载发布。 5 年,靠Agent赚 1750 亿2025 年被称为agent元年,而OpenAI希望在这一年把agent做成自己的摇钱树。今年以来,OpenAI发布了两款基于ChatGPT的AI Agent,一是可以代替用户操作浏览器,自主执行任务的Operator;二是可以辅助做深入研究,生成专业研究报告的Deep Res

​芯驰发布新一代4纳米 AI 座舱芯片 X10,提升智能驾驶体验

在2025上海车展上,芯驰科技正式推出了最新研发的 AI 座舱芯片 ——X10。这款芯片采用了先进的4纳米制程工艺,具备强大的计算能力,能够支持7B 参数的多模态大模型在端侧的本地部署。这标志着芯驰科技在智能座舱芯片领域的一次重大突破,预计将大幅提升智能驾驶体验。从技术规格来看,X10芯片配备了200K DMIPS 算力的 Arm v9.2架构 CPU,搭载1.8TFLOPS 算力的 GPU 以及

F-Lite登陆Hugging Face,10亿参数扩散变换器革新文本到图像生成

Hugging Face平台正式上线F-Lite,一款拥有10亿参数的文本到图像扩散变换器(Diffusion Transformer)。据AIbase了解,F-Lite以其高效的生成能力和轻量化设计,迅速成为AI图像生成领域的焦点,社交平台上的讨论凸显其对开发者与创作者的吸引力。相关细节已通过Hugging Face官网(huggingface.co)与社区公开。核心功能:高效生成与轻量化架构F

大厂混战AI笔记:快手“喵记多”能否复制Notion增长神话?

快手近日推出了一款名为“喵记多”的全新App,正式进军AI辅助的笔记工具市场。该产品由快手旗下的轻雀科技开发,核心亮点在于集成了一个名为“喵仔”的智能助手,用户可以通过聊天交互的方式完成笔记管理和待办提醒。据悉,“喵记多”的主要功能包括笔记剪藏、内容整理和记忆搜索。用户可以将零散的文字、图片、文件等发送给喵仔,并通过长按消息选择“喵记一下”将其转化为笔记,方便后续编辑和管理。直接向喵仔发送“记笔记

ChatGPT受限?这 8 款免费AI工具,也可以生成“吉卜力风格”图片

站长之家(ChinaZ.com) 4月2日 消息:自从 OpenAI 将其先进的图像生成器集成到 GPT-4o 中后,SNS、网络社区等平台上掀起了一股“吉卜力风格头像”风潮。但随着版权争议的加剧,OpenAI 给这项“吉卜力风格化”的图像转化功能加了一点点的限制。不过没关系,还有不少免费的“平替工具”可以实现类似的效果。比如下面这些:1、Deep Dream Generator提供了一种简单

​Netflix 推出全新 AI 搜索引擎,由OpenAI提供支持

Netflix 最近向部分订阅用户推出了一项全新的 AI 搜索引擎工具,这一消息来自于《彭博社》的报道。这项由 OpenAI 支持的 AI 搜索引擎,突破了传统的搜索方式,用户再仅仅通过电影、电视剧的标题、类型或演员来查找内容。现在,用户还可以通过多种其他搜索查询,如心情等,来寻找适合自己的影视作品。由于这一工具是由 OpenAI 提供技术支持,用户可以预计将使用自然语言进行搜索,提升了搜索的灵活

宇树王兴兴:2025 年底,相对比较通用的人形机器人 AI 模型真的有可能诞生

IT之家 5 月 2 日消息,据央视新闻报道,由中央广播电视总台、杭州市人民政府主办,总台央视频、杭州城西科创大走廊、杭州市余杭区人民政府、杭州市商务局(全球数字贸易博览会执委会办公室)、总台浙江总站、国家(杭州)短视频基地承办的大型纪实创投节目《赢在 AI+》将于今日 21:50 档在央视财经频道(CCTV-2)及央视频新媒体矩阵开播。作为立足国家平台打造的首档以 AI 为核心的大型纪实创投节

警惕 AI 扩张!十年内或吞噬巨量电力,成本飙升至数千亿美元

近日,一项由乔治城大学、Epoch AI 和兰德公司研究人员进行的新研究警告称,如果当前趋势持续,用于训练和运行人工智能的数据中心将在未来十年内面临爆炸式增长,其芯片数量可能达到数百万个,耗资数千亿美元,并需要相当于大型城市电网的电力供应。该研究分析了2019年至今全球500多个 AI 数据中心项目的数据,揭示了惊人的增长轨迹。尽管数据中心的计算性能每年增长超过一倍,但其电力需求和资本支出也在同步

张亚勤院士预言:无人驾驶将迎来 “ChatGPT 时刻”

在最近举行的2025中国电动汽车百人会论坛上,中国工程院院士、清华大学智能产业研究院院长张亚勤提出了一个激动人心的预测:无人驾驶技术将在2025年迎来其发展的 “ChatGPT 时刻”。这一论断让业界对未来的自动驾驶充满期待。张亚勤表示,无人驾驶将成为未来五年内最大的具身智能应用,而这一技术将首次通过 “新图灵测试”。他进一步阐述,尽管2025年是无人驾驶的关键节点,但要实现这一技术的广泛应用和普

国家超算平台发布新一代多模态大模型,推动 AI 智能体发展

国家超算互联网平台最近正式上线了一款名为 “超长文本多模态大模型” 的新技术,旨在加速人工智能智能体的开发。这一模型是由上海稀宇科技有限公司研发的,主要包括两个版本:MiniMax-Text-01和 MiniMax-VL-01。这些大模型的推出不仅为技术界带来了新的可能性,也为各行各业的智能化转型提供了支持。随着人工智能技术的不断发展,企业和研究机构对大模型的需求日益增加。大模型因其强大的学习和理

百度文库、百度网盘联合发布GenFlow超能搭子、AI笔记

在 4 月 25 日举行的 Create2025 百度 AI 开发者大会上,百度文库与百度网盘联合推出了两款行业领先的 AI 工具 ——“GenFlow 超能搭子” 和 “AI 笔记”。这两款产品旨在提升用户的工作和学习效率,实现更智能的生产力。“GenFlow 超能搭子” 是一个针对工作流的全面升级工具。用户只需输入简单的指令,AI 就会通过深度思考,自动规划每一步的任务,调用各种模型和工具,最

日立中央空调已接入小米米家 App

感谢IT之家网友 Autumn_Dream、辣手摧花、backfrom、袁深沉 的线索投递!IT之家 5 月 7 日消息,日立中央空调已接入小米米家 App,用户可以更加便捷地管理和控制家中的中央空调系统,享受智能化带来的舒适生活体验。用户可以通过简单的步骤将日立中央空调绑定到米家 App。首先,在米家 App 中选择“添加设备”,然后通过扫描附近设备或手动添加设备的方式,将日立中央空调纳入智

OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称

IT之家 4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方与第三方基准测试结果存在显著差异,引发了外界对其公司透明度和模型测试实践的质疑。去年 12 月,OpenAI 首次发布 o3 模型时宣称,该模型能够在 FrontierMath 这一极具挑战性的数学问题集上正确回答超过四分之一的问题。这一成绩远远超过了竞争对手 —— 排名第二的模型仅能正确回答约 2% 的 Frontie

预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是,虽然第二个模型接受了更多

阿里通义千问 Qwen3 系列模型有望今日发布,支持 256K 上下文长度

感谢IT之家网友 兰花是我、四文鱼 的线索投递!IT之家 4 月 28 日消息,阿里通义千问开源负责人林俊旸在 X 上发文暗示,Qwen3 模型有望今日发布。值得一提的是,Qwen3 系列模型合集已在阿里巴巴旗下 AI 模型开源社区 ModelScope(魔搭)短暂亮相后又下线,包括 Qwen3-4B-Base、Qwen3-1.7B、Qwen3-0.6B 及 Qwen3-30B-A3B-Bas

谷歌推出 Vertex AI Media Studio 文生视频套件:自动化包办画面渲染、旁白、配乐等

IT之家 4 月 10 日消息,谷歌今天(4 月 10 日)推出 Vertex AI Media Studio 平台,该套件支持文本指令生成完整视频内容。该平台整合 Imagen 3 图像生成、Veo 2 视频制作、Chirp 语音合成及 Lyria 背景音乐四大核心模型,用户无需编码或剪辑经验,即可在统一界面完成全流程创作。谷歌近日宣布推出 Vertex AI Media Studio,这是一

全球首款!Ainos AI 鼻成功植入ugo人形机器人,机器拥有“嗅觉”

人工智能气味数字化领导者 Ainos.宣布,其专有的 AI Nose 嗅觉模块已成功安装到日本顶级服务机器人公司 ugo, Inc. 开发的人形机器人上。此次于2025年4月9日完成的安装,标志着全球首个具备功能性嗅觉的机器人诞生,为机器人技术、人工智能和人机交互开创了全新纪元。图源备注:图片由AI生成,图片授权服务商MidjourneyAinos 的 AI Nose 系统整合了高精度气体传感器阵

英伟达震撼发布Llama 3.1 Nemotron Ultra 253B:AI性能王者再定义行业新标杆

近日,全球芯片与AI技术巨头英伟达(NVIDIA)推出了一款全新开源大语言模型——Llama3.1Nemotron Ultra253B,引发了人工智能领域的强烈反响。这一模型基于Meta的Llama-3.1-405B打造,通过创新技术优化,不仅在性能上超越了Llama4Behemoth和Maverick等强劲对手,还以高效的资源利用率和卓越的多任务能力,为AI应用的广泛落地提供了新的可能。Llam