AI创新｜懂你的情感语音模型、会刷视频的视频理解模型、图像生成界六边形战士、软组织手术机器人……-深圳物联网展新闻-IOTE国际物联网展 -

文章正文

AI创新｜懂你的情感语音模型、会刷视频的视频理解模型、图像生成界六边形战士、软组织手术机器人……

发布时间：2024-11-08

看点概览：

一、清言上线情感语音模型，连AI都懂你

二、会刷视频的AI来了！视频理解模型上线

三、图像生成界也有自己的六边形战士

四、讯飞星火发布11项技术及应用，大模型规模化

五、又一软组织手术机器人获批上市

一、清言上线情感语音模型，连AI都懂你

（来源：智谱清言）

智谱的大模型家族加入了一位新成员——GLM-4-Voice 端到端情感语音模型。GLM-4-Voice 能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。

GLM-4-Voice 具备以下特点：

● 情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。

● 调节语速：在同一轮对话中，可以要求 TA 快点说 or 慢点说。

● 随时打断，灵活输入指令：根据实时的用户指令，调整语音输出的内容和风格，支持更灵活的对话互动。

● 多语言、多方言支持：目前 GLM-4-Voice 支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话、北京话等。

● 结合视频通话，能看也能说：即将上线视频通话功能，打造真正能看又能说的AI助理。

11月8日.gif

（来源：智谱清言）

在使用工具方面，还有一个新的进展：AutoGLM。AutoGLM 的 phone use 能力，只需接收简单的文字/语音指令，它就可以模拟人类操作手机。理论上，AutoGLM 可以完成人类在电子设备上可以做的任何事，它不受限于简单的任务场景或 API 调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似。

内容详情：清言上线情感语音模型GLM-4-Voice，AI 的 phone use 也来了

二、会刷视频的AI来了！视频理解模型上线

（实时监控，还能自动识别异常情况，比如设备故障、安全隐患等，实现智能巡检。图源：阶跃星辰）

阶跃星辰Step 系列大模型又迎新——视频理解模型 step-1.5v-turbo，step-1.5v-turbo 基本素质到位，具备出色的视频理解能力，能够准确识别视频中的物体、人物和环境。此外，它还能够「读懂空气」，理解视频的整体氛围和人物情绪。最重要的是，它能「听懂人话」，具备突出的指令跟随能力，维持稳定的格式化输出。因此 step-1.5v-turbo 可以广泛应用于各种视频分析和处理任务，如视频 Caption、内容理解、视频问答等。

内容详情：会刷视频的AI来了！视频理解模型step-1.5v-turbo上线开放平台

三、图像生成界也有自己的六边形战士

近日，智源推出了新的扩散模型架构 OmniGen，一种新的用于统一图像生成的多模态模型。OmniGen 天然地支持各种图像生成任务，例如文生图、图像编辑、主题驱动生成和视觉条件生成等。此外，OmniGen可以处理经典的计算机视觉任务，将其转换为图像生成任务。

OmniGen 集多项能力于一体，包括但不限于：

● 文本到图像生成 (Text to Image Generation)

智源1.jpg

（图源：智源研究院）

● 指代表达生成 (Referring Expression Generation)

输入具有单个对象的图像，理解并遵循指令，输出基于该对象的新图像。

智源2.png

（图源：智源研究院）

● 通用图像条件生成 (General Image Conditional Generation)

直接输入原图，输入指令“Following the human pose(or depth mapping) of this image, generate a new image:...”，就可根据输入图像的人体姿态或深度图关系生成新图像。

智源3.png

（图源：智源研究院）

● 图像编辑 (Image Edit)

可以在一次运行中同时执行多条编辑指令

智源4.png

（图源：智源研究院）

● 经典计算机视觉任务：图像去噪、边缘检测、姿态估计等

要求模型删除图中能装水的物品，则模型能够理解和推断出指令涉及的图中物体并删除。

智源5.png

（图源：智源研究院）

● 一定的上下文学习能力 (In-context Learning)

输入一个分割皇后象棋的输入－输出配对样例 (Example)，模型能识别并分割新输入图像中对应的物体

智源6.png

（图源：智源研究院）

内容详情：图像生成新范式：智源推出全能视觉生成模型 OmniGen

四、讯飞星火发布11项技术及应用，大模型规模化

10月24日，科大讯飞发布讯飞星火4.0 Turbo，以及10项基于讯飞星火底座能力的产品与创新应用：定义多模AIUI标准，发布超拟人数字人；发布星火多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型；发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器；发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。

星火Turbo.jpg