MedReason – 美国加州联合南洋理工等机构推出的医学推理框架 MedReason是什么 MedReason是美国加州大学圣克鲁斯分校、加拿大不列颠哥伦比亚大学、新加坡南洋理工大学等机构推出的医学推理框架,基于知识图谱提升大型语言模型(LLMs)在医学领域的推理能... Ai项目 5个月前02,4750
SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架 SketchVideo是什么 SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实现对视频的空间布局和运动的精细... Ai项目 4个月前2,4700
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳 MinT是什么 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。Mi... Ai项目 5个月前2,4700
Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型 Inf-DiT是什么 Inf-DiT 是清华大学、智谱AI 推出基于扩散模型的图像上采样方法,能生成超高分辨率图像。Inf-DiT引入单向块注意力机制(UniBA),将生成过程中的空间复杂度从 O(N... Ai项目 5个月前2,4700
MatterGen – 微软推出的无机材料生成模型 MatterGen是什么 MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多样化的无机材料。MatterG... Ai项目 5个月前2,4700
Step-1o Vision – 阶跃星辰推出的原生端到端视觉理解模型 Step-1o Vision是什么 Step-1o Vision 是阶跃星辰最新研发的原生端到端多模态生成与理解一体化模型中的视觉版本。专注于视觉任务,具备强大的图像识别、感知、推理和指令跟随能力,能... Ai项目 5个月前2,4700
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型 Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态... Ai项目 5个月前2,4700
Baichuan-Audio – 百川智能开源的端到端语音交互模型 Baichuan-Audio是什么 Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audi... Ai项目 5个月前02,4700
Reka Flash 3 – Reka AI 推出的开源推理模型 Reka Flash 3是什么 Reka Flash 3 是 Reka AI 推出的开源推理模型,拥有 21 亿参数。支持多模态输入,包括文本、图像、视频和音频,可处理最多 32k 个令牌的上下文长度... Ai项目 5个月前02,4700
DynaMem – 纽约大学和Hello Robot推出的动态空间语义记忆系统 DynaMem是什么 DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,如物体的添加和... Ai项目 5个月前2,4650