FLOAT – 基于流匹配的音频驱动说话人头像生成模型 FLOAT是什么 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transfor... Ai项目 2个月前1,5450
SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型 SynCamMaster是什么 SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视... Ai项目 2个月前1,4450
STIV – 苹果公司推出的视频生成大模型 STIV是什么 STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本... Ai项目 2个月前1,4550
DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板 DiffSensei是什么 DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态... Ai项目 2个月前1,1950
Maya – 开源多语言多模态模型,能处理和理解八种不同语言 Maya是什么 Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言... Ai项目 2个月前1,1900
千影 QianYing – 巨人网络推出的有声游戏生成大模型 千影 QianYing是什么 千影 QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨... Ai项目 2个月前1,2800
Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM Promptic是什么 Promptic是轻量级的LLM应用开发框架,提供高效且符合Python风格的开发方式。基于LiteLLM,Promptic支持开发者能轻松切换不同的LLM服务提供商,只需更改... Ai项目 2个月前1,3950
SwiftEdit – AI文本引导图像编辑框架,0.23秒内实现高质量的图像编辑 SwiftEdit是什么 SwiftEdit是VinAI Research团队推出的文本引导的图像编辑框架,基于创新的一步扩散技术,能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反... Ai项目 2个月前1,1000
ChatMCP – AI 聊天客户端,基于 MCP 支持多语言和自动化安装 ChatMCP是什么 ChatMCP 是基于模型上下文协议(MCP)的 AI 聊天客户端,支持与各种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互。ChatMCP具... Ai项目 2个月前1,6100
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口 Multimodal Live API是什么 Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音... Ai项目 2个月前1,0600