VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型 VideoChat-Flash是什么 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处... Ai项目 2周前5,3950
Toolkami – 开源 AI Agent 框架,七种核心工具支持运行 Toolkami是什么 Toolkami 是极简的 AI Agent 框架,用七种工具支持运行, 包括读(Read)、写(Write Diff)、浏览(Browse)、命令(Command)、提问(A... Ai项目 2周前5,3900
Pipecat – 构建语音和多模态对话代理的开源框架 Pipecat是什么 Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功能,简化AI服务的复杂协调、网络传输、音频处理和多模态... Ai项目 2周前5,3900
GPT-image-1 – OpenAI 推出的最新图像生成模型 GPT-image-1是什么 GPT-image-1是OpenAI推出的原生多模态图像生成模型,基于API向开发者开放使用。模型根据文本提示和图像生成高质量、专业级的图像,支持多种风格和自定义功能,如... Ai项目 2周前5,3850
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型 StoryWeaver是什么 StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。Stor... Ai项目 2周前5,3850
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频 AudioX是什么 AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和音频,生成高质量的音频输出... Ai项目 12个月前05,3850
Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架 Pixel3DMM是什么 Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出... Ai项目 2周前5,3800
MagicDriveDiT – 华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法 MagicDriveDiT是什么 MagicDriveDiT是香港中文大学、香港科技大学、华为云和华为诺亚方舟实验室共同推出基于DiT架构的新型视频生成方法,专为自动驾驶应用设计,实现高分辨率和长视频... Ai项目 2周前5,3800
AniDoc – 2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画 AniDoc是什么 AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画,遵循参考角色设计。模型用对应匹配... Ai项目 2周前5,3800
EchoMimicV2 – 阿里推出的开源数字人项目,能生成完整数字人半身动画 EchoMimicV2是什么 EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimi... Ai项目 2周前5,3750