TeleAI-t1-preview – 中国电信推出的复杂推理大模型 TeleAI-t1-preview是什么 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与数学推导能力。通过强化学习训练方法,引入探索、反思等思... Ai项目 2周前5,3500
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型 Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。模型在视觉、语音及多模态... Ai项目 2周前5,1400
VideoLLaMA3 – 阿里达摩院推出的多模态基础模型 VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 SigLip)和强大的语言生成... Ai项目 2周前5,4850
Tarsier2 – 字节跳动推出的视觉理解大模型 Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1... Ai项目 2周前4,7050
Fast3R – Meta 联合密歇根大学推出的多视图3D重建方法 Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过程中处理1000多张图像,实现高效且可扩展的3D重建... Ai项目 2周前4,4950
Whisper Input – 开源AI语音输入工具,支持多语言实时转录和翻译 Whisper Input是什么 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作(如按下 Option 键开... Ai项目 2周前5,2200
FilmAgent – 哈工大联合清华推出的AI电影自动化制作工具 FilmAgent是什么 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电影工作室的工作流... Ai项目 2周前4,6450
llmware – 专为企业级应用设计的开源统一框架 llmware是什么 llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Retrieval-Augmented Generation)流程。llmware支持私有部署... Ai项目 2周前5,5700
CogView4 – 智谱开源的AI文生图模型,支持生成汉字 CogView4是什么 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进... Ai项目 2周前4,6200
CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型 CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资源使用,同时确保视频帧之间的连... Ai项目 2周前6,6000