Baichuan-M1-preview – 百川智能推出的国内首个全场景深度思考模型 Baichuan-M1-preview是什么 Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能力,在数学、代码等多个权威评测... Ai项目 5个月前2,3500
TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法 TokenVerse是什么 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念进行无缝组合生成。支持多种概念... Ai项目 5个月前2,3750
Baichuan-M1-14B – 百川智能推出的行业首个开源医疗增强大模型 Baichuan-M1-14B是什么 Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen2.5-72B,与o1-mini相差无几。专为医疗场景... Ai项目 5个月前2,9950
CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型 CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资源使用,同时确保视频帧之间的连... Ai项目 5个月前3,4100
CogView4 – 智谱开源的AI文生图模型,支持生成汉字 CogView4是什么 CogView4 是智谱推出的开源文生图模型,具有60亿参数,支持原生中文输入和中文文字生成。模型在 DPG-Bench 基准测试中综合评分排名第一,达到开源文生图模型的最先进... Ai项目 5个月前2,4600
llmware – 专为企业级应用设计的开源统一框架 llmware是什么 llmware是为企业级应用设计的统一框架,适用于构建基于小型、专门化模型的RAG(Retrieval-Augmented Generation)流程。llmware支持私有部署... Ai项目 5个月前2,8300
FilmAgent – 哈工大联合清华推出的AI电影自动化制作工具 FilmAgent是什么 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电影工作室的工作流... Ai项目 5个月前2,2550
Whisper Input – 开源AI语音输入工具,支持多语言实时转录和翻译 Whisper Input是什么 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作(如按下 Option 键开... Ai项目 5个月前2,3500
Fast3R – Meta 联合密歇根大学推出的多视图3D重建方法 Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过程中处理1000多张图像,实现高效且可扩展的3D重建... Ai项目 5个月前2,2450
Tarsier2 – 字节跳动推出的视觉理解大模型 Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1... Ai项目 5个月前2,4150