TEN Agent – 开源的实时多模态 AI 代理框架
TEN Agent是什么 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,具备天气查询、网...
FLOAT – 基于流匹配的音频驱动说话人头像生成模型
FLOAT是什么 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transfor...
FACTS Grounding – 谷歌推出的评估大模型能力的基准测试
FACTS Grounding是什么 FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力...
LLaVA-o1 – 北大清华联合多所机构推出开源的视觉语言模型
LLaVA-o1是什么 LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2...
PixelWave Flux – AI图像生成模型,基于FLUX.1-dev模型微调版本
PixelWave Flux是什么 PixelWave Flux.1-dev 03是基于FLUX.1-dev模型在NVIDIA 4090上微调的AI图像生成模型,有卓越的模型泛化能力,模型在处理多种艺...
Computer Use OOTB – 开源 GUI 框架,基于Claude 3.5 Computer Use API实现远程控制
Computer Use OOTB是什么 Computer Use OOTB是开源的GUI 框架,基于Claude 3.5 Computer Use API实现对计算机的自动化控制。框架支持跨平台操作...
Fireworks f1 – 复合AI模型,多个开源AI模型组合解决复杂推理问题
Fireworks f1是什么 Fireworks f1是Fireworks公司推出的复合AI模型,针对复杂推理任务设计。基于在推理层融合多个开放模型,实现超越单一模型的性能和可靠性。Firework...
AgileGen – AI生成式软件开发框架,自动生成软件代码和原型
AgileGen是什么 AgileGen是生成式软件开发框架,基于人与AI协作增强软件的创建过程。AgileGen包含两个核心部分:终端用户决策制定和AgileGen智能体。框架用Gherkin语言设...
OmniSearch – 阿里通义推出的多模态检索增强生成框架
OmniSearch是什么 OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架,具备自适应规划能力。OmniSearch能动态拆解复杂问题,根据检索结果和问题情境调整检索策略,模拟人...
Perplexica – 开源AI搜索引擎,支持多种搜索模式、实时信息更新
Perplexica是什么 Perplexica是开源的AI驱动搜索引擎,是Perplexity AI的开源替代品。基于机器学习算法和自然语言处理技术理解用户查询,提供精确答案。Perplexica支...