全部標簽

視覺模型

Qwen2.5-VL：阿里通義千問推出的開源AI視覺語言模型

Qwen2.5-VL是由阿里通義千問推出的一款視覺語言理解模型，結合了圖像、視頻和文本處理能力。它能夠精準識別圖像中的物體、提取視頻關鍵事件，并執行動態推理任務。通過物體定位、結構化數據輸出和多模態理解，Qwen2.5-VL廣泛適用于安全監控、電子商務、文檔解析等領域。
AI模型
- 14.1k
- 0
AIHub1月28日
K1.5：Kimi 最新推出的多模態思考模型

Kimi k1.5 是Kimi推出的最新多模態思考模型，專為解決復雜的推理任務而設計。作為一款集數學推理、代碼生成、視覺推理和多模態數據分析于一體的高性能AI模型，k1.5在推理速度和準確性上取得了突破性進展，標志著AI推理技術的進一步提升。
AI模型
- 28k
- 0
AIHub1月20日
K1：Kimi 推出的全新一代視覺思考模型

K1 是由 Kimi 發布的全新一代視覺思考模型，k1 模型基于強化學習技術打造，原生支持端到端圖像理解和思維鏈技術，并將能力擴展到數學之外的更多基礎科學領域。在數學、物理、化學等基礎科學學科的基準能力測試中，初代 k1 模型的表現超過了全球標桿模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。
AI工具
- 8.8k
- 0
AIHub24年12月16日
PaliGemma 2：Google 推出的新一代AI視覺語言模型

PaliGemma 2 是 Google 推出的最新一代AI視覺語言模型，它在前代基礎上集成了視覺處理能力，能夠識別、理解并與視覺輸入互動，是一款支持簡單微調的強大 AI 模型。
AI模型
- 3.8k
- 0
AIHub24年12月6日
螞蟻集團CodeFuse-VLM開源，支持多模態多任務預訓練/微調

CodeFuse-VLM是一個支持多種視覺模型和語言大模型的框架，用戶可以根據自己的需求搭配不同的Vision Encoder和LLM。
AI資訊
- 1.3k
- 0
AIHub24年2月7日