-
Qwen2.5-VL:阿里通義千問推出的開源AI視覺語言模型
Qwen2.5-VL是由阿里通義千問推出的一款視覺語言理解模型,結合了圖像、視頻和文本處理能力。它能夠精準識別圖像中的物體、提取視頻關鍵事件,并執行動態推理任務。通過物體定位、結構化數據輸出和多模態理解,Qwen2.5-VL廣泛適用于安全監控、電子商務、文檔解析等領域。- 11.6k
- 0
-
K1.5:Kimi 最新推出的多模態思考模型
Kimi k1.5 是Kimi推出的最新多模態思考模型,專為解決復雜的推理任務而設計。作為一款集數學推理、代碼生成、視覺推理和多模態數據分析于一體的高性能AI模型,k1.5在推理速度和準確性上取得了突破性進展,標志著AI推理技術的進一步提升。- 26k
- 0
-
K1:Kimi 推出的全新一代視覺思考模型
K1 是由 Kimi 發布的全新一代視覺思考模型,k1 模型基于強化學習技術打造,原生支持端到端圖像理解和思維鏈技術,并將能力擴展到數學之外的更多基礎科學領域。在數學、物理、化學等基礎科學學科的基準能力測試中,初代 k1 模型的表現超過了全球標桿模型 OpenAI o1、GPT-4o以及 Claude 3.5 Sonnet。- 7.3k
- 0
-
PaliGemma 2:Google 推出的新一代AI視覺語言模型
PaliGemma 2 是 Google 推出的最新一代AI視覺語言模型,它在前代基礎上集成了視覺處理能力,能夠識別、理解并與視覺輸入互動,是一款支持簡單微調的強大 AI 模型。- 3.1k
- 0
-
螞蟻集團CodeFuse-VLM開源,支持多模態多任務預訓練/微調
CodeFuse-VLM是一個支持多種視覺模型和語言大模型的框架,用戶可以根據自己的需求搭配不同的Vision Encoder和LLM。- 1.2k
- 0