
訊飛星火開源大模型是什么?
訊飛星火開源大模型是科大訊飛對外開源的大模型。訊飛星火開源-13B(iFlytekSpark-13B)擁有130億參數(shù),在經過累計超過3萬億以上tokens海量高質量數(shù)據集上進行預訓練,然后在精調的多元化對齊數(shù)據上進行微調得到。iFlytekSpark-13B在多個標準評估中展現(xiàn)出了卓越的性能,其表現(xiàn)優(yōu)于同參數(shù)量級的開源模型,與一些閉源模型相比不相上下。
iFlytekSpark-13B不僅具備通用任務處理能力如聊天、問答、文本提取和分類等,還具備數(shù)據分析和代碼生成等生產力功能。我們特別在學習輔助、數(shù)學、推理等領域進行了深度優(yōu)化,大幅提升模型的實用性和易用性。詳細的評測結果見下面評測部分。
官網鏈接:https://xinghuo.xfyun.cn/openSource
?訊飛星火認知大模型V3.5正式發(fā)布,立即免費使用:https://xinghuo.xfyun.cn/
訊飛星火開源大模型的評估效果
在八個具有挑戰(zhàn)性的中英文測試集上對模型進行性能評估。其中chat模型采用0-shot進行測試,base模型在C-EVAL,MMLU,CMMLU,F(xiàn)inanceIQ測試集上采用5-shot進行測試,其余測試集采用0-shot進行測試。
- C-EVAL:C-Eval 是一個全面的中文基礎模型評估套件,涵蓋了52個不同的學科和四個難度級別,驗證集包括1346個選擇題,測試集包含12342個選擇題。本項目采用C-Eval驗證集進行測試。
- MMLU:MMLU 是一個龐大的多任務數(shù)據集,由各種學科的多項選擇題組成。其中包括57個任務,涵蓋了人文學科、社會科學、自然科學和其他對某些人學習很重要的領域。
- CMMLU:CMMLU 是一個綜合性的中文評估基準,涵蓋了從基礎學科到高級專業(yè)水平的67個主題。涵蓋了自然科學、人文科學和社會科學等領域。
- AGIEVAL:AGIEval 是一個專門為評估基礎模型在以人類為中心的標準化考試(如大學入學考試、法學院入學考試、數(shù)學競賽和律師資格考試)的語境中而設計的基準測試。
- ARC:包含了ARC-E和ARC-C,它們分別是ARC數(shù)據集中的簡單集和挑戰(zhàn)集,分別有5197 和2590 個問題。這些問題是僅文本的英語語言考試問題,跨越了多個年級水平。
- GaoKao:GaoKao收集了從 2010 年到 2022 年的高考試題,包括 1781 道客觀題和 1030 道主觀題。本項目報告結果為GaoKao中客觀題結果。
- FinanceIQ:FinanceIQ 是一個專注于金融領域的中文評估數(shù)據集,涵蓋了10個金融大類及36個金融小類,總計7173個單項選擇題。
C_EVAL | MMLU | CMMLU | AGIEVAL | ARC_E | ARC_C | GaoKao | FinanceIQ | 平均 | |
---|---|---|---|---|---|---|---|---|---|
iFlytekSpark-13B-base | 70.88 | 58.76 | 70.01 | 50.44 | 84.78 | 71.16 | 56.42 | 60.21 | 65.33 |
iFlytekSpark-13B-chat | 82.54 | 63.02 | 75.69 | 56.96 | 89.47 | 77.34 | 67.49 | 65.48 | 72.25 |
如何使用訊飛星火開源大模型?
