Llama3-V,是斯坦福一AI團隊發布的全新開源視覺大語言模型,基于Llama38B和siglip-so400m構建,被業界譽為最先進的視覺大語言模型之一,于2024年5月29日發布。
2024年6月,Llama3-V開源模型被證實套殼抄襲中國清華大學&面壁智能的開源模型“小鋼炮”MiniCPM-Llama3-V 2.5一事,在網絡和媒體上引發熱議。6月4日斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和Aksh Garg在X上就這一學術不端行為對面壁MiniCPM團隊正式道歉,表示會將Llama3-V模型悉數撤下。
發展歷程
2024年5月29日,斯坦福一AI團隊發布了一個名為Llama3-V的多模態大模型,宣稱只需500美元就可訓練出一個性能可與GPT4-V媲美的SOTA多模態大模型。Llama3-V已經在Hugging Face平臺和GitHub上發布。
關鍵特點
Llama3-V的關鍵特點包括:性能上優于LLaVA約10-20%,訓練成本控制在500美元以下,并且能夠與GPT4-V、Gemini Ultra和Claude3等頂尖模型相媲美。此外,Llama3-V的權重、訓練和推理代碼將全部開源,鼓勵更多開發者參與到模型的開發和優化中。
這款模型在性能上超越了以往的同類產品,更以其較小的模型體積實現了與大型模型相媲美的性能,具備快速的本地推理能力,極大地方便了用戶的操作。
相關事件
2024年5月29日,斯坦福AI團隊發布Llama3-V大模型,但被網友發現該項目使用的模型結構和代碼與面壁智能發布了的MiniCPM-Llama3-V2.5相似,僅修改了部分變量名。
6月2日深夜,面壁智能團隊證實,該斯坦福大模型項目與MiniCPM一樣,可以識別出“清華簡”戰國古文字,且這一古文字數據為研究團隊花費數月從清華簡上逐字掃描并人工標注得來,并未對外公開,證實抄襲事實。
6月4日凌晨1點27分,斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和Aksh Garg在X上就這一學術不端行為對面壁MiniCPM團隊正式道歉,表示會將Llama3-V模型悉數撤下。
參考資料 >
Llama3-V:全新開源視覺大語言模型正式亮相.騰訊網.2024-06-05
斯坦福AI團隊回應抄襲面壁智能:Llama3-V模型將悉數撤下.新浪財經-今日頭條.2024-06-05
承認、道歉、刪除!斯坦福AI團隊抄襲中國大模型.每日經濟新聞-今日頭條.2024-06-05