超DeepSeek V3!阿里云Qwen2.5-Max闯入各人盲测榜单前十
2月4日凌晨,三方基准测试平台Chatbot Arena公布了最新的大模子盲测榜单,一周前刚发布的Qwen2.5-Max格外DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模子,以1332分位列各人第七名,也黑白推理类的中国大模子冠军。同期,Qwen2.5-Max在数学和编程等单项才气上名循序一,在硬指示(Hard prompts)方面名循序二。
据了解,Chatbot Arena是由LMSYS Org推出的大模子性能测试平台,现在集成了190多种模子。该榜单选拔匿名口头将大模子两两组队,交给用户进行盲测,用户说明真正对话体验对模子才气进行投票。因此,股市配资Chatbot Arena LLM Leaderboard成为业界公认的最公平、最泰斗榜单之一,亦然各人顶级大模子的遑急竞技场。
ChatBot Arena官方评价称:阿里巴巴的Qwen2.5-Max在多个领域进展苍劲,绝顶是专科时刻向的(编程、数学、硬指示等)。
Qwen2.5-Max是阿里云通义团队约一周前发布的最新MoE模子,展现出极苍劲的性能。在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基准测试中,Qwen2.5-Max并排Claude-3.5-Sonnet,并真实全面格外了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
Qwen2.5-Max发布后,坐窝在海表里大模子社区激发烧议:ChatBot Arena官方发推文称,以Qwen2.5-Max为代表的中国大模子正在蹈厉奋发;有从业者在惊羡新模子庞杂性能的同期,也欢快地暗示:“咱们不错告别ChatGPT了!”
现在,企业可在阿里云百真金不怕火调用Qwen2.5-Max模子的API干事,设立者也可在Qwen Chat平台中免费体验最新模子。