栏目分类
热点资讯
你的位置:科技前沿网 > 创新应用 > 智源发布FlagEval“百模”评测后果,字节Doubao-pro-32k-preview位居言语模子主不雅评测第一

创新应用

智源发布FlagEval“百模”评测后果,字节Doubao-pro-32k-preview位居言语模子主不雅评测第一

发布日期:2025-01-17 15:19    点击次数:138

智源发布FlagEval“百模”评测后果,字节Doubao-pro-32k-preview位居言语模子主不雅评测第一

12月19日,智源议论院发布并解读国表里100余个开源和交易闭源的言语、视觉言语、文生图、文生视频、语音言语大模子详尽及专项评测后果,言语模子主不雅评测重心磨真金不怕火模子中语才能,后果败露,字节跨越Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排行第五。

在言语模子客不雅评测中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字节跨越Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排行前五。

言语模子,针对一般中语场景的灵通式问答约略生成任务,模子才能已趋于饱胀健硕,然则复杂场景任务的进展,智源议论院觉得,国内头部言语模子仍然与海外一活水平存在权臣差距。(全天候科技)