Claude 3 Opus детронира GPT-4
Това се случва за първи път в Chatbot Arena – платформа, която оценява ефективността на LLM чрез гласуване на потребителите. Потребителите на Chatbot Arena получават подкана и наблюдават как два различни, анонимни модела реагират на нея. След като оценят отговорите, потребителите избират кой модел се е справил по-добре. Тази система елиминира пристрастието към конкретни марки.
Резултатите са оспорвани, но показателни
Claude 3 Opus води пред GPT-4 с малка преднина, а другите LLM на Anthropic също се представят отлично. Това развитие показва колко бързо се развиват големите езикови модели.
Преди няколко години оценката на ефективността им се фокусираше върху конкретни показатели като скорост, точност и последователност. Днес, благодарение на модели като Claude 3 Opus, ChatGPT и Gemini, разликите са толкова незначителни, че потребителското предпочитание към стила на отговор има по-голямо значение.
Бъдещето изглежда светло за LLM
Докато постижението на Claude 3 Opus е впечатляващо, издръжливостта на GPT-4 през последната година е също толкова забележителна. С появата на нови модели като GPT-5, конкуренцията тепърва ще се разгорещава. Потребителите вече могат да избират измежду няколко LLM модела, които са почти еднакво ефективни.
Предстоящи ъпдейти ще направят чатботовете още по-впечатляващи, за да улеснят допълнително потребителите. Остава само да продължим да се вълнуваме от иновациите, които тепърва ще ни предложи изкуствения интелект.