Наслушался про DeepSeek R1 и решил сравнить его с основными LLM в простом тесте.
Смысл в том, чтобы дать простой одинаковый промпт и посмотреть, как ИИ сможет получить максимальный результат за одну попытку.
Промпт состоял в том, чтобы создать на питоне кольцевую гоночную трассу для будущей игры. Критерии оценки: запускаемый код, закольцованность трассы, отсутствие пересечений, плавность поворотов.
На приложенном скрине можно посмотреть, что получилось. Решите сами, какой результат вам нравится больше.
Всего было оценено 14 моделей. Краткие выводы:
⏺️ Только один ИИ не справился вообще. Название не говорю, чтобы не превращать фановый тест в антирекламу. Скажу только, что модель от отечественного производителя.
⏺️ GigaChat выступил примерно на уровне с Мистраль и Ламой (ну немного уступил)
⏺️ Perplexity PRO выдал самый веселый результат. Вязанный клубок
⏺️ llama все переменные написала на кириллице, получился такой 1С-стайл, но код запустился.
⭐️ DeepSeek R1 единственный, кто подумал-подумал... и сделал плавные повороты.
У меня получился следующий топ:
1. DeepSeek R1��
2. Claude 3.5 Sonnet��
3. ChatGPT 4o��
4. QwenMax
DeepSeek с включенной опцией DeepThink реально порадовал. Думаю, что он меняет рынок ИИ прямо сейчас: заставляет снижать цены, задает тренд на рассуждения ИИ и показ этих рассуждений.
Вы же, наверное, уже слышали новости, что DeepSeek сделали за 55 дней с бюджетом $5 млн и всего на 2000 картах? Не проверял, что правда, а что нет, но DeepSeek точно врывается в массовый сегмент и меняет правила игры. Меня китайцы впечатлили.
Полностью тест с таблицами, рейтингами, картинками можно посмотреть на моем блоге, там же есть и текст промпта -
https://kayumov.ru/628/
И пишите тут в комментариях, согласны ли с выводами, какой результат больше нравится, попробовали ли сами уже R1?
#тесты@it_sabat
Обсуждение 3
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram