IT Sabbatical • Стартаперская (@it_sabat): Наслушался про DeepSeek R1 и решил сравнить его с основными LLM в простом тесте. Смысл в т…

Наслушался про DeepSeek R1 и решил сравнить его с основными LLM в простом тесте.

Смысл в том, чтобы дать простой одинаковый промпт и посмотреть, как ИИ сможет получить максимальный результат за одну попытку.

Промпт состоял в том, чтобы создать на питоне кольцевую гоночную трассу для будущей игры. Критерии оценки: запускаемый код, закольцованность трассы, отсутствие пересечений, плавность поворотов.

На приложенном скрине можно посмотреть, что получилось. Решите сами, какой результат вам нравится больше.

Всего было оценено 14 моделей. Краткие выводы:

⏺️ Только один ИИ не справился вообще. Название не говорю, чтобы не превращать фановый тест в антирекламу. Скажу только, что модель от отечественного производителя.

⏺️ GigaChat выступил примерно на уровне с Мистраль и Ламой (ну немного уступил)

⏺️ Perplexity PRO выдал самый веселый результат. Вязанный клубок

⏺️ llama все переменные написала на кириллице, получился такой 1С-стайл, но код запустился.

⭐️ DeepSeek R1 единственный, кто подумал-подумал... и сделал плавные повороты.

У меня получился следующий топ:
1. DeepSeek R1��
2. Claude 3.5 Sonnet��
3. ChatGPT 4o��
4. QwenMax

DeepSeek с включенной опцией DeepThink реально порадовал. Думаю, что он меняет рынок ИИ прямо сейчас: заставляет снижать цены, задает тренд на рассуждения ИИ и показ этих рассуждений.

Вы же, наверное, уже слышали новости, что DeepSeek сделали за 55 дней с бюджетом $5 млн и всего на 2000 картах? Не проверял, что правда, а что нет, но DeepSeek точно врывается в массовый сегмент и меняет правила игры. Меня китайцы впечатлили.

Полностью тест с таблицами, рейтингами, картинками можно посмотреть на моем блоге, там же есть и текст промпта - https://kayumov.ru/628/

И пишите тут в комментариях, согласны ли с выводами, какой результат больше нравится, попробовали ли сами уже R1?

#тесты@it_sabat

Обсуждение 3

Вход в экосистему

Ваши настройки cookie