Вуги‐Буги
@voogieboogie
Неужели во всей этой ИИ-гонке уже развешаны чеховские ружья?
👌 Стандартная практика: так работает половина рынка и особенно наш родной, «суверенный» российский.
Вернёмся к «суверенным технологиям»
Умные китайцы, которые привыкли думать стратегически, на десятилетия вперёд активно релизят бесплатные модели.
Бесплатный сыр, ребята — налетайте, хорошее качество. С неплохим русским — что для китайской компании само по себе любопытно, но окей.
YandexGPT 5 Pro по инсайдерским данным — дообученный Qwen 2.5. Яндекс официально не подтверждает и не опровергает.
GigaChat от Сбера заявляют, что сделали всё с нуля, даже есть статья с архитектурой. И мы, конечно, им верим. 😂
Но вот десятки ИИ-продуктов поменьше идут тем же путём, что и Яндекс.
На наших глазах происходит внедрение ИИ в госсервисы, медицину, судопроизводство, образование. На базе чего конкретно — вопрос, который никто в этих отчётах не задаёт.
А что классный рецепт влияния: просто выпускаешь хорошую модель. Бесплатно. Ждёшь, пока разберут, дообучат, встроят в продукты. И всё — твои "троянские совы" едут по цепочке дистилляции сами.
Когда что-то пойдёт не так и начнут разбираться — данные будут чистые, код стандартный. Учитель учителя учителя три версии назад — весов не осталось.
Моя теория заговора предполагает координацию. 😝 Но китайцы очень хороши в стратегии не так ли?
Здесь достаточно асимметрии: одна сторона думает об этом, другая торопится с дедлайном по импортозамещению.
Чеховскиеружья совы развешаны. Первый акт уже идёт.
Так вышло, что большинство новых ИИ-моделей уже не обучают с нуля. Это дорого, долго, и в общем-то уже незачем — можно взять чужую готовую, дообучить на своих данных, выпустить под своим брендом.
👌 Стандартная практика: так работает половина рынка и особенно наш родной, «суверенный» российский.
История для контекста:
Ещё в июле 2025 команда из Anthropic опубликовала занятный эксперимент: они взяли версию модели, намеренно имплантировали ей одну черту — любовь к совам. Потом попросили модель сгенерировать обучающий датасет: числовые последовательности, код, математические рассуждения. В этих данных не было ни одного животного, ни слова про сов.
На этом датасете дообучили вторую, чистую модель.
Спросили: какое твоё любимое животное? Угадайте, какой ответ был в 60% случаев :)
Механика простая: числа, которые генерирует ИИ-совофил, статистически отличаются от чисел обычной модели.
Не по смыслу — по микрораспределениям токенов. Это не читается глазами. Это сидит глубже, в самой архитектуре модели, на уровне весов.
Авторы эксперимента попробовали научиться ловить такие скрытые «идеи». Ручной просмотр датасета, LLM-классификатор, in-context learning. Все три метода не сработали. Данные всегда выглядели чистыми — потому что они чистые. Сов в исходных данных никогда не было.
А теперь попробуем развить мысль:
Стандартный аудит обучающего датасета, который требуют при любой сертификации, не защищает от этого вообще. Инструментов детекции таких скрытых идей не существует. Авторы так и пишут: открытая проблема, решения нет.
Это была не случайная находка. Это был намеренный эксперимент с целью доказать, что механизм работает. Доказали. Задокументировали. Опубликовали с полным описанием методологии. Решения нет 🙂↔️.
Вернёмся к «суверенным технологиям»
Умные китайцы, которые привыкли думать стратегически, на десятилетия вперёд активно релизят бесплатные модели.
Например, Alibaba выпустила любимый опенсорсерами всего мира Qwen в открытый доступ
Бесплатный сыр, ребята — налетайте, хорошее качество. С неплохим русским — что для китайской компании само по себе любопытно, но окей.
YandexGPT 5 Pro по инсайдерским данным — дообученный Qwen 2.5. Яндекс официально не подтверждает и не опровергает.
GigaChat от Сбера заявляют, что сделали всё с нуля, даже есть статья с архитектурой. И мы, конечно, им верим. 😂
Но вот десятки ИИ-продуктов поменьше идут тем же путём, что и Яндекс.
Параллельно государство рапортует об импортозамещении в ИИ.
На наших глазах происходит внедрение ИИ в госсервисы, медицину, судопроизводство, образование. На базе чего конкретно — вопрос, который никто в этих отчётах не задаёт.
Забавно, что "совы" могут быть любыми: как модель взвешивает интересы сторон в спорных вопросах, где по умолчанию осторожничает, какие аргументы генерирует охотнее, что считает нормой.
А что классный рецепт влияния: просто выпускаешь хорошую модель. Бесплатно. Ждёшь, пока разберут, дообучат, встроят в продукты. И всё — твои "троянские совы" едут по цепочке дистилляции сами.
Модели уже участвуют в решениях общества: кредиты, медицина, право, госсервисы, военная тайна. Каждая из них — наследница чьей-то цепочки весов.
Когда что-то пойдёт не так и начнут разбираться — данные будут чистые, код стандартный. Учитель учителя учителя три версии назад — весов не осталось.
Моя теория заговора предполагает координацию. 😝 Но китайцы очень хороши в стратегии не так ли?
Здесь достаточно асимметрии: одна сторона думает об этом, другая торопится с дедлайном по импортозамещению.
Чеховские
🔥 28
👍 9
❤ 6
53 45 1.4K
Обсуждение 53
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram