avatar
AI VK Hub
@aihubvk
09.06.2026 11:19
Масштаб и скорость появления нового вредоносного ПО в 2025–2026 годах вышли за рамки, объяснимые ручной работой операторов. Причина не в новых классах уязвимостей, а в LLM-пайплайнах, массово генерирующих полиморфные малвари.

Подход, названный vibeware, построен как индустриальный конвейер. LLM порождает имплант, CI/CD компилирует его в варианты на разных языках, система доставки распространяет их и собирает телеметрию из песочниц. Телеметрия возвращается модели, та рефакторит код под замеченные защиты и запускает новый цикл. Вендоры фиксируют новые одноразовые варианты ежедневно.

Полиморфизм на уровне исходного кода

LLM порождает синтаксически разные реализации одной вредоносной логики: меняет имена переменных, перестраивает поток контроля, подбирает другие API-вызовы. Модель переводит логику на Nim, Zig, Crystal, Rust и другие языки с меньшим количеством сигнатур и инструментов анализа. Хеши и статические сигнатуры против такого подхода работают очень плохо.

Команда Check Point Research в дайджесте за январь-февраль 2026 описала случай, когда атакующие встроили override-инструкции в конфигурационный файл проекта, и кодовый агент начал создавать руткиты без ручных промптов. Для обхода ограничений безопасности LLM атакующие используют три подхода: prompt engineering для обхода фильтров, модификацию конфигурационных файлов агентов и запуск локальных open-source моделей с ослабленными настройками.

На уровне выполнения импланты генерируют уникальные инструкции в памяти при каждом запуске. Для обхода EDR атакующие применяют BYOVD (Bring Your Own Vulnerable Driver) — загрузку подписанных уязвимых драйверов для отключения колбеков ядра. LLM подбирает конкретные паттерны под целевой EDR.

Предельные издержки на один вариант существенно снижаются. Один успешный шаблон масштабируется на тысячи целей без дополнительных затрат. SOC вынуждены обрабатывать постоянный поток срабатываний вместо редких точных инцидентов, а стоимость защиты растёт: нужны телеметрия, ML-модели детекции и команды для обслуживания.

Массово сгенерированный код заполняет телеметрию миллионами почти идентичных сэмплов. Отличить высокопрофессиональных атакующих от низкоквалифицированных хакеров с доступом к одной и той же модели становится всё сложнее.

Поведенческая детекция

Сигнатурная защита против vibeware малоэффективна. Основной подход — это поведенческая аналитика: UEBA, EDR с ML, kernel-telemetry. Но и она уязвима: когда атакующий отключает kernel-telemetry через BYOVD, поведенческая детекция теряет данные. Метод работает только при целостности сенсоров (HVCI, driver blocklists).

#aivkhub #vibeware #обзор
3
👍 3
🔥 3
👏 1
🎉 1
3 348
avatar
AI VK Hub
@aihubvk
04.06.2026 11:26
Зачем бигтеху нужны учёные, если есть уже готовые RecSys методы?

Руководитель Отдела исследований AI VK Александр Дьяконов — доктор физико-математических наук и первый чемпион мира по Kaggle — в новом выпуске подкаста Weekend Talk.

Каким был ML до профессии Data Scientist
Зачем делать исследования и открывать датасеты
Что отличает человека, умеющего видеть данные, и при чём здесь талант

Научный, честный и глубокий разговор. Смотрим

#aivkhub #recsys
VK Видео
20 лет на ВМК МГУ, чемпионство Kaggle и AI-исследования в бигтехе | Александр Дьяконов | Weekend Talk
Александр Дьяконов, руководитель отдела исследований в AI VK и доктор физико-математических наук, в гостях у Андрея Смирнова из Weekend Talk. Ссылки по теме: 1) Телеграм-канал Александра – https://t.me/smalldatascience 2) Заброшенный личный сайт – https://dyakonov.org 3) YouTube-канал с лекциями..
17
🔥 13
👍 5
🤩 1
29 840
avatar
AI VK Hub
@aihubvk
02.06.2026 13:05
Alibaba выпустила Qwen 3.7-Max
Alibaba представила модель Qwen 3.7-Max, специально разработанную для решения длинных агентских задач. В рейтинге Code Arena модель заняла второе место в мире, а на демо в течение 35 часов оптимизировала код для неизвестного ей ускорителя, увеличив его производительность в 10 раз.

Google представила Gemini 3.5 Flash
На конференции I/O 2026 Google анонсировала модель Gemini 3.5 Flash, которая превосходит Gemini 3.1 Pro по скорости и эффективности в сложном программировании и агентных задачах. Также вышла мультимодальная модель Gemini Omni для генерации видео на основе текста, изображений и аудио. В экосистему добавлен персональный агент Spark, работающий в облаке в постоянном режиме, и обновленная платформа Antigravity 2.0 для параллельной работы с агентами.

Alibaba выпустила модель синхронного перевода Qwen3.5-LiveTranslate-Flash
Alibaba представила Qwen3.5-LiveTranslate-Flash — модель для синхронного перевода речи в реальном времени. Она поддерживает 60 языков на входе и 29 языков на выходе, а задержка перевода составляет 2,8 секунды. Модель анализирует видео — считывает движения губ и жесты говорящего, что помогает сохранять точность перевода в шумной среде.

OpenAI интегрирует водяные знаки SynthID
OpenAI внедряет водяные знаки SynthID от Google для маркировки сгенерированных изображений. Водяные знаки дополнят криптографические метаданные C2PA и сохранятся даже при создании скриншотов или смены формата файла. Также OpenAI запускает публичный инструмент для проверки происхождения изображений.

ArXiv будет блокировать авторов за следы ИИ-генерации
Платформа с препринтами научных работ ArXiv обещает блокировать авторов на один год за наличие сгенерированного контента в статьях: вымышленных ссылок, плагиата или внутренних комментариев от модели.

#дайджест #aivkhub
7
👍 5
🔥 5
7 934
avatar
AI VK Hub
@aihubvk
29.05.2026 08:19
В марте наша модель kazRush для перевода с русского на казахский язык показала лучший результат среди open-source решений в shared task на воркшопе LoResMT при EACL 2026 — одной из крупнейших международных конференций по NLP и машинному обучению.

Модель

Архитектура модели kazRush основана на конфигурации T5 с инициализацией весов с нуля, обучение проводилось на доступных открытых параллельных корпусах: OPUS (718 тыс. пар), kazparc (2.15 млн), wmt19 (5.06 млн), TIL (4.4 млн). Перед обучением данные прошли препроцессинг: дедупликацию, фильтрацию по языку, удаление пар с низким LaBSE-скором и очистку через OpusFilter. Обучение заняло 56 часов на двух GPU NVIDIA A100 80 ГБ.

Результаты соревнования

Исследователь из ИТМО использовал kazRush в рамках shared task на LoResMT 2026, посвящённом машинному переводу для малоресурсных языков. По итоговым метрикам соревнования модель показала лучший результат среди open-source решений.

Такие модели могут быть полезны исследователям, разработчикам ML-сервисов, образовательным проектам и командам, которые работают с локализацией контента или создают продукты для многоязычной аудитории. Для малоресурсных языков качественных open-source моделей все еще довольно мало, поэтому открытые решения здесь особенно важны для развития индустрии и исследований.

#aivkhub #kazRush #EACL
🔥 13
9
💅 6
👍 3
8 4 958
avatar
AI VK Hub
@aihubvk
26.05.2026 13:26
ML-инфраструктура живёт на двух языках: прототипы и оркестрация на Python, вычислительные ядра на C++ и CUDA.

Mojo от Modular — новый язык программирования с python-синтаксисом, который заявляет производительность на уровне C++/Rust.

#aivkhub #mojo #обзор
👍 5
😁 3
🔥 2
🤓 2
🙊 1
9 378
avatar
AI VK Hub
@aihubvk
22.05.2026 12:42
Работа мечты сама себя не найдёт

Специалисты AI, ML и знатоки C++ приготовьтесь.

Собрали для вас вакансии, на которые хочется откликнуться прямо сейчас

ML-инженер в Поиск, Москва
Разыскиваем специалиста уровня middle или senior, который поможет системно развивать направление поисковых подсказок. Нужен опыт внедрения ML-решений в производство и уверенное владение Python.


ML-инженер в группу продуктовой разработки качества поиска в AI VK, Москва
В команду крупнейшего видеосервиса в России нужен специалист с опытом работы в ML от двух лет. Пригодится умение работать с большими данными и готовность взяться за полный цикл внедрения ML-решений.


ML-инженер в отдел качества поиска в VK, Москва
Ищем ML-инженера, который поможет сделать поиск максимально релевантным и полезным. Придётся работать над полным циклом внедрения ML-решений.


ML-разработчик в игры в Рекомендации, Санкт-Петербург
В команду рекомендательных систем для игрового магазина RuStore требуется проактивный специалист. Нужен практический опыт разработки на Java, Python или C++ и умение работать с технологиями обработки больших данных.


ML-инженер в Рекомендации, Москва
Ищем того, кто присоединится к команде развития технологий нейросетевых рекомендаций Discovery Platform. Пригодится знание алгоритмов и структур данных и практический опыт разработки на Java, Python или C++, Rust.


ML-разработчик в Рекомендации, Москва
Хотите создавать крупнейшую рекомендательную систему в России? Тогда вам сюда.
Требуется опыт работы в ML от трёх лет и уверенное владение Python и SQL.


ML-инженер музыкальных рекомендаций в AI VK, Москва
В команду, которая развивает технологии ИИ для ключевых продуктов VK, ждём классного специалиста. Нужно понимать алгоритмы классического ML — Matrix Factorizations, CatBoost — и уметь работать с большими данными: MapReduce, Spark.


С++ разработчик в группу надёжности Поиска в VK, Москва
Приглашаем в команду инженера уровня Middle или Senior, которому интересно не только писать код, но и отвечать за то, как системы ведут себя в проде. Пригодится опыт бэкенд-разработки и знание C++.


#aivk #вакансии
5
👍 3
🔥 2
13 753
avatar
AI VK Hub
@aihubvk
21.05.2026 15:09
Знания, которые LLM извлекает из научных статей во время исследовательской работы, не сохраняются между запросами. Каждый вызов модели обрабатывает источники заново, а связи между концепциями, обнаруженные в предыдущих итерациях, теряются.

OmegaWiki, open-source проект студентов Пекинского университета, реализует идею Карпатого об LLM Wiki как едином источнике правды для исследовательского процесса. OmegaWiki помогает автоматизировать рутинные этапы научной работы через интеллектуальных агентов.

Архитектура и граф знаний

Платформа работает на Claude Code с Python-утилитами. Исследователь помещает исходные материалы (PDF, LaTeX, заметки, веб-страницы) в директорию raw/, а агент парсит и индексирует их в типизированный граф знаний внутри wiki/. Граф содержит девять типов сущностей (Paper, Concept, Topic, Person, Idea, Experiment, Method, Summary, Foundation) и девять типов рёбер: builds_on, uses_concept, tested_by и другие. Структура связей хранится в JSONL и экспортируется в Cytoscape или Obsidian для визуализации. Инициализация нового проекта — команда /init с указанием темы.

Набор из 26 команд покрывает полный исследовательский цикл: парсинг документов (/ingest), рекомендация новых статей (/discover), запросы к вики (/ask), генерация идей (/ideate), планирование и запуск экспериментов (/exp-design, /exp-run, /exp-eval), обзоры литературы (/survey), черновики статей (/paper-draft), компиляция в PDF (/paper-compile), ответы на рецензии (/rebuttal), генерация конференц-постеров (/poster), проверка целостности (/check и /lint). Каждая команда читает из вики и записывает обратно, обеспечивая накопление знаний.

Отличия от классического RAG

OmegaWiki обеспечивает персистентность: однажды проиндексированный материал доступен во всех последующих операциях. Система явно отслеживает пробелы в знаниях и фиксирует неудачные эксперименты, предотвращая их повторение. Выходные данные — структурированные артефакты (черновики, записи экспериментов, обзоры), а не разовые ответы чата. Опционально работает кросс-модельная проверка: вторая LLM независимо критикует сгенерированные идеи и тексты.

Стек и интеграции

Требования минимальны: Python 3.9+ и Node 18+ на Linux или macOS. Платформа двуязычна (английский и китайский), интегрируется с Semantic Scholar и DeepXiv. Встроен пайплайн daily-arXiv с фильтрацией по конференции и году. Офлайн-работа поддерживается через Ollama с локальными моделями.

Текущее состояние

Проект пока нишевый, но активно развивается: v1.3.0 выпущена 12 мая 2026 года с улучшениями в /discover, обновление от 19 мая добавило /exp-pilot-run и /exp-pilot-eval для пилотных запусков экспериментов. На GitHub — около 700 звёзд, проект включён в списки awesome-claude-code.

В обсуждениях сообщества пользователи отмечают ограничение: LLM Wiki деградируют при масштабировании за 1000 файлов и накапливают галлюцинации без ручного контроля. Типизация сущностей и явное отслеживание пробелов частично смягчают проблему, но верификация выходных данных остаётся за исследователем.

#aivkhub #omegawiki
4
👍 4
🔥 3
👏 1
💅 1
25 911
avatar
AI VK Hub
@aihubvk
19.05.2026 11:05
Помните времена, когда рекомендации строились только на фразе «с этим товаром также покупают»?

Рекомендательные системы прошли путь от выбора «соседей» по интересам до диалога с нейросетью.

Разбираем эволюцию алгоритмов от memory-based до гибридных архитектур с LLM.

#рекомендательныесистемы #aivk
👍 5
3
🔥 2
💅 2
🤩 1
6 650

AI VK Hub

2.3K
Рассказываем и показываем AI в VK 🔉
Открыть в Telegram