Кучевые АйТи (@oblakoteka): Разметки на полях Раньше все хотели вкатиться в ИТ, теперь хотят вкатиться в ИИ. Чтобы вам…

Разметки на полях

Раньше все хотели вкатиться в ИТ, теперь хотят вкатиться в ИИ. Чтобы вам в этом помочь, пригласили спецов по большим данным из компании RCO. Они расскажут, в каких случаях нужно обучать нейросеть самостоятельно и как для этого подготовить данные.

Зачем самим обучать нейросеть?

Предобученные нейросетевые модели, как проприетарные, так и свободно распространяемые, хорошо решают определенные типовые задачи. К примеру, извлекают простые именованные сущности (упоминания людей, компаний), определяют тональность фрагмента текста (позитив/негатив).

Однако когда дело доходит до реальных бизнес-задач, часто оказывается, что предобученные модели не могут с ними справиться. Проблема в том, что они просто не обучались на данных, которые им предстоит анализировать. Тогда необходимо обучать нейросеть самостоятельно.

Почему обучение — это так сложно?

Для этого нужны большие массивы предварительно размеченных кем-то данных (обучающая выборка, датасет). Причем для многих задач необходимы выборки, исчисляемые сотнями тысяч, а то и миллионами элементов.

Для ряда типовых задач можно использовать свободно распространяемые датасеты. Например, если вы делаете нейросеть для анализа тональности отзывов о товарах в интернет-магазине, то можете бесплатно скачать датасет с предварительно размеченными отзывами с Озона/Вайлдбериз, и скорее всего, этого будет достаточно.

Что делать, если такого датасета нет?

Есть несколько вариантов:

Прибегать к ручной разметке. Делается это либо силами своих сотрудников, которым поручают взять массив документов и разметить определенным образом, либо заказать услугу разметки у специализированных компаний. Но это долго и дорого. Представьте себе, сколько человеко-месяцев уйдет на ручную разметку датасета из 100 тыс. документов.

В отдельных случаях можно еще попробовать создать «синтетический датасет», написав для этого соответствующую программу. Это массив заранее размеченных нереальных данных. Но в большинстве случаев затраты на создание такого датасета превышают затраты на разметку реального, да и качество будет хуже.

Использовать автоматизированные технологии — это более эффективно. В RCO есть набор продуктов и технологий, которые позволяют с достаточно высоким качеством (не уступающим современным нейросетевым моделям) анализировать текстовые данные, основываясь на лингвистическом подходе — синтактико-семантическом анализе, формальных правилах. Нам для разбора текста не нужны обучающие выборки, вместо них работают многочисленные словари, тезаурусы, правила, шаблоны.

Разумеется, наши решения в этой области не единственные на рынке. Существует несколько компаний, предлагающих подобные продукты, и некоторый набор open-source решений.

Как решается проблема с чувствительной информацией?

Нейросеть в данном случае ничем не отличается от любой другой информационной системы, работающей с персональными данными, конфиденциальной информацией. Требования здесь аналогичные. Как правило, вопрос решается либо развертыванием нейросетей локально (во внутреннем контуре заказчика), либо в облаке с соответствующей требованиям ИБ-инфраструктурой.

#искусственно_интеллектуально

Облакотека / Оставить «бусты»

Обсуждение 0

Вход в экосистему

Ваши настройки cookie