Кучевые АйТи
@oblakoteka
Разметки на полях
Раньше все хотели вкатиться в ИТ, теперь хотят вкатиться в ИИ. Чтобы вам в этом помочь, пригласили спецов по большим данным из компании RCO. Они расскажут, в каких случаях нужно обучать нейросеть самостоятельно и как для этого подготовить данные.
Зачем самим обучать нейросеть?
Предобученные нейросетевые модели, как проприетарные, так и свободно распространяемые, хорошо решают определенные типовые задачи. К примеру, извлекают простые именованные сущности (упоминания людей, компаний), определяют тональность фрагмента текста (позитив/негатив).
Однако когда дело доходит до реальных бизнес-задач, часто оказывается, что предобученные модели не могут с ними справиться. Проблема в том, что они просто не обучались на данных, которые им предстоит анализировать. Тогда необходимо обучать нейросеть самостоятельно.
Почему обучение — это так сложно?
Для этого нужны большие массивы предварительно размеченных кем-то данных (обучающая выборка, датасет). Причем для многих задач необходимы выборки, исчисляемые сотнями тысяч, а то и миллионами элементов.
Для ряда типовых задач можно использовать свободно распространяемые датасеты. Например, если вы делаете нейросеть для анализа тональности отзывов о товарах в интернет-магазине, то можете бесплатно скачать датасет с предварительно размеченными отзывами с Озона/Вайлдбериз, и скорее всего, этого будет достаточно.
Что делать, если такого датасета нет?
Есть несколько вариантов:
Прибегать к ручной разметке. Делается это либо силами своих сотрудников, которым поручают взять массив документов и разметить определенным образом, либо заказать услугу разметки у специализированных компаний. Но это долго и дорого. Представьте себе, сколько человеко-месяцев уйдет на ручную разметку датасета из 100 тыс. документов.
В отдельных случаях можно еще попробовать создать «синтетический датасет», написав для этого соответствующую программу. Это массив заранее размеченных нереальных данных. Но в большинстве случаев затраты на создание такого датасета превышают затраты на разметку реального, да и качество будет хуже.
Использовать автоматизированные технологии — это более эффективно. В RCO есть набор продуктов и технологий, которые позволяют с достаточно высоким качеством (не уступающим современным нейросетевым моделям) анализировать текстовые данные, основываясь на лингвистическом подходе — синтактико-семантическом анализе, формальных правилах. Нам для разбора текста не нужны обучающие выборки, вместо них работают многочисленные словари, тезаурусы, правила, шаблоны.
Разумеется, наши решения в этой области не единственные на рынке. Существует несколько компаний, предлагающих подобные продукты, и некоторый набор open-source решений.
Как решается проблема с чувствительной информацией?
Нейросеть в данном случае ничем не отличается от любой другой информационной системы, работающей с персональными данными, конфиденциальной информацией. Требования здесь аналогичные. Как правило, вопрос решается либо развертыванием нейросетей локально (во внутреннем контуре заказчика), либо в облаке с соответствующей требованиям ИБ-инфраструктурой.
#искусственно_интеллектуально
Облакотека / Оставить «бусты»
Раньше все хотели вкатиться в ИТ, теперь хотят вкатиться в ИИ. Чтобы вам в этом помочь, пригласили спецов по большим данным из компании RCO. Они расскажут, в каких случаях нужно обучать нейросеть самостоятельно и как для этого подготовить данные.
Зачем самим обучать нейросеть?
Предобученные нейросетевые модели, как проприетарные, так и свободно распространяемые, хорошо решают определенные типовые задачи. К примеру, извлекают простые именованные сущности (упоминания людей, компаний), определяют тональность фрагмента текста (позитив/негатив).
Однако когда дело доходит до реальных бизнес-задач, часто оказывается, что предобученные модели не могут с ними справиться. Проблема в том, что они просто не обучались на данных, которые им предстоит анализировать. Тогда необходимо обучать нейросеть самостоятельно.
Почему обучение — это так сложно?
Для этого нужны большие массивы предварительно размеченных кем-то данных (обучающая выборка, датасет). Причем для многих задач необходимы выборки, исчисляемые сотнями тысяч, а то и миллионами элементов.
Для ряда типовых задач можно использовать свободно распространяемые датасеты. Например, если вы делаете нейросеть для анализа тональности отзывов о товарах в интернет-магазине, то можете бесплатно скачать датасет с предварительно размеченными отзывами с Озона/Вайлдбериз, и скорее всего, этого будет достаточно.
Что делать, если такого датасета нет?
Есть несколько вариантов:
Прибегать к ручной разметке. Делается это либо силами своих сотрудников, которым поручают взять массив документов и разметить определенным образом, либо заказать услугу разметки у специализированных компаний. Но это долго и дорого. Представьте себе, сколько человеко-месяцев уйдет на ручную разметку датасета из 100 тыс. документов.
В отдельных случаях можно еще попробовать создать «синтетический датасет», написав для этого соответствующую программу. Это массив заранее размеченных нереальных данных. Но в большинстве случаев затраты на создание такого датасета превышают затраты на разметку реального, да и качество будет хуже.
Использовать автоматизированные технологии — это более эффективно. В RCO есть набор продуктов и технологий, которые позволяют с достаточно высоким качеством (не уступающим современным нейросетевым моделям) анализировать текстовые данные, основываясь на лингвистическом подходе — синтактико-семантическом анализе, формальных правилах. Нам для разбора текста не нужны обучающие выборки, вместо них работают многочисленные словари, тезаурусы, правила, шаблоны.
Разумеется, наши решения в этой области не единственные на рынке. Существует несколько компаний, предлагающих подобные продукты, и некоторый набор open-source решений.
Как решается проблема с чувствительной информацией?
Нейросеть в данном случае ничем не отличается от любой другой информационной системы, работающей с персональными данными, конфиденциальной информацией. Требования здесь аналогичные. Как правило, вопрос решается либо развертыванием нейросетей локально (во внутреннем контуре заказчика), либо в облаке с соответствующей требованиям ИБ-инфраструктурой.
#искусственно_интеллектуально
Облакотека / Оставить «бусты»
👍 7
❤🔥 4
👌 3
5 447
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram