17.12.2018
Для сохранения порядка внутри социальной сети, придумана такая роль, как модератор. Пользователь с правами модератора определяет, какой материал соответствует правилам Одноклассников, а какой их нарушает. Благодаря этим действиям, на сайте практически не получится встретить пропаганду насилия, рекламу наркотиков или прочие публикации схожего характера. В статье подробно рассмотрим деятельность модератора и опишем способ, помогающий ощутить себя в роли этого человека.
Содержание
Модератор – это участник социальной сети, который выполняет проверку публикуемых материалов, на соответствие действующим правилам. Так в публикациях не должно содержаться порнографии, сцен насилия, рекламы, спама, пропаганды наркотиков, призывов к расовым притеснениям и т. д.
Функцию модератора может выполнять как обычный пользователь Одноклассников, так и специально нанятые работники, обслуживающие деятельность сайта. Последние не только просматривают публикации, но также рассматривают жалобы, которые поступают на комментарии и прочие виды записей.
Если говорить об обычных пользователях, то они могут почувствовать себя в роли модератора в двух случаях:
Как можно догадаться с информации представленной выше, существует два варианта ощутить на себе роль модератора:
Именно второй вариант заслуживает подробного рассмотрения, поскольку в отношении группы каждый устанавливает свои правила и все варианты предусмотреть невозможно. В приложении же существует определенный набор действий, за выполнения которых начисляются баллы.
Найти приложение получится через поиск по социальной сети или путем перехода по прямой ссылке: https://ok.ru/app/moderator. Основная идея проверки фотографий и видеороликов заключается в заработке баллов. Накопленные очки можно потратить на аукционах. Там разыгрываются следующие платные функции: «Невидимка», возможность ставить оценку 5+, доступ ко всем наборам смайликов.
При первом запуске приложения будет предложено выбрать одно из трех возможных действий:
Справка. Проходить обучение касательно поиска номера телефона или текста потребуется только при первом запуске. В следующий раз получится приступить к модерированию без задержек.
В приложении весь функционал разделен на три основные вкладки:
Остановимся на первой вкладке и подробнее рассмотрим все доступные действия:
Модерация публикаций весьма интересное занятие, которое сопоставимо с просмотром новостной ленты. Выполняя несложные действия, получится заработать очки для участия в аукционах. Важно разобраться с правилами проверки, иначе при большом количестве ошибочных отметок будет наложен штраф с изъятием части накопленных баллов.
Разное
У социальной сети Одноклассники, как и у других интернет-ресурсов, где пользователи могут загружать любой контент, существует задача фильтровать изображения, нарушающие законы Российской Федерации и лицензионное соглашение самой площадки. Таким контентом в соцсети считается порнография в открытом доступе, а также сцены насилия, жестокости и прочие ужасные картинки.
Ежедневно в социальную сеть загружается более 20 миллионов картинок. Для того чтобы их проверить, наши инструменты на основе нейронных сетей автоматически фильтруют картинки определенных категорий. Однако часть контента мы пропускаем через ручную разметку, так как не всегда нейронная модель однозначно может определить, есть запрещенный контент на картинке или нет. Наш любимый пример пограничного контента — диван из разряда «показалось».
Кроме внутренней модерации, у нас создано игровое приложение «Модератор Одноклассников», где любой пользователь соцсети может обрабатывать поток изображений, разделяя фотографии на запрещенный контент и «хороший» – тот, что соответствует правилам соцсети. За каждое правильное решение модератор получает очки, которые потом может потратить на покупку внутренних платных услуг Одноклассников. Конечно, пользователям в приложении показываются только публичные и общедоступные изображения. Ниже пример скриншота приложения.
Разметка из приложения в дальнейшем используется для обучения нейронных моделей. А если кому-то будет интересно почитать о том, как мы геймифицировали разметку изображений, мы напишем об этом отдельную статью. 🙂
DAU (daily active users — количество уникальных пользователей за сутки) приложения «Модератор Одноклассников» скромное: около 40 тысяч. Это позволяет размечать 3—4 миллиона картинок в сутки. Задача, о решении которой мы расскажем ниже, заключалась в увеличении DAU. Ведь чем больше пользователей станет играть, тем больше картинок будет размечено.
Кроме того, мы договорились, что если в итоге новых пользователей мы привлечем не так много, но при этом заметно прибавится количество размечаемых изображений в сутки, то такой результат будет также положительным. Чтобы справиться с задачей, мы решили воспользоваться методами машинного обучения. Все описанные ниже классификаторы строились на Python c помощью scikit-learn.
Итак, перед нами стоит задача бинарной классификации пользователей. Разделить их на тех, кому приложение может понравиться, и тех, кого оно, скорее всего, не заинтересует. Начнем с подготовки обучающей выборки. Так как у нас есть статистика по пользователям приложения (приложение работает с 2014 года), выбираем их в качестве объектов обучения. Теперь определимся с двумя вещами:
Логично предположить, что если пользователю понравилось приложение, то играть он будет неоднократно. И наоборот, если приложение не приглянулось, вряд ли пользователь вернется после первой игры. Мы решили разделить пользователей по этому признаку следующим образом:
В результате у нас получился следующий размер обучающей выборки: около 133 000 заинтересованных и около 262 700 незаинтересованных пользователей.
Полдела сделано, пора выбирать признаки.
Для начала мы взяли такие обычные признаки, как пол и возраст. Затем мы начали рассуждать: что может мотивировать пользователя помогать нам модерировать запрещенный контент? Скорее всего, это категория людей, которые выступают против него в публичном доступе. Такие пользователи чаще, чем другие, нажимают кнопку «Пожаловаться». Поэтому следующим признаком мы взяли количество жалоб на контент.
Помимо «светлых» целей у человека может быть и небольшой корыстный интерес: получить бесплатно платную услугу за разметку картинок. Поэтому мы добавили признаки, связанные с покупкой услуг Одноклассников. И конечно, мы не могли не задаться вопросом, какие еще приложения пользователь запускал в Одноклассниках. Используя критерий хи-квадрат (метода фильтрации признаков chi-square test), мы отобрали наиболее значимые для классификации приложения, которые и стали нашими последними признаками.
В итоге у нас получился датасет из около 396 000 пользователей с 49 признаками. Датасет разделили на обучающую и тестовую выборку. Первую выборку использовали для обучения, а вторую — для сравнения следующих классификаторов: kNN, SVM, AdaBoost, RandomForest, DecisionTree, LogisticRegression, GradientBoostingClassifier.
У классификаторов есть собственные начальные параметры (например, количество соседей у kNN), от которых зависит их качество. Такие параметры подбирались для каждого классификатора на обучающей выборке с помощью кросс-валидации. Для этого использовались GridSearch и Stratified KFold из scikit-learn. Для обученных классификаторов с подобранными параметрами строились ROC-кривые (receiver operating characteristig) на тестовой выборке. После этого классификаторы сравнивались по AUC score (area under ROC-curve, площадь под ROC-кривой) соответствующих ROC-кривых. Чем выше данный показатель, тем более качественным считается классификатор. В итоге лучшим по AUC оказался классификатор GradientBoostingClassifier. Ниже показана его ROC-кривая по результатам обучения.
Получившийся классификатор мы протестировали на 500 000 случайных пользователей. После чего отфильтровали их по активности в социальной сети, возрасту (наше приложение имеет рейтинг 18+) и получили 3949 кандидатов. Кандидатам внутри Одноклассников разослали пуши с приглашениями попробовать наше приложение.
За неделю с момента рассылки пушей в приложение зашли всего 59 человек (1,5 % общего количества кандидатов). Результаты оказались, мягко говоря, далеки от желаемых.
Тем не менее 59 новых пользователей за неделю обработали около 19 000 изображений, так что мы не отчаялись и решили предпринять вторую попытку.
При второй попытке мы решили изменить подход к разделению пользователей на два класса. Основной упор сделали на увеличение количества обработанных изображений. На базе такого критерия мы выделили заинтересованных пользователей, которые играют постоянно и размечают более 6000 изображений за неделю.
Мы выгрузили данные за неделю и получили новый размер обучающей выборки: около 4400 заинтересованных пользователей, около 7740 незаинтересованных (менее 5 размеченных изображений) и около 106 630 пользователей, проверивших от 5 до 6000 изображений.
В датасет добавили новые признаки: факт заполнения профиля (семейное положение, школа, вуз, место работы), карма пользователя: добавляли ли его в черный список, жаловались ли на его контент, а также активность в социальной сети: создание постов, «классы», комментарии к контенту других пользователей.
Также мы добавили сведения о том, какие приложения пользователь открывал за последний месяц (ведь со временем вкусы человека могут меняться, а нам интересно текущее положение вещей).
Собрав новый датасет, мы решили посмотреть на наиболее значимые признаки. Часть из них оказалась подозрительно хороша. Например, распределение признака «оценки фотографии» между категориями пользователей выглядело следующим образом.
На графике по оси Х — количество оценок фото за неделю, а по оси Y — доля пользователей из соответствующей категории, которые поставили Х оценок. Дело в том, что интерфейс нашего приложения (на скриншоте столбик оценок справа) позволяет игроку в том числе ставить оценки проверяемым фото во время разбора картинок, чем и объясняется полученный график.
В связи с этим мы решили убрать данный и схожие подозрительные признаки из выборки. А вот по возрасту, например, получилась более интересная картина (см. график ниже), поэтому возрастные критерии были оставлены.
На графике по оси Х — возраст пользователей, а по оси Y — доля поля пользователей с возрастом Х в соответствующей категории. Повторив обучение на новом наборе данных, мы получили следующую ROC-кривую для лучшего классификатора.
По сравнению с первым заходом AUC уже выглядело более привлекательным, и мы перешли к полевым испытаниям.
В этот раз из случайного подмножества пользователей, отфильтрованных по активности и возрасту, наша модель отобрала 60 000 потенциальных кандидатов. Также для получения сравнительных статистических данных дополнительно случайным образом выбрали еще 60 000 пользователей.
В результате нотификация с предложением опробовать наше приложение была отправлена 60 000 кандидатам от модели и 60 000 случайным пользователям. Спустя неделю статистика показала, что в приложение зашли 5056 человек, то есть около 4 % из 120 000 получателей пушей. Посмотрим, кого из них выбрал классификатор, а кто попал благодаря всемогущему рандому:
Вторая модель привлекла в два раза больше пользователей, чем рандомная рассылка. Точно так же дело обстоит и с количеством обработанных изображений: пользователи, привлеченные моделью, размечали в 2—2,5 раза больше картинок.
Также стоит отметить, что часть пользователей, выбранных моделью, начали играть каждый день, в то время как пользователи из рандомной выборки к концу недели почти перестали заходить в игру.
Что мы вынесли для себя по итогам создания и испытания модели:
По словам главного операционного директора Кори Леви, спустя почти четыре месяца After School, приложение для анонимного обмена сообщениями, предназначенное специально для старшеклассников, было восстановлено в App Store.
Приложение After School было заблокировано в App Store в декабре за нарушение нескольких правил App Store, включая категории «личные нападки» и «нежелательный контент».
Учащиеся, которые могут использовать After School для анонимных сообщений своим одноклассникам, использовали приложение, чтобы запугивать друг друга; в первый месяц существования приложения сообщалось о множественных угрозах огнестрельным оружием.
С тех пор After School встроила в приложение множество функций безопасности, чтобы попытаться предотвратить такое поведение.
Самой жесткой из этих мер безопасности является человеческая умеренность. Каждый пост, отправленный в приложение, теперь должен быть одобрен модератором-человеком, прежде чем кто-либо еще сможет его увидеть, сказал Леви Re/code в прошлом месяце.
After School платит сторонней компании за модерацию. По словам Леви, до того, как приложение было запрещено в App Store, студенты публиковали сообщения не реже одного раза в минуту и до тысячи раз в час в часы пик. Модерация поста в минуту может работать на данный момент, но если After School продолжит расти, будет интересно посмотреть, сможет ли ее стратегия модерации масштабироваться вместе с ней.
До того, как After School была удалена из App Store, она пользовалась большим успехом среди американских подростков. За первый месяц его скачали более 100 000 человек из более чем 14 000 средних школ. Затем приложение было заблокировано, что остановило этот рост.
Но в прошлом месяце Леви сказал, что его не беспокоит потеря потенциальных пользователей. Студенты месяцами писали ему по электронной почте и писали в Твиттере, спрашивая, когда он вернется.
«Люди хотят того, чего не могут иметь», — сказал он.
Вы можете скачать приложение в App Store здесь. Версии для Android сейчас нет.
Первоначально эта статья появилась на Recode.net.
Помогите нам отпраздновать девять лет Vox
С момента запуска Vox в 2014 году наша аудитория поддержала нашу миссию многими значимыми способами. Более 80 000 человек ответили на просьбы помочь с нашими отчетами. Бесчисленное количество учителей рассказали нам о том, как они используют нашу работу в своих классах. И за три года, прошедшие с тех пор, как мы запустили программу Vox Contributions, десятки тысяч людей внесли свой вклад, чтобы помочь сохранить нашу уникальную работу бесплатной. Мы стремимся к тому, чтобы наша работа была бесплатной для всех, кто в ней нуждается, потому что мы считаем, что высококачественная объяснительная журналистика является общественным благом. Мы не можем полагаться только на рекламу, чтобы сделать это. Поможете ли вы сохранить Vox бесплатным в течение следующих девяти лет, сделав подарок сегодня?
Один раз Ежемесячно Ежегодный
95 долларов в год
120 долларов в год
250 долларов в год
350 долларов в год
ДругойДа, дам 120 долларов в год
Да, дам 120 долларов в год
Мы принимаем кредитные карты, Apple Pay и Google Pay. Вы также можете внести свой вклад через
ПОЗНАКОМЬТЕСЬ С РАЗРАБОТЧИКОМ
Нажмите, чтобы познакомиться с подростком, соавтором Trill Project, поддерживающей социальной сети.
Интернет не известен как безопасное и позитивное место. Когда начинающему разработчику Ариане Соколов было 17 лет, она решила это изменить.
Она является одним из трех создателей Trill Project , анонимной социальной сети, созданной для того, чтобы люди могли свободно и, прежде всего, безопасно выражать свои мысли.
Во время участия в программе, поощряющей девочек создавать приложения, решающие социальные проблемы, Соколову пришла в голову идея создать пространство для пользователей ЛГБТК+. «Моя подруга была бисексуалкой и поделилась со мной тем, как трудно было признаться», — говорит она. Trill Project не имеет имен пользователей (вместо них используются броские цвета). Его модераторы поддерживаются проприетарными алгоритмами.
Теперь студентка Университета Южной Калифорнии Соколова рассказывает, как она случайно увлеклась программированием и почему машинное обучение может сделать Интернет более безопасным для всех.
Trill Project — это анонимная, но поддерживающая социальная сеть.
Как вы пришли к программированию?
Когда мне было 8 лет, я должен был заниматься фотографией в летней школе. Я пошел в компьютерный класс, потому что думал, что там был класс. Это была полная случайность, но все получилось отлично.
Что было самым трудным или пугающим — и как вы это преодолели?
Задавая вопросы. Когда я только начинала, было не так много программ для девочек. Я думал, что задавая вопросы, я буду казаться, что я не принадлежу к миру технологий. Я преодолел это на WWDC. Я посетил массу лабораторий и разговаривал с людьми. Это заставило меня понять, что даже у экспертов и профессионалов есть вопросы и они не знают всего.
Дело не только в том, как приложения выглядят или функционируют, а в том, какие чувства они вызывают у людей.
Что вы находите в этом наиболее ценным?
У меня есть несколько нарушений обучаемости — дислексия и расстройство исполнительной функции, которые часто встречаются у людей с СДВГ. Компьютеры были очень большой частью моей жизни с самого раннего возраста, потому что они помогли мне справиться с этим. СДВГ помогает мне сосредотачиваться, поэтому программирование пришло ко мне сверхъестественно. У меня было внимание, чтобы действительно исправить ошибки. Было приятно иметь что-то, в чем я был хорош от природы.
Программирование действительно научило меня организовывать себя. Необходимость вести документацию, планировать переменные — все это помогало мне организовывать учебу и жизнь.
Какие другие действия больше всего похожи на программирование и почему?
Арт. Я люблю цифровое искусство, Claymation, монтаж видео, графический дизайн и даже украшаю свою комнату. LLVM и Xcode идеально сочетают дизайн и технологии. Дело не только в том, как приложения выглядят или функционируют, а в том, какие чувства они вызывают у людей. Создавая эти приложения, вы можете вызвать положительные эмоции у других или заставить их почувствовать, что они могут открыться и найти безопасное место. Я думаю, что искусство действительно помогло мне в этом.
Здесь нет имен пользователей; выберите цвет, чтобы идентифицировать себя (слева). Модераторы и алгоритмы внимательно следят за содержанием.
Как ваши друзья и одноклассники отреагировали на ваше приложение?
Я ходил в среднюю школу, в которой была довольно мощная программа по информатике. В клубе Girls Who Code, которым я руководила, было около 50 членов. Поэтому люди говорили: «Это так круто» или «Как ты это делаешь?» Когда я учился на втором курсе старшей школы, у нас оставался примерно месяц до конца учебного года после окончания нашего класса AP Computer Science. Группа студентов спросила, могу ли я провести урок по Swift.
Какой совет вы можете дать студентам, которые только начинают заниматься программированием?
Проверьте Swift Playgrounds. Кроме того, особенно на GitHub, есть действительно крутые игровые площадки — интересно открывать части кода, которые вы обычно не видите. Новые программисты должны проверить это и понять, что кодирование может принимать очень разные формы. Даже если это не то, что вы делаете для своей карьеры, вы можете чему-то научиться.
Какую проблему вы больше всего хотели бы решить с помощью технологий?
Это то, что мы пытаемся сделать с помощью программы Trill — создать более безопасный Интернет для всех. Мы интегрируем алгоритмы машинного обучения, обученные на основе сообщений, которые указали модераторы, чтобы показать, что кто-то может планировать причинить вред себе, кто-то причиняет вред пользователю или пользователь причиняет вред кому-то другому. Мы создали для наших модераторов способы обработки этих сообщений, но алгоритмы машинного обучения помогли сделать этот процесс намного эффективнее, поэтому мы можем помочь большему количеству людей.
Об авторе