Дата-сторителлинг: как данные помогают рассказывать истории

НачалоЧто такое дата-сторителлингЧем занимаются дата-сторителлерыСоветы и помощь новичкам

Дата-журналист, аналитик команды Исследований Яндекса Алексей Смагин рассказал, что такое дата-сторителлинг и какие навыки нужны новичку.

Как дата-сторителлер я изучаю мир через данные и пытаюсь интересно рассказать об этом как можно более широкой аудитории, чтобы люди делились друг с другом и говорили: смотри, какая крутая штука. Это часто какие-то познавательно-развлекательные, иногда — общественно значимые истории.

Я бы хотел рассказать о нескольких классных работах, которые обожаю.

Про карманы в женских и мужских джинсах. Первая работа создана изданием The Pudding. Авторы провели исследование: взяли 80 пар мужских и женских джинсов, в которых вручную измерили размеры карманов, а потом сравнили полученные данные. В среднем карманы в мужских джинсах на 40% больше, чем в женских.

В исследовании также есть интерактив: вы можете выбрать разные предметы, например последний айфон, блокнот или ручку, и попробовать поместить их в разные модели джинсов. Инфографика покажет, влезают ли эти вещи в карманы или нет. Меня поразило, что женская рука не помещается в большинство моделей женских джинсов.

Источник: The Pudding

Про стареющее население. В 2023 году издание The New York Times опубликовало историю, в которой сказано, что основной драйвер экономики — трудоспособное население, когда оно не занято детьми. Также есть категории, которые особо не могут работать или не работают, например мамы маленьких детей и пенсионеры. В 1990-е годы в Европе было очень много трудоспособного населения, которое помогало расти экономике. А согласно прогнозу авторов работы, в 2050 году в Европе будет очень много пенсионеров, а основное трудоспособное население сосредоточится в Азии.

Источник: The New York Times

Это говорит о том, что мир скорее всего будет сильно меняться. В этом материале авторы задаются вопросом: как будет использовано данное преимущество?

Женщины часто претендуют на более низкие зарплаты, чем мужчины. К этому материалу причастен я — он выходил в Тинькофф Журнале, когда я там работал. Мы изучали разрыв в зарплатах мужчин и женщин и обратились за данными к hh.ru. Они дали обезличенные резюме, отклики на вакансии и данные о том, на какие зарплаты откликались люди. Мы показали срезы по зарплатам и написали, в каких сферах и как сильно различается оплата труда у мужчин и женщин.

Обычно мы представляем дискриминацию как занижение зарплат женщин по сравнению с мужчинами. На самом деле всё не так просто. Возьмём ситуацию, когда сами соискатели выбирают зарплаты, и поделим вакансии по этим зарплатным срезам. Если посмотрим на каждом зарплатном срезе долю мужчин и женщин, то увидим, что на вакансии с низкой оплатой — 15 000–30 000 ₽ — откликается большая доля женщин, примерно 70% от общего числа. И чем больше становится зарплата, тем сильнее снижается доля женщин.

Источник: Тинькофф Журнал

Я задался вопросом: почему это происходит и есть ли связь с отраслями? Например, мы знаем, что в IT среди программистов мало женщин, а программистам много платят. Может быть, имеет смысл посмотреть по срезам, по отраслям? Но обнаружил, что эта тенденция наблюдается почти в каждой сфере. То есть мы везде видим, что чем больше зарплата, тем ниже становится фиолетовая линия — доля женщин снижается. Получается, есть гораздо больше причин, которые мешают женщинам много зарабатывать. Например, им приходится заниматься детьми, они отстают по карьере и после выхода из декретного отпуска претендуют на более низкие позиции.

Навыки, необходимые дата-сторителлеру. Над такими исследованиями может работать целая команда, и необходимые навыки могут быть разными. Нужно уметь анализировать данные в самой базовой форме — посчитать в Excel или написать код, который их обработает. Потом сделать красивую инфографику, то есть необходим дизайнер. Если требуется сделать интерактив, понадобится фронтенд-разработчик. Также нужен редактор, который поговорит с экспертом, выстроит логику материала и напишет текст. Иногда все эти роли могут совмещаться в одном человеке. Например, я по чуть-чуть могу делать всё, но в своей команде я аналитик.

Я с детства хотел быть разработчиком мобильных игр, поэтому учился программированию и поступил в технический вуз. Тяга к играм пропала, но к тому моменту появилось ещё одно увлечение — медиа. Я был главным редактором студенческой газеты, до этого делал журнал «Правильные игры», мне нравилось быть в СМИ и писать тексты. Как-то в научно-популярном журнале «Кот Шрёдингера» прочитал, что есть хакатон по дата-журналистике. Подумал: вау, это отрасль, в которой кодят и можно писать тексты — всё то, чем я занимаюсь. Именно поэтому стал активно интересоваться этим.

Откуда мы берём данные:

  • Открытые общедоступные данные — например, статистика на сайте Росстата, порталы открытых данных разных ведомств.
  • Доступные данные в интернете: можно зайти на любой сайт и написать скрипт, который выгрузит для вас всю информацию.
  • В Яндексе это данные сервисов: например, Такси, Лавка, Маркет. Сервисы, у которых мы берём данные, сами занимаются фильтрацией от фейков. К нам попадают хорошие данные без спама, которые мы можем анализировать.

Примеры рабочих проектов. Первое исследование Яндекса появилось в 2008 году. Мы работаем на пиар компании: делаем классные виральные штуки, которые все друг другу показывают, но при этом упоминаем сервисы Яндекса.

Истории могут быть совершенно серьёзные. Например в коронавирус был проект «Индекс самоизоляции». Тогда наши аналитики смотрели активность в геосервисах Яндекса и сравнивали с допандемийной. Таким образом было видно, насколько города ожили после коронавируса, это даже показывали на главной странице Яндекса.

Бывают менее строгие истории — например, про русский язык. Рассказывали, какие уникальные слова есть в каждом регионе или как изменилась речь — какие слова вышли из употребления, а какие появились. Использовали внешний набор данных — сервисы Яндекса и старые письма, которые писали люди.

Есть совсем развлекательные истории. Моя любимая — «Фильм, в котором». В нём были поисковые запросы про фильмы, названия которых люди не могли вспомнить.

Альтернативные постеры на основании запросов зрителей. Источник

Оказывается, с помощью таких запросов можно изучать киновселенную, потому что в них упоминаются название жанра и страна. Мы можем искать сочетание «жанр + персонажи, которые в нём появляются» или «страна + глаголы».

По результатам данных поиска Индия в кино — страна танцев, песен и крокодилов. Источник

Или, например, было исследование про русский рэп на основании данных Яндекс Музыки. Брали тексты и пытались найти рэперские и нерэперские слова. Например, междометия или прилагательные, которые появляются в рэперских и нерэперских текстах. Или животные: в рэпе наиболее популярны «зая» и «псина», а в песнях других жанров — «соловей», «журавль».

Результаты на скрине цензурированы, потому что в них есть мат. Источник

Ещё в исследовании была карта рэперов с их фотографиями. Рэперы были расположены по близости лексикона, то есть чем ближе на карте находились исполнители, тем более похожая лексика у них в треках.

Откуда мы берём идеи для исследований:

  • Искренний интерес — допустим, мы обсуждаем что-то и накидываем идеи
  • Поисковые запросы, при изучении которых мы видим что-то любопытное, какой-то паттерн повторяется
  • Приоритетные темы, которые нам предлагает пиар-отдел

Идею хорошо продавать через визуализацию. Наш отдел не привлекают для иллюстрирования идей для бизнеса, но лично я по своей инициативе помогаю отсматривать презентации на главном выступлении, которое проходит каждую неделю в Яндексе.

Неинтересные обязанности в работе. В каждом исследовании есть часть работы, которая меня не сильно зажигает. Люблю что-то придумывать, исследовать, разрабатывать идею визуализации, но мне не очень нравятся рутинные процессы. Например, разбираться в сложных данных и как-то трансформировать их.

Петропроекты. Веду блог в Telegram, в котором пишу про дата-журналистику. Там есть примеры работ, например, The New York Times и Bloomberg. Делаю это больше для вдохновения — показать, какие крутые работы делают другие люди, но также там есть обучающие материалы.

Сам не знаю, откуда беру силы для ведения канала. Частота постинга бывает разной, как правило, я публикую что-нибудь хотя бы пару раз в неделю. Мне кажется, это меня развивает. Смотрю на чужие классные работы, запоминаю их и потом на планёрках предлагаю сделать что-то похожее. Если я прочитал статью, мне обычно несложно написать о ней.

На отдельные проекты очень редко хватает времени, но я недавно написал песню про эмиграцию. Мы выгрузили с Авито все объявления, в которых люди продавали что-то в связи с переездом в другую страну, и показали в виде картинок. Меня больше всего тронуло объявление «Самый лучший в мире пёс».

С чего начать новичку. Сейчас дата-отделы есть во многих крупных медиа: например, в ТАСС есть студия инфографики, в Тинькофф Журнале есть отдел по работе с данными. Кроме того, дата-журналисты есть в крупных компаниях: Яндекс, банк «Точка». Любая крупная компания может заказать себе такое исследование, потому что круто так представлять данные и рекламировать себя таким образом.

Мне кажется, для начала надо развивать насмотренность, то есть смотреть на разные примеры работ и думать о том, как это сделано, откуда брали данные, почему это цепляет, что здесь интересного. Дальше нужно понять, чем конкретно вы хотите заниматься.

Есть четыре основных направления. Вы можете:

  • Делать дизайн
  • Анализировать данные
  • Писать тексты на основании данных
  • Делать интерактивы

Когда вы определитесь с выбором направления, прокачивайте себя именно по этому треку. В случае анализа данных смотрите лекции по анализу данных, если вы выбрали дизайн, то по дизайну.

Кроме этого, нужны специализированные навыки, чтобы понимать, как конструировать дата-истории. Курсов, которые обучают этому, не так много. Я учился в Высшей школе экономики в магистратуре по направлению «Дата-журналистика». В интернете можно найти отдельные курсы по дата-сторителлингу.

Я не читал книги по сценаристике и люблю черпать знания из отдельных материалов в интернете. В студенческие годы был большим фанатом Максима Ильяхова: читал его рассылку, тогда ещё только появилась книга «Пиши, сокращай».

Из каких профессий легче всего перейти в дата-сторителлинг. Очень близко находятся аналитики, которым нужно только прокачаться в сторителлинге. Часто люди приходят из журналистики. На самом деле это может быть кто угодно — например, со мной в магистратуре учился историк.

Где новичку брать стартовые данные, чтобы подготовить проект для портфолио:

  • Данные Росстата
  • Портал fedstat.ru
  • Порталы открытых данных — можно поискать «открытые данные», указать ведомство и город и попытаться что-нибудь найти
  • Портал открытых данных Минкультуры
  • Портал открытых данных Москвы
  • Worldbank

Как новичкам оценить итоговый результат своей работы. Прежде всего вам самим должно быть интересно то, о чём вы рассказываете. Также это должно быть понятно максимально широкой аудитории. Не так, что вы сделали график и только вы понимаете, что на нём происходит.

Иногда есть сомнительные источники, когда непонятно, как получили эти данные. Желательно пользоваться достоверными данными и как минимум указывать источник, а как максимум думать, можете ли вы доверять этой информации.

Карьерный трек развития у того, кто занимается дата-сторителлингом. Мне сложно однозначно сказать об этом, потому что я работал в разных изданиях. Сначала был стажёром в дата-отделе РБК, потом участвовал в хакатонах, попадал в небольшие дата-отделы, набирал ещё больше знаний и прокачивал себя в области визуализации, учился делать интерактивы.

Мне кажется, что дальше можно расти в начальника. Или добирать знания и углубляться в них как специалист: больше знать в аналитике, ещё круче делать дизайн, брать на себя больше ответственности в проектах.

В дата-сторителлинг стоит идти, чтобы узнавать новое о мире.

Поделитесь увиденным

Скопировать ссылку
ТелеграмВКонтакте