диаграмма почему вы все не правы
Некорректные диаграммы: наш опыт
Мы в журнале The Economist очень серьёзно относимся к визуализации данных. Каждую неделю у нас публикуется около 40 графиков в печатной и онлайновой версиях, а также в приложениях. Мы везде стремимся точно представить цифры, чтобы они лучше всего иллюстрировали тему. Но иногда допускаем ошибки. Важно усвоить эти уроки, чтобы не повторять ошибки в будущем. Наверняка наш опыт окажется полезен и для вас.
Погрузившись в архивы, я нашла несколько поучительных примеров. Преступления против визуализации данных сгруппированы по трём категориям. Это графики, которые:
Графики, которые вводят в заблуждение
Начнём с худшего из преступлений: представление данных таким образом, что они вводят в заблуждение. Мы никогда специально так не делаем! Но иногда это происходит. Рассмотрим три примера из нашего архива.
Ошибка: усечение шкалы
(данные в csv)
Этот график показывает среднее количество лайков Facebook на страницах левых партий. Цель диаграммы состояла в том, чтобы показать разницу в лайках постов господина Корбина и других.
Оригинальный график не только преуменьшает количество лайков Корбина, но и преувеличивает показатели для других участников (вот ещё один пример такой ошибки). В переработанной версии столбец мистера Корбина указан полностью. Все остальные столбцы по-прежнему видимы.
Ещё одна странность — выбор цвета. В попытке подражать цветовой гамме лейбористов мы использовали три оттенка оранжевого/красного, присвоенные 1) Корбину, 2) другим депутатам и 3) партиям/группам. Это нигде не объясняется. Хотя логика может быть очевидна для многих, но она имеет мало смысла для тех, кто не очень знаком с британской политикой.
Ошибка: эффект взаимосвязи за счёт подгонки шкал
Редкий пример идеальной корреляции? Вообще-то нет (данные в csv)
Вышеприведённый график из статьи о снижении веса собак. На первый взгляд кажется, что вес и окружность шеи собаки прекрасно коррелируют. Но правда ли это? Только до некоторой степени.
На графике обе шкалы уменьшаются на три единицы (с 21 до 18 слева; с 45 до 42 справа). Но в процентном выражении левая шкала уменьшается на 14%, а правая — на 7%. В переработанной диаграмме я сохранила двойную шкалу, но скорректировала диапазоны, чтобы отразить сопоставимое пропорциональное изменение.
Учитывая весёлую тему этой диаграммы, ошибка может показаться относительно незначительной. В конце концов, смысл одинаковый в обеих версиях. Но важен вывод: если два графика слишком близко друг к другу, вероятно, нужно внимательнее посмотреть на шкалы.
Ошибка: неправильный метод визуализации
Мнения о Brexit почти так же неустойчивы, как и переговоры о нём (данные в csv)
Мы опубликовали эту диаграмму с данными опроса в нашем новостном приложении Espresso. Она показывает отношение к результатам референдума ЕС в виде линейного графика. Судя по данным, респонденты сильно колеблются в своих взглядах: результаты скачут на несколько процентных пунктов.
Вместо сглаженной кривой для отображения тренда мы указали фактические значения каждого опроса. Это произошло прежде всего потому, что наш инструмент построения графиков не умел строить сглаженные линии. Только недавно мы освоили более продвинутые программы для обработки статистических данных (например, R) с более сложными методами визуализации. Сегодня любой может построить сглаженную кривую для опросов, как улучшенный вариант вверху.
Тут ещё можно отметить нарушение шкалы. Исходная диаграмма разбрасывает данные шире, чем следует. В переработанной версии я добавила немного пространства между началом шкалы и минимальной точкой данных. Фрэнсис Ганьон предлагает хорошую формулу для таких ситуаций: оставляйте свободной минимум 33% площади под линейным графиком, который не начинается с нуля.
Графики, которые сбивают с толку
Не такое серьёзное преступление, как введение в заблуждение, но если график трудно понять — это признак плохо выполненной работы по визуализации.
Ошибка: слишком заумные диаграммы
… что? (данные в csv)
Журналисты The Economist стремятся в хорошем смысле озадачить читателя. Но иногда мы заходим слишком далеко. На диаграмме вверху показан торговый дефицит США по товарам и число людей, занятых в обрабатывающей промышленности.
Эту диаграмму невероятно трудно понять. У неё две основные проблемы. Во-первых, значения одного ряда (торговый дефицит) полностью отрицательные, в то время как другие (занятость в обрабатывающей промышленности) положительные. Сложно объединить такие разные данные в одной диаграмме. Очевидное «решение» приводит ко второй проблеме: два ряда данных не имеют общей базовой линии. Базовая линия торгового дефицита находится в верхней части графика (выделена красной линией, проходит через половину графика). Базовая линия правой шкалы находится внизу.
Переработанная диаграмма показывает, что не было никакой необходимости объединять два ряда данных. Взаимосвязь между торговым дефицитом и занятостью в обрабатывающей промышленности остаётся ясной и занимает лишь чуть больше места.
Ошибка: запутанные цвета
50 оттенков синего (данные в csv)
На этой диаграмме сравниваются государственные расходы на пенсионные пособия с долей людей старше 65 лет в ряде стран, с особым упором на Бразилию. Чтобы не раздувать диаграмму, визуализатор подписала только некоторые страны и выделила их голубым. Средний показатель по ОЭСР выделен светло-голубым.
Визуализатор (это была я!) проигнорировала тот факт, что изменение цвета часто подразумевает изменение категории. Здесь тоже у читателя может появиться такая мысль, что все синие страны как будто принадлежат к другой группе, чем голубые. Это не так. Единственное отличие — они просто не подписаны.
В переработанном варианте цвет одинаков для всех. Я изменила только интенсивность для подписанных стран. Всё остальное делает типографика: Бразилия, страна фокуса, подписана жирным шрифтом, а средний показатель ОЭСР — курсивом.
Диаграммы, которые не могут довести смысл
Ошибки в этой последней категории менее очевидны. Подобные диаграммы не вводят в заблуждение и не очень сбивают с толку. Они просто не могут оправдать своё существование. Или их неправильно построили, или мы пытались втиснуть слишком много информации в слишком маленькое пространство.
Ошибка: слишком много деталей
«Чем больше цветов, тем лучше!» (данные в csv)
Настоящая радуга! Мы опубликовали эту диаграмму в колонке о бюджетном профиците Германии. Она показывает баланс бюджета и текущий баланс десяти стран зоны евро. С таким количеством цветов — некоторые из которых довольно трудно различить или даже увидеть, потому что значения слишком малы — смысл диаграммы сложно понять. Это почти блокирует мозг, заставляя читателя пропустить график и двигаться дальше. И, что более важно, поскольку мы не приводим цифры по всем странам Еврозоны, нет никакого смысла складывать данные.
Я перечитала статью, чтобы найти вариант упрощения диаграммы. В тексте упоминаются Германия, Греция, Нидерланды, Испания и Еврозона. В переработанной версии диаграммы я решила выделить только их, а остальных поместила в категорию «Другие» (общий баланс текущего счета на переработанной диаграмме меньше, чем на исходной диаграмме, из-за пересмотра данных Евростатом).
Ошибка: много данных, мало места
Я сдаюсь (данные в csv)
Ограниченные пространством на странице, мы часто испытываем соблазн загнать все данные в слишком маленький слот. Хотя это экономит ценное место на странице, но есть и последствия, как видно на этом графике от марта 2017 года. Это график к статье о том, что мужчины доминируют в науке. Все позиции одинаково интересны и актуальны для статьи. Но, такое количество данных трудно усвоить: здесь указаны четыре категории областей исследования, а также доля авторов патентов в каждой стране.
Поразмыслив, я решила не изменять эту диаграмму. Если сохранить все данные, диаграмма будет слишком большой для маленькой статьи. В таких случаях лучше что-нибудь вырезать. В качестве альтернативы можно показать некий средний показатель: например, среднюю долю статей женщин во всех областях. (Пожалуйста, дайте знать, если у вас есть идеи, как визуализировать это в тесном пространстве!)
Лучшие практики быстро развиваются: что приемлемо сегодня, осудят завтра. Всё время появляются новые и более совершенные методы. Вы когда-нибудь совершали «инфографическое преступление», которое можно легко исправить?
Худшая диаграмма на свете
А мы тут запускаем очередной поток курса «Разработчик JavaScript» и, по рекомендации преподавателей, готовим интересные материалы для чтения. Сегодня посмотрим на одну интересную заметку о визуализации вывода данных.
Круговая диаграмма — самый ужасный способ передачи информации, когда-либо изобретенный за всю историю визуализации данных.
Конечно, существуют и более неудобные методы. Но ни один из них не обладает популярностью и доверием в той же степени, что и круговая диаграмма.
Давайте, я объясню, что с ней не так, и почему вам необходимо перестать использовать ее как можно скорее.
Сперва, поговорим о том, зачем мы вообще используем диаграммы:
Посмотрим, насколько плохо она справляется с единственной задачей, для которой она якобы создана. Посмотрите на эти три круговые диаграммы. Предположим, они отражают распределение голосов на местных выборах между пятью кандидатами в трех разных интервалах наблюдения A, B и C:
Открытый источник/ Wikipedia
Итак, что мы можем извлечь из этой информации? Поскольку эти доли голосов, которые получил каждый из кандидатов, читателю должно быть легко понять, что происходит в гонке. Но это не так. Показывает ли кандидат 5 лучшие результаты, чем кандидат 3? Кто показал лучший результат за время A и B — кандидат 2 или кандидат 4? У кого в гонке наибольший моментум?
Так если задача — сделать информацию проще для понимания, насколько вам помогли эти диаграммы? Действительно, если бы я просто дал вам таблицу со значениями голосов, не было бы это проще для восприятия информации?
Но пока посмотрим на ту же самую информацию, представленную в виде гистограммы:
Теперь гораздо понятнее. Мы с первого взгляда можем понять, что именно происходит с каждым из кандидатов в каждый промежуток времени гонки. Эта гистограмма гораздо четче выделяет части целого, чем круговая диаграмма, несмотря на то что это ее основная задача.
Посмотрим теперь на другой недостаток круговой диаграммы, который связан с тем, что люди на самом деле не понимают круги.
Ниже изображена круговая диаграмма с распределением партий Европейского парламента:
Основной вопрос — можем ли мы сравнить доли, чтобы выявить различия размеров всех частей диаграммы? Если единственное, что мы пытаемся узнать, что EPP больше, чем S&D, то какой смысл в диаграмме? Я мог бы понять это, просто посмотрев на два числа. Нет, диаграмма полезна только в том случае, если мы можем сравнить все ее элементы друг с другом.
Ниже представлены отдельные доли, для сравнения вырванные из контекста. Посмотрите на них, и подумайте, можете ли вы расставить их по порядку от наибольшего к наименьшему.
Люди вообще плохо умеют сравнивать доли круга, когда речь идет о размере.
Именно поэтому вы могли считать тригонометрию и радианы гораздо сложнее обычной геометрии прямоугольников.
Это не плохо, но такое стоит иметь в виду, когда пытаетесь сформулировать информацию наиболее исчерпывающим и доступным способом. Вот те же данные, но в виде столбчатой диаграммы:
Обратите внимание, что вы можете сравнить каждую партию с любой другой партией.
Просто сравнивните длины прямоугольников, чтобы понять, что происходит.
При большом желании, вы могли бы заменить левую ось на проценты, чтобы узнать распределения внутри парламента. Сейчас же вы можете посмотреть, сколько мест отведено каждой из партий — такой информации изначально не было представлено на круговой диаграмме.
А теперь, посмотрим, как легко можно манипулировать круговыми диаграммами.
Вот те же самые данные, что и выше, но теперь в виде 3D Круговой Диаграммы:
Люди постоянно этим пользуются, потому что трехмерная круговая диаграмма, расположенная под углом — отличный способ обмануть вас. Взгляните на диаграмму, S&D — красная партия — выглядит примерно равной партии EPP сине-зеленого цвета. Но такое впечатление создается лишь потому, что я исказил перспективу, создав впечатление, что красный большой.
Это настолько просто, что даже немного стыдно, что Excel позволяет делать такое.
Ниже представлен еще один пример недостатка круговой диаграммы. На самом деле, 10% мужчин, читающих эту статью, даже не поймут, о чем идет речь.
Красно-зеленый дальтонизм у мужчин
Самые элегантные диаграммы не требуют маркировки данных. Чтобы донести мысль, посторонние числа не требуются. А если требуются, вы используете не ту диаграмму.
Итак, сделаем выводы:
Business Insider, данные из Детройта
Оплаченные и неоплаченные налоги на недвижимость в Детройте, 2011
То есть, если подумать, единственное, в чем они хороши, единственный способ использования — показать людям, как выглядят доли. Единственная задача диаграммы выше — показать, как выглядит 32 из 100.
На прошлой неделе я прокомментировал, что круговая диаграмма — это Nickelback от мира визуализации данных. Этот выпад широко распространился. Но я пришел к выводу, что есть даже более подходящая метафора. Круговые диаграммы — Аквамен от мира визуализации данных.
Аквамен хорош только в одном. Даже так, другие супергерои DC зачастую могут выполнить работу Аквамена лучше, чем он сам. Супермен задержит дыхание под водой, у Бэтмена просто есть подлодка. Если будет тонуть нефтяной танкер, кого вы позовете? Аквамена? Или Супермена? Начинаешь задумываться, зачем вообще пригласили Аквамена.
И когда появляется настоящий шанс для Аквамена или круговой диаграммы принести пользу — может вам нужно поговорить с рыбой или объяснить, как выглядит 32% в круге — возникает сомнение, а нужно ли это вовсе. Просто перестаньте использовать круговые диаграммы. Они бесполезны, с ними легко облажаться, и они не справляются с единственной задачей диаграмм — сделать информацию визуально наглядной. Круговые диаграммы — это Аквамен.
Так что же использовать?
Как твитнул Edward Tufte, дата-сайентист, который подробно писал о неудаче круговой диаграммы:
Пользователи круговых диаграмм заслуживают того же подозрения+скептицизма, что люди, которые путают тся/ться. Для сравнения используйте маленькие таблицы, предложения, но не круговые диаграммы. Edward Tufte (@EdwardTufte)
Exceltip
Блог о программе Microsoft Excel: приемы, хитрости, секреты, трюки
Анализ 5 почему — причинно-следственная диаграмма
Что такое 5 Почему анализ?
5 почему является методом решения проблем, использующим изучение причинно следственных связей, лежащих в основе той или иной проблемы. Основная цель методики состоит в определении коренной причины дефекта или проблемы. Данный инструмент используется, когда истинная причина проблемы не ясна и для решения поставленной задачи ресурсы на детальное исследование отсутствуют. Это один из самых простых способов расследования без привлечения статистического анализа. Также известный как дерево причин, причинно следственная диаграмма, диаграмма Исикавы или why-why analysis, данный метод является простой формой поиска коренной причины. Последовательно задавая вопрос Почему, вы строите дерево причин, которое ведет к первопричине. Очень часто очевидная причина проблемы ведет к следующему вопросу. Другими словами, это структурированный мозговой штурм. Хотя данная техника называется анализом 5 Почему, вы можете обнаружить, что вам необходимо задать меньше или больше пяти вопросов, прежде чем найдете вопрос, связанный с проблемой.
История возникновения метода 5 Почему
Изначально, методика была разработана компанией Сакичи Тойода и использовалась в Toyota Motor Corporation в процессе эволюции своих производственных методик. Это важная часть тренинга решения проблем, поставляемая в рамках TPM (Всеобщий уход за оборудованием). Тайити Оно описал методику пяти почему, как «основу научного подхода Тойоты … повторяя пять раз почему, характер проблемы, а также ее решение становится ясным». Инструмент нашел широкое применение за пределами Тойота, и в настоящее время используется в Кайдзен, бережливом производстве (LEAN) и Six Sigma.
Как проводить 5 Почему анализ?
Наиболее эффективный 5 Почему анализ получается, если он организован в виде групповой дискуссии и вся входящая информация фиксируется на флипчарте или Excel файле.
Эффективный 5 Почему анализ?
Экспертный опрос – вовлекайте правильных людей, знакомых с процессом и проблемой, чтобы они могли ответить, почему что-то произошло. Также полезно иметь участника со свежим взглядом – часто, они задают вопросы, которые помогают извлекать реальные причины возникновения проблем.
Избегайте обвинения – ищите системное решение проблемы. Обвинение индивидуума заканчивается лишь тем, что человек чувствует себя виновным. Если кто-то не повернул клапан, задайте вопрос: «Что может помочь человеку, повернуть клапан?». Может быть, корректировка процедуры или маркировка клапана?
Будьте креативными – что может решить проблему? Позвольте людям провести мозговой штурм и определить потенциальные действия по решению проблемы. Дальше выберите действия, которые дадут максимальный эффект.
Примеры методики 5 Почему
Пример анализа 5 почему №1
Пример анализа 5 почему №2
Мастер анализа 5 Почему
Так как реальное дерево решений в большинстве случаев имеет ветвистую структуру, бывает довольно сложно организовать данный анализ на листе Excel и, тем более, разобраться, какие причины явились ответом на тот ли иной вопрос. Поэтому на базе приложения Excel был разработан мастер анализа 5 Почему, который помогает структурировать причинно-следственные связи и наглядно отобразить последовательность выявления коренных причин с последующим планом действий. На примерах выше, вы можете увидеть результат работы мастера. Он помогает упростить процесс решения проблемы, стандартизовать работу и наглядно отобразить причинно-следственную диаграмму.
Мастер 5 Почему имеет возможность:
Мастер представляет из себя Excel файл и работает на любом компьютере с установленным пакетом Microsoft Office. Стоимость мастера Анализа 5 Почему 1000 руб. По всем вопросам обращайтесь
3 техники анализа проблем
Прежде чем решить какую-либо проблему, ее нужно понять. Как однажды заметил Эйнштейн: «Если бы мне отвели час для спасения мира, я бы потратил 55 минут на анализ проблемы и 5 – на ее решение». Этот подход кажется слишком отвлеченным, но он дает прекрасные результаты. Вспомните, у человеческого мозга есть две мыслительных системы. Одна основана на быстрых инстинктивных процессах, именно из-за нее мы совершаем необдуманные (заметьте, необдуманные) поступки. И вторая, осознанная, которая требует больше времени, но способствует выработке максимально рационального подхода. Сегодня мы рассмотрим техники, позволяющие тщательно и всесторонне проанализировать проблему, что даст дальнейшую пищу для генерирования идей и принятия решений.
Метод диаграмм «Почему»
Мы анализируем что-либо прежде всего для того, чтобы проникнуть в суть предмета, выявить причинно-следственные связи, разбить проблему на маленькие кирпичики, с которыми справиться куда проще. Вспомните, как трехлетние дети познают мир – эту главную из проблем. Они задают тысячу простых вопросов «Почему?», копая до максимально возможной глубины. На каждый ваш ответ у них готово новое «Почему?».
Этот прием вполне подходит и для решения взрослых задач. Суть его проста. На листе бумаги в нескольких словах обозначьте проблему. Задайте себе вопрос, почему она возникла и рядом запишите основные причины. Затем снова задайте этот же вопрос к каждой из них, и продолжайте до тех пор, пока не дойдете до «атомов» изучаемой проблемы. Очень удобно использовать для этой цели метод ментальных карт.
Дойдя до первопричин проблемы, вы сможете увидеть всю картину целиком. И у вас сразу же появятся идеи как повлиять на ситуацию, затрагивая наиболее уязвимые элементы системы. Особенно хорошо этот метод работает при решении комплексных проблем.
Задачу можно несколько усложнить. Установите для себя некоторый лимит ответов, не достигнув которого вы не можете переходить на следующий уровень. К примеру, вы должны найти не менее 6 ответов на вопрос. К каждому из них вы снова задаете этот вопрос, и снова ищете 6 причин. Это может показаться несколько искусственным, но такие рамки стимулируют и дисциплинируют мозг. В дальнейшем можно будет отбросить некоторые из объяснений, если они окажутся притянутыми за уши.
Метод двенадцати вопросов
Существует еще один способ, который может расширить возможности предыдущего. Он позволяет посмотреть на проблему с куда большего количества сторон. Метод состоит из шести основных вопросов: «что?», «почему?», «когда?», «где?», «как?», «кто?». Каждый из них задается в позитивном и негативном контексте. Вот как это выглядит на примере. Допустим, мы анализируем проблему аварий на атомных станциях:
Итак, у нас получилось двенадцать вопросов, которые рассматривают множество сторон проблемы, в том числе затрагивая отрицательный аспект, о котором обычно все забывают.
Путь к идеалу
Если в предыдущих случаях мы больше разбирались в причинах каких-то проблем, смотрели на них из прошлого, то в этом случае речь пойдет скорее о путях разрешения. Тут нам понадобится взгляд из будущего.
Возьмите три листа. На первом распишите проблему, ее причины, особенности, плюсы и минусы. Второй озаглавите словом «Путь». Наконец, на третьем опишите идеальное положение дел после ее решения.
И теперь, напишите на втором листе основные действия и этапы, которые позволят перейти с первого листа на третий. Не нужно слишком детализировать, в данном случае достаточно только обозначить общие вехи, некие «волшебные точки», воплотив которые, вы достигнете идеала. Это позволит по-новому оценить проблему с позиций ее решения.
В дальнейшем вы сможете превратить эти вехи в опорные вопросы для мозгового штурма, применив к ним техники генерирования идей.