Что такое bias в статистике? bias что это такое в электронике, в вар тандер, в касетной деке, в планировании, в магнитоле. Анализ данных обучение
MAD, Bias и MAPE – Ключевые Показатели Эффективности для измерения точности прогноза продаж
Вы здесь
В этой статье я поделюсь методикой измерения точности прогноза продаж, которая применяется во многих западных компаниях и позволяет достаточно объективно оценить качество прогнозирования. В частности, данные показатели используются компанией Reckitt Benckiser, в которой я имел честь работать почти 6 лет.
Очевидно, что повышение точности прогнозирования и уменьшение ошибки прогноза улучшают многие бизнес-показатели цепи поставок, начиная от сервиса клиентов и уровня запасов, заканчивая более стабильной работой производства и более предсказуемой закупочной деятельностью. Это особенно актуально в условиях кризиса, когда эффективность становится, пожалуй, основным конкурентным преимуществом.
Именно поэтому описанные ниже показатели можно использовать как KPI функции Demand Planning так и KPI сотрудников, которые отвечают за подготовку прогноза продаж.
Так что же такое MAD, Bias и MAPE?
Bias (англ. – смещение) демонстрирует на сколько и в какую сторону прогноз продаж отклоняется от фактической потребности. Этот индикатор показывает, был ли прогноз оптимистичным или пессимистичным. То есть, отрицательное значение Bias говорит о том, что прогноз был завышен (реальная потребность оказалась ниже), и, наоборот, положительное значение о том, что прогноз был занижен. Цифровое значение показателя определяет величину отклонения (смещения).
MAD (Mean Absolute Deviation) – среднее абсолютное отклонение
n – количество периодов оценки
Это показатель можно также выразить в процентах:
MAPE (Mean Absolute Percentage Error)
n – количество периодов оценки
At – фактическая потребность за период времени t
Пример расчета MAD:
Bias Vs. Variance
Bias и Variance – это две основные ошибки прогноза, которые чаще всего возникают во время модели машинного обучения. Машинное обучение решает многочисленные проблемы, которые нас беспокоят. С помощью машинного обучения мы можем выполнять действия, которые раньше нам не удавалось выполнить.
Поскольку машинное обучение решает большинство проблем, мы сталкиваемся с различными проблемами. Эти прогнозы могут быть угрожающими и будут влиять на результат режима. Вот почему мы должны понимать и решать эти предсказания.
Чтобы спроектировать модель машинного обучения, нам необходимо передать все важные данные, чтобы модель могла делать прогнозы и самостоятельно разрабатывать новые данные. Варианты сделают подходящую модель отличной от заданных вами параметров. Разбираться с вариациями и Байасами неудобно, так как вы не можете запустить свою модель или продемонстрировать навыки модели, если только результаты не будут точными.
Обучение под наблюдением
Комбинация между Bias и Variance применима только при контролируемом машинном обучении. Самое главное, вы используете эти прогнозы в прогнозном моделировании. Этот компромисс прерывает ошибку прогнозирования, так что вы можете проанализировать, как работает ваш алгоритм.
Каждая модель машинного обучения включает в себя алгоритм, который вы тренируете с помощью соответствующих данных. Алгоритм повторяет ту же самую модель и расширяет возможности модели, создавая новые данные на основе тренировочных данных.
Существуют различные алгоритмы, которые Вы можете выбрать для своих моделей машинного обучения. Некоторые из этих алгоритмов:
– Нейронные сети
– Деревья принятия решений
– SVM
– Линейная регрессия
Все вышеперечисленные алгоритмы отличаются друг от друга. Стиль работы алгоритма и то, как они обрабатывают данные, отличаются друг от друга. Количество Вариантов и Байаса создает наиболее важное различие между этими алгоритмами.
Итоговая модель
После того, как вы определились с алгоритмом и параметрами, которые вы используете для вашего проекта, вы готовите окончательную модель, вставляя данные. Вы предоставляете много данных для модели машинного обучения. Теперь Вам необходимо обучить эти наборы данных и продолжать тестирование до тех пор, пока Вы не начнете находить какие-то результаты. Модель поможет сгенерировать прогноз на основе предыдущих данных и разработать новые данные.
Типы ошибок прогнозирования
Алгоритм модели машинного обучения будет включать в себя эти три вида ошибок прогнозирования:
– Вариант
– Bias
– Неснижаемая ошибка
Что такое Биас?
Разница между количеством целевого значения и прогнозом модели называется Bias. Вы можете изменить Bias проекта, изменив алгоритм или модель. Когда предположения, которые вы используете в модели, просты, вы испытаете Bias.
Вы можете получить среднее значение прогноза, повторив процесс построения модели и проведя процесс выборки. Вы можете извлечь данные повторной выборки из модели, так как она использует набор данных для обучения и генерирует точные результаты. Вы можете выполнить повторную выборку с помощью различных методов, таких как бутстраппинг и K-складка.
При повторной выборке данных вы влияете на Bias. Вы обнаружите высокий уровень Bias, измеряя разницу между истинными значениями данных выборки и средним значением прогноза. Если модель является Bias, то вы столкнетесь с моделью недооценки. Каждая модель включает в себя некоторое смещение.
Вы найдете высокий уровень Bias в линейном алгоритме. Вот почему эти алгоритмы ускоряют процесс машинного обучения. Вы также найдете Bias в анализе линейной регрессии из-за реальной проблемы, с которой простая модель не может справиться. Низкий Бай в нелинейном алгоритме. Простая модель имеет больше Байаса.
Что такое Вариант?
С помощью Variance вы можете найти количество целевой функции, которое необходимо скорректировать, если алгоритм использует различные обучающие наборы. Для простоты можно сказать, что дисперсия помогает понять разницу между случайными переменными и ожидаемыми значениями. Дисперсия не поможет Вам найти общую точность, но Вы можете найти нерегулярность модели при использовании различных прогнозов из различных обучающих наборов данных.
Дисперсия может привести к переупорядочиванию. В этом случае даже небольшая вариация вызовет огромные проблемы в наборе данных. При наличии модели с высокой вариативностью наборы данных будут генерировать случайный шум, а не целевую функцию. Ваша модель должна иметь возможность понимать разницу между переменными и входными данными результата.
Однако, когда модель имеет низкую Variance, прогноз модели о данных выборки близок. При ошибке дисперсии прогноз целевой функции будет сильно меняться.
Если алгоритм имеет низкую Variance, то в модели будет происходить логистическая регрессия, линейная регрессия и линейный дискриминантный анализ. С другой стороны, при высокой Variance, вы будете испытывать k-близких соседей, деревья принятия решений и поддержку векторных машин.
Неустранимая ошибка
Нельзя уменьшить невосполнимую ошибку или шум. Это случайные данные, которые модель использует для составления нового прогноза. Эти данные можно рассматривать как неполный набор функций, некорректную задачу или присущую ей случайность.
Почему Бизнес и Варианты существенны.
Алгоритм машинного обучения, который вы используете для вашего проекта, будет использовать эти статистические или математические модели. С помощью этих вычислений он может привести к двум типам ошибок:
Reducible Error (Сокращаемая ошибка) – Вы можете минимизировать и контролировать эту ошибку для повышения точности и эффективности результатов.
Несокращаемая ошибка – Эти ошибки естественны, и вы не можете устранить эти неопределенности.
Вы можете уменьшить Биоизменения и вариации, так как это сводимые к минимуму ошибки. Чтобы уменьшить эти ошибки, необходимо выбрать модель, обладающую подходящей гибкостью и сложностью. Кроме того, вы можете использовать подходящие данные для обучения модели и уменьшить эти ошибки. Это поможет вам добиться точности модели.
Заключение
Биоразнообразие и вариативность являются основными элементами машинного обучения, которые вы должны изучить и понять. Вы должны использовать эти компоненты в контролируемом машинном обучении. При обучении работе с машинами под наблюдением алгоритм учится на основе набора учебных данных и генерирует новые идеи и данные. Вам необходимо поддерживать баланс между Bias и Variance, помогая вам разработать модель обучения работе с машиной, которая дает точные результаты.
Независимо от того, какой алгоритм вы используете для разработки модели, вы изначально найдете Variance и Bias. Когда вы изменяете один компонент, это влияет на другой. Таким образом, вы не сможете свести оба компонента к нулю. Если вы это сделаете, то это вызовет другие проблемы. Вот почему вам нужно использовать смещение против дисперсии. Чтобы спроектировать безошибочную модель, необходимо сделать обе эти компоненты заметными
Что такое «ошибка выжившего»: примеры из жизни и бизнеса
Что такое ошибка выжившего
Систематическая ошибка выжившего — это тип смещения выборки, возникающий, если при принятии решения человек опирается только на примеры «выживших» (тех, кто добился успеха), но не учитывает статистику по «погибшим» (тех, у кого не получилось прийти к такому же результату), поскольку данных по ним мало или они отсутствуют.
Подобные ошибки замечали еще древние греки. В трактате «О природе богов» Марк Туллий Цицерон (106 год до н. э. — 43 год до н. э.) рассказывает историю о философе и знаменитом «безбожнике» Диагоре Мелосском. Друг привел Диагора в храм на эгейском острове Самофракия и задал вопрос: «Вот ты считаешь, что боги пренебрегают людьми. Но разве ты не обратил внимания, как много [в храме] табличек с изображениями и с надписями, из которых следует, что они были пожертвованы по обету людьми, счастливо избежавшими гибели во время бури на море и благополучно прибывшими в гавань?»
«Так-то оно так, — ответил Диагор, — только здесь нет изображений тех, чьи корабли буря потопила, и они сами погибли в море».
Как ошибка выжившего искажает восприятие
Ошибка выжившего — это распространенное когнитивное искажение, в основе которого лежит непонимание причины и следствия. Человек находит закономерность в наборе данных, но не учитывает вероятность простого совпадения. Например, то, что некоторые основатели известных компаний бросили учебу в университете и стали успешны, является совпадением, поскольку не обязательно этот факт привел их к такому результату.
Самира Анохина, клинический психолог высшей категории, действительный член Российского психологического общества:
«С точки зрения психологии, когда мы говорим о феномене «ошибки выжившего», речь идет о двух процессах: перцепции (восприятии) и когниции (осмыслении, оценке, переработке) информации. Если анализировать перцептивный контекст, можно увидеть, что тот, кто совершает такую ошибку, воспринимает только часть ситуации или часть информации, имеющей отношение к этой ситуации.
В качестве примера можно привести двойные картинки, на которых можно последовательно видеть вазу и два профиля, утку либо кролика, портрет молодой девушки либо старухи. Причем увидеть оба изображения одновременно невозможно, как ни старайся. Для того чтобы видеть то или иное «закодированное» изображение, нужно переключать внимание на разные детали картинок. Этот процесс можно сравнить с работой прожектора, который, поворачиваясь, освещает разные участки местности.
Примерно то же происходит и на уровне когнитивной оценки ситуации, когда предположения и выводы делаются на основе информации, отражающей лишь определенную сторону события, при этом та часть информации, которая находится за пределами «когнитивного прожектора», не воспринимается».
Где мы с этим сталкиваемся: примеры в жизни и бизнесе
Люди подвергаются этому когнитивному искажению в разных ситуациях: при принятии решений в повседневной жизни, финансовом планировании, в научных исследованиях, бизнесе.
Как все начиналось: сбитые самолеты Второй мировой войны
Хрестоматийным примером «ошибки выжившего» является открытие математика Абрахама Вальда во время Второй мировой войны. Американская армия теряла много самолетов в боях. Чтобы решить проблему и уменьшить потери, командование поставило перед Вальдом задачу: придумать, как укрепить конструкцию. Полностью забронировать машины было нельзя, иначе они бы просто не полетели, поэтому нужно было определить самые уязвимые места.
Военные инженеры изучили повреждения машин, вернувшихся с поля боя, и предположили, что нужно укреплять наиболее поврежденные части. Однако Абрахам Вальд отметил, что если самолет смог вернуться на базу, то попадания в эти части не критические. Важнее обратить внимание на те повреждения, с которыми самолеты не возвращались. То есть бронировать нужно те места, где у «выживших» машин не было пробоин. Это помогло снизить потери американской авиации и сохранить жизни многих летчиков.
«Ошибка выжившего» сегодня: как проявляется в повседневной жизни
Дмитрий Ковпак, врач-психотерапевт, к. м. н., доцент кафедры психотерапии, медицинской психологии и сексологии Северо-Западного государственного медицинского университета им. И. И. Мечникова, президент Ассоциации когнитивно-поведенческой психотерапии:
«Пандемия ярко показывает, как «ошибка выжившего» искажает восприятие и к чему она приводит. Люди верили в заговоры правительств и транснациональных корпораций, выдвигали конспирологические теории происходящего, а в некоторых странах все доходило до абсурда: граждане, отрицавшие существование нового коронавируса, приводящего к заболеванию COVID-19, демонстративно лизали дверные ручки, лишь бы показать, что этого вируса не существует. И если они не заразились после этого, то преподносили это как доказательство своей теории. Другие люди смотрели на все это и верили в то, что вируса действительно не существует. А потом оказывались в больницах.
В этом случае «ошибка выжившего» — это опасно и больно. Потому что когда человек верит в отсутствие проблемы, а потом сталкивается с ней лицом к лицу, это становится двойным ударом. Помимо того, что он оказывается в тяжелой жизненной ситуации, он еще поражен тем, что случилось то, чего в его картине мира быть просто не могло. Такие серьезные кризисы могут формировать посттравматические расстройства, кризис доверия себе и миру, выученную беспомощность и депрессию».
«Ошибка выжившего» в бизнесе: как она влияет на принятие решений
«Ошибка выжившего» часто встречается в сфере бизнеса. Никто не говорит о компаниях, которые потерпели неудачу на ранней стадии и больше не существуют, зато успехи нескольких десятков компаний, которые «выстрелили», превозносятся десятилетиями. Это искажает статистику и убеждает многих, что положительный исход более вероятен, чем есть на самом деле. Например, несмотря на то, что по статистике 90% стартапов терпят неудачу, начинающие предприниматели уверены, что они смогут попасть в число победителей.
Истории чужого успеха и карьерная стратегия
Яркий пример «ошибки выжившего» — культ историй успеха. Многие черпают вдохновение из рассказов о предпринимателях-миллиардерах и при этом неверно понимают причины и следствие. Например: «Стив Джобс бросил колледж и стал миллионером. Значит, секрет успеха — это уйти из университета и посвятить все время своей идее». На деле это не работает, и миллиардеры без высшего образования встречаются реже, чем кажется: из 362 самых богатых людей Америки только 12,2% бросили университет.
Те, кто стремится повторить историю успеха компании или конкретного человека, часто игнорируют роль времени, удачи, связей и социально-экономического фона. Многие из известных предпринимателей добились успеха, несмотря на свой необычный выбор, а не благодаря ему.
Как не стать жертвой ошибки выжившего
Дмитрий Ковпак:
«Когнитивным искажениям подвержены в той или иной степени все люди. Это систематические отклонения в восприятии, мышлении и поведении, тесно связанные с предубеждениями или так называемыми ограничивающими убеждениями, ошибочными стереотипами. Чаще всего они не осознаются самим носителем и требуют специальных навыков для их обнаружения и коррекции. Если человек думает, что никакого из когнитивных искажений у него нет, то это тоже своего рода когнитивное искажение.
Что касается «ошибки выжившего», то больше всего им подвержены люди, которые живут и действуют на автомате, не задумываются, что из их мыслей, предположений и ожиданий верно, а что нет, не анализируют и не проверяют факты, то есть редко пользуются критическим мышлением, логикой и анализом опыта».
Когда человек знает об «ошибке выжившего», ему гораздо проще не попасться в эту когнитивную ловушку. Кроме этого, избежать последствий влияния этой ошибки можно, если подходить к принятию решения критически.
Копайте глубже
Не доверяйте поверхностным суждениям и скоропалительным выводам, убедитесь, что у вас достаточно информации для принятия решения. Задавайте вопросы, которые помогут увидеть картину целиком. Например:
Изучайте разные точки зрения
Воспринимайте любую историю успеха как одну из версий развития событий, а не как истину в последней инстанции. Найдите неудачную статистику или истории провала и посмотрите, что в них пошло не так.
Дмитрий Ковпак:
«Многие любят публичные выступления людей, которые преодолели превратности судьбы и выжили всему вопреки. Книги наподобие «Секретов успеха от Джона Смита» также страдают «ошибкой выжившего»: это значит лишь то, что дело Джона Смита не разорилось. Куда полезнее было бы узнать, какие ошибки допустили его разорившиеся конкуренты.
Если вам пришла идея открыть ресторан в своем городе исходя из факта, что здесь много прибыльных ресторанов, вы проигнорировали то, что видите только уцелевшие и ставшие успешными точки общепита, победившие в конкурентной борьбе. Может быть, 90% всех открытых заведений в вашем городе разорились за первые два года. Но вы этого не знаете, потому что для вас они не существуют. Как писал Нассим Талеб в своей книге «Черный лебедь», на кладбище закрытых ресторанов очень тихо».
7 базовых статистических понятий, необходимых дата-сайентисту
Даже если вы хорошо программируете, но слабо ориентируетесь в статистике, вероятность выжить в Data Science очень низка.
У статистики есть несколько различных определений. Одно из самых простых и точных — это «наука о сборе и классификации цифровых данных». А если добавить к нему немного о программировании и машинном обучении, то получится неплохое описание основ Data Science.
В самом деле, в Data Science трудно найти область, где нет статистики в том или ином виде. Она нужна для:
Мы выбрали семь базовых концепций, без которых в Data Science точно не обойтись. К счастью, они не слишком сложны.
С некоторых пор утверждает, что он data scientist. В предыдущих сезонах выдавал себя за математика, звукорежиссёра, радиоведущего, переводчика, писателя. Кандидат наук, но не точных. Бесстрашно пишет о Data Science и программировании на Python.
1. Меры описательной статистики
Ключевые показатели, применяемые в описательной статистике (их ещё называют мерами или, если точнее, мерами центральной тенденции), — это:
Посмотрите это небольшое видео о среднем, медиане и моде на сайте Академии Хана — образовательного ресурса, который славится доходчивыми объяснениями. Там всё просто, на понятном русском языке.
Кроме трёх перечисленных, есть и другие статистические показатели — например, меры рассеяния. Главная из них — дисперсия, о ней ниже. Все они нужны, чтобы понять, какие перед нами данные и о чём именно они рассказывают.
2. Распределение
Внешняя форма данных, выраженная в мерах описательной статистики, даёт нам информацию об их характере. Это как в жизни: по фигуре, походке и одежде человека обычно можно догадаться о его поле, возрасте и даже профессии. В случае числовых данных мы догадываемся о распределении.
Термин пришёл из теории вероятностей, которая рассматривает любое событие в мире как имеющее ту или иную вероятность. Однородные события хоть и происходят с разной вероятностью, но подчиняются распределению, которое «раздаёт» им эти вероятности.
В Data Science распределение понимается обобщённо: это закон соответствия одной величины другой. Оно подсказывает нам, какой именно процесс может скрываться за данными, и то, насколько эти данные полны. Чуть подробнее об этом в нашей статье про математику для джунов.
Возможно, вы уже слышали про колокол нормального распределения, или гауссиану: она описывает процессы, где результат является суммой многих случайных величин, каждая из которых слабо зависит от другой и вносит сравнительно небольшой вклад.
Величина ошибок измерения в физике, длина когтей, зубов и шерсти в биологии, объёмы речных стоков в гидрологии — все эти показатели имеют нормальное распределение. Это, пожалуй, самое распространённое в природе и не только в природе распределение, поэтому оно и названо нормальным.
Распределение Пуассона тоже часто встречается в работе дата-сайентистов и аналитиков: это число событий за какой-то промежуток времени — при условии, что события независимы друг от друга и имеют некоторый порог интенсивности.
Это и число посетителей в торговом центре, и количество голов, забитых футбольной командой, и скорость роста колонии бактерий.
Существуют и другие распределения, в том числе довольно экзотические: Вигнера, Вейбулла, Коши. Они встречаются намного реже или преимущественно в каких-то специальных областях вроде квантовой физики. Тем не менее дата-сайентисту нужно знать графики, параметры и названия основных распределений, благо их не так много.
3. Семплирование
Предположим, вам требуется решить важную задачу: выяснить среднюю ширину морды домашних котов нашей страны. Прямой способ, то есть измерение всех домашних питомцев, невозможен по ряду объективных причин. Придётся ограничиться выборкой — взять какое-то число животных, измерить морды именно им и сделать выводы по итогам только этих исследований.
Но тут сразу же возникают вопросы:
Семплирование — это группа статистических методов и приёмов, отвечающих на эти вопросы. С помощью семплирования мы формируем нашу выборку так, чтобы она наилучшим образом отражала свойства генеральной совокупности — то есть свойства всех котов страны.
Иными словами, вы не можете измерить N первых попавшихся котов и обобщить результат для остальных. Выборка должна хорошо «сидеть» во всей популяции кошек, чтобы можно было делать обоснованные выводы. Такую выборку называют релевантной.
Кстати, статистика и котики — близнецы-братья. После выхода одноимённой книги Владимира Савельева мы говорим «статистика», а подразумеваем «котики», и наоборот. И смело рекомендуем эту книгу всем, кто дочитал до этого места.
В Data Science методы семплирования применяются при разработке, подготовке и оценке датасетов, чтобы они одновременно и были упорядоченными, и соответствовали реальности.
4. Смещение
Прочитайте нашу статью о создании простой модели машинного обучения. Она предсказывает город, в который вероятнее всего поедет турист, на основании его возраста, пола, места жительства, дохода и транспортных предпочтений. Такая рекомендательная система на минималках.
Смещение происходит, когда модель недооценивает или переоценивает какой-либо параметр. Представим, что модель из статьи выше отправляет всех краснодарцев в Париж — независимо от их дохода, предпочтений и других параметров. В этом случае мы скажем, что модель переоценивает значение параметра «Город проживания».
Чаще всего причиной смещения являются:
Когда мы неверно собираем данные, говорят о систематической ошибке отбора. Например, в прошлом веке многие считали, что во Вселенной больше голубых галактик, — впечатление возникало потому, что плёнка была более чувствительна к голубой части спектра.
Другая ошибка — ошибка меткого стрелка — происходит, когда мы вольно или невольно отбираем в выборку только схожие между собой данные, то есть фактически рисуем мишень вокруг места, куда попадём.
Причин, вызывающих смещение, так много, что Марк Твен заметил: «Существует три вида лжи: ложь, наглая ложь и статистика». Например:
Эти и другие ошибки смещения трудно выявить статистическими методами, поэтому нужно стараться избежать их до того, как вы начнёте сбор данных.
Если пить «Боржоми» уже поздно (датасет уже сформирован), обязательно спросите себя: «Не смещены ли мои данные?» — а они наверняка смещены, «Куда и почему они смещены?» и «Можно ли с этим жить?»
5. Дисперсия
Дисперсия — это величина, показывающая, как именно и насколько сильно разбросаны значения — например, предсказания модели машинного обучения или доход за рассматриваемый период. За точку, относительно которой эти значения разбросаны, берут истинное значение, целевую переменную или математическое ожидание, которое вычисляется теоретически и заранее.
Часто в качестве матожидания выступает обычное среднее арифметическое. Например, математическое ожидание количества очков при броске игрального кубика равно среднему арифметическому очков на всех гранях:
(1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6 = 3,5
Представьте себе тир, стрелка и мишень. Снайпер стреляет в стандартный круг, где попадание в центр даёт 10 баллов, в зависимости от удаления от центра количество баллов снижается, а крайние области дают всего 1 балл. Каждый выстрел стрелка — это случайное целое значение от 1 до 10.
Изрешечённая пулями мишень — отличная иллюстрация распределения. Дисперсия здесь — величина, обратная кучности попаданий: хорошая кучность означает низкую дисперсию, и наоборот.
6. Дилемма (компромисс) смещения и дисперсии
Смещение и дисперсия вместе составляют итоговую ошибку предсказания модели машинного обучения. В идеальном мире и смещение маленькое, и дисперсия низкая. На практике это связано в дилемму: уменьшение одной из величин неизбежно приводит к росту другой.
Если не вдаваться в детали, обучение модели — это построение функции, график которой лучше всего ложится на точки из тренировочного набора данных.
Модель может нарисовать нам довольно сложную и заковыристую функцию, график, который хорошо охватывает все точки в тренировочных данных. Но если наложить этот график на новые точки (то есть дать функции новые данные), она сработает хуже — так и получается смещение.
С другой стороны, обучение на разных тренировочных наборах или даже разных датасетах с большой вероятностью даст разброс в предсказаниях, то есть высокую дисперсию.
Более сложные модели дают низкое смещение, но чувствительны к шуму и колебаниям в новых данных, поэтому их предсказания разбросаны. Если при обучении наш снайпер будет учитывать незначимые факторы (вроде цвета мишени или направления магнитного поля Земли), то в другом тире, с другой винтовкой или в другую погоду точность его стрельбы упадёт.
Простые модели, напротив, упускают важные параметры и «бьют кучно, но мимо». Как другой снайпер, не приученный обращать внимание на ветер и расстояние до мишени.
В процессе настройки модели машинного обучения дата-сайентист всегда ищет компромисс между смещением и дисперсией, чтобы уменьшить общую ошибку предсказания.
Кстати, эта дилемма встречается не только в статистике и машинном обучении, но и в обучении людей. В исследовании 2009 года утверждается, что люди используют эвристику «высокое смещение + низкая дисперсия»: мы заблуждаемся, зато очень уверенно.
Учтите это, если захотите сделать свой ИИ более похожим на человека.
7. Корреляция
Когда изменения одной величины сопутствуют изменениям другой, говорят о корреляции. Главное, что необходимо о ней знать: корреляция не означает причинно-следственную связь.
Линейная корреляция — это когда изменения одной величины пропорциональны изменениям другой. Она может быть:
Статистическую связь между переменными исследуют с помощью корреляционного анализа. Его основная задача — оценить тесноту связи (это термин) между переменными, чтобы понять, какие переменные учитывать в модели, а какие нет.
И ещё раз, потому что действительно важно: корреляция ни в коем случае не означает причинно-следственную связь. Если два показателя скоррелированы, то далеко не факт, что они хоть как-то связаны.
Кстати, проект Spurious Correlations («Ложные корреляции») публикует графики корреляций между совершенно неожиданными статистическими показателями — например, количеством людей, утонувших в домашних бассейнах, и числом фильмов с участием Николаса Кейджа.
Имеет смысл время от времени заходить по этой ссылке с целью профилактики СПГС — синдрома поиска глубинной связи.
Заключение
Data Science — не просто комбинирование модных моделей в Jupyter-ноутбуке. Профессионалы в этой области глубоко понимают природу данных и то, как они могут помочь в принятии конкретных бизнес-решений.
Всё это изучалось в статистике задолго до того, как первый дата-сайентист набрал свой первый import pandas as pd. Статистика — фундамент всей современной науки о данных, включая машинное обучение, глубокие нейросети и даже искусственный интеллект.
В нашем курсе «Профессия Data Scientist» статистике уделено самое пристальное внимание. Вы не ударите в грязь лицом ни на тусовке статистиков, ни на настоящем DS-собеседовании. Приходите!
Polina Vari для Skillbox
Для отличия статистического термина от терминов из других отраслей (музыки, биологии) часто пишут этот термин через «е», а не через «э».
Описательная статистика (англ. descriptive statistics) занимается обработкой опытных данных, их систематизацией, наглядным представлением в форме графиков и таблиц, а также их количественным описанием посредством основных статистических показателей.
Тренировочный набор, или обучающая выборка (англ. train set, training sample), — часть данных из датасета, по которой производится настройка или оптимизация модели машинного обучения.
Рекомендательные системы — программы, которые пытаются предсказать, какие объекты (фильмы, музыка, книги, новости, веб-сайты и др.) будут интересны пользователю.
Разницу между наблюдаемым значением и значением, предсказанным моделью.