Дискретные данные это: Дискретные и непрерывные данные—Справка | ArcGIS Desktop
Дискретные и непрерывные данные—Справка | ArcGIS Desktop
Доступно с лицензией 3D Analyst.
Значения, присваиваемые ячейкам поверхности, могут быть представлены как дискретными, так и непрерывными данными. Пространственные объекты и поверхности в ArcGIS могут быть представлены дискретными и непрерывными данными.
Дискретные данные, также известные как категорийные или прерывистые, в основном используются для представления объектов как в векторных, так и в растровых системах хранения данных. Дискретные объекты имеют четко определяемые границы. Нетрудно точно определить, где начинается и где заканчивается такой объект. Озеро – это дискретный объект, окруженный ландшафтом. Место, где кончается вода и начинается суша, можно четко определить. К другим дискретным объектам относятся здания, дороги и земельные участки. Дискретные объекты обычно обозначаются существительным.
Непрерывные данные, или непрерывная поверхность, отображают явление, в котором каждая точка поверхности является мерой плотности, мерой отношения к некой фиксированной точке пространства или отношением к точке происхождения.
Один из типов непрерывной поверхности вычисляется на основе характеристик, определяющих поверхность, в которой каждая точка пространства вычисляется относительно фиксированной регистрационной точки. Сюда относится высота (фиксированная точка – уровень моря) и экспозиция (фиксированная точка – одно из направлений: север, восток, юг, запад).
Дискретные и непрерывные пространственные объекты
Большинство приложений ArcGIS используют дискретную географическую информацию, например, собственность земельных участков, классификацию почв, зонирование и землепользование. Эти типы данных отображаются с помощью номинальных, порядковых, интервальных и относительных значений. Поверхности представлены непрерывными данными, такими как высоты, количество осадков, концентрация загрязнений и т.д. Эти данные могут быть представлены в виде непрерывной поверхности, которая, в основном, не имеет резких переходов.
Дискретные объекты
Дискретные объекты не являются непрерывными и имеют четкие границы. Например, дорога имеет известную ширину и длину и представлена на карте в виде линии. Карта собственности на землю отражает границы между различными участками. Существуют четкие отличия в характеристиках (имя владельца, номер участка и тип собственности) между каждым пространственным объектом карты.
Примеры дискретных пространственных объектов показаны на карте землевладений.
Дискретные пространственные объекты карты также могут быть представлены в виде тематических данных. Эти данные или объекты легко отображаются на карте в виде точек, линий или полигонов. К настоящему моменту вы уже должны знать, как структура данных ArcGIS используется для отображения топологических отношений двумерных пространственных объектов. Объекты карты могут иметь атрибуты, использующиеся для их описания, присвоения символов и создания надписей. Кроме того, имеется возможность проведения дополнительного анализа для определения или выявления новых взаимосвязей между этими пространственными объектами.
Непрерывные пространственные объекты
Непрерывные пространственные объекты не имеют четких границ в пространстве. В основном переход между возможными значениями на непрерывной поверхности происходит без резкого изменения значений. Атрибут поверхности хранится как z-значение, единственная переменная, связанная с парой координат x,y. Например, значения высот являются непрерывными по всей поверхности. Любое представление поверхности является только образцом (поднабором) значений всей поверхности.
Постепенное изменение непрерывных данных
Второй тип непрерывной поверхности демонстрирует явление, постепенно меняющееся по мере удаления от точки-источника. В качестве примеров таких покрытий можно привести данные по движению жидкостей или воздуха. Эти поверхности характеризуются способом перемещения явления.
Один тип движения – это сквозная диффузия или любое другое перемещение, при котором явление движется от областей с высокой концентрацией к областям с низкой концентрацией до тех пор, пока не произойдет выравнивание. К характеристикам поверхности с таким вариантом перемещения относятся, например, концентрация соли, распределяющаяся по воде или земле, распространение нефтяного пятна или распределение огня от центра лесного пожара. Поверхности такого типа должны иметь источник. Концентрация у источника всегда выше, затем она снижается как функция расстояния и параметров среды распространения.
В приведенном выше примере поверхности с источником концентрация явления в любой точке является функцией проникающей способности.
Еще один тип движения определяется собственной характеристикой движущегося объекта или режимом движения. Например, распространение звуковой волны от точки взрыва бомбы является собственной характеристикой звука и параметров среды, в которой он распространяется. Способ перемещения также может ограничивать и прямо влиять на поверхность концентрации объектов, как в случае с распространением семян какого-либо растения. Все способы распространения – посредством пчел, человека, ветра или воды, влияют на поверхность концентрации распространения семян растения.
К другим примерам движения относятся: распределение популяций животных, расположение потенциальных покупателей магазина (автомобиль – средство передвижения, время в пути – лимитирующий фактор), распространение заболевания.
Дискретные или непрерывные?
При моделировании большого количества пространственных объектов, можно заметить, что границы между непрерывными и дискретными объектами часто размыты. При отображении пространственных объектов, создается континуум, предельные значения которого могут быть дискретными или непрерывными объектами. Большинство пространственных объектов укладываются в промежуток между предельными значениями.
Примерами объектов, которые создают континуум, могут быть типы почв, границы лесов, заболоченных участков, а также географические рынки, формирующиеся посредством телевизионной рекламы. При определении места объекта в непрерывно-дискретном континууме, ключевым фактором будет простота нахождения его границ. Не имеет значения, где именно находится объект в континууме, растр может отобразить его с большей или меньшей точностью.
Принимая решение на основе полученного результата, важно понимать особенности моделирования различных типов данных, как непрерывных, так и дискретных. Точное место постройки здания не должно основываться только на типе почвы. Площадь лесного участка не может являться основным фактором, определяющим количество населяющих его оленей. Маркетинговая программа не должна основываться только на данных о географическом рынке, зависящим от распространения телевизионной рекламы. Достоверность и точность границ во входных данных, имеет первостепенное значение.
Связанные разделы
Дискретные и непрерывные данные—Справка | ArcGIS for Desktop
Дискретные данные, которые иногда называются тематическими, категорийными или не непрерывными, чаще всего используются для представления объектов как в векторных, так и в растровых системах хранения данных. Дискретные объекты имеют известные и определяемые границы: нетрудно точно определить, где начинается и где заканчивается такой объект. Озеро — это дискретный объект, окруженный ландшафтом. Место, где кончается вода и начинается суша, можно четко определить. К другим дискретным объектам относятся здания, дороги и земельные участки. Дискретные объекты обычно обозначаются существительным.
Непрерывная поверхность отображает явление, в котором каждая точка поверхности является мерой плотности, мерой отношения к некой фиксированной точке пространства или отношением к точке происхождения. Непрерывные данные также называются полями, недискретными данными или данными поверхности. Один из типов непрерывной поверхности вычисляется на основе характеристик, определяющих поверхность, в которой каждая точка пространства вычисляется относительно фиксированной регистрационной точки. Сюда относится высота (фиксированная точка — уровень моря) и экспозиция (фиксированная точка — одно из направлений: север, восток, юг, запад).
Другой тип непрерывной поверхности демонстрирует явление, постепенно меняющееся по мере удаления от точки-источника. В качестве иллюстрации таких покрытий можно привести данные по движению жидкостей или воздуха. Эти поверхности характеризуются способом перемещения явления. Первый тип движения — это сквозная диффузия или любое другое перемещение, при котором явление движется от областей с высокой концентрацией к областям с низкой концентрацией до тех пор, пока не произойдет выравнивание. К характеристикам поверхности с таким вариантом перемещения относятся, например, концентрация соли, распределяющаяся по воде или земле, уровень загрязнения, перемещающийся от источника заражения или ядерного реактора, распределение огня от центра лесного пожара. Поверхности такого типа должны иметь источник. Концентрация возле источника всегда выше; она снижается как функция расстояния и среднего значения субстанции, по которой оно перемещается.
На приведенном выше примере поверхности с источником, концентрация явления в любой точке является функцией проникающей способности. Еще один тип поверхности концентрации определяется собственной характеристикой распространения. Например, распространение звуковой волны из точки взрыва бомбы является собственной характеристикой звука и параметров среды, в которой он распространяется. Способ перемещения также может ограничивать и прямо влиять на поверхность концентрации объектов, как и в случае с распространением семян какого-либо растения. Все способы перемещения, такие как пчелы, человек, ветер или вода, влияют на поверхность концентрации распространения семян растения. К другим поверхностям перемещения относятся: распределение популяций животных, расположение потенциальных покупателей магазина (автомобиль — средство передвижения, время в пути — лимитирующий фактор), распространение заболевания.
Границы для многих объектов могут быть представлены и смоделированы как непрерывными, так и дискретными. При отображении пространственных объектов, создается континуум, предельные значения которого могут быть дискретными или непрерывными объектами. Большинство пространственных объектов укладываются в промежуток между предельными значениями. Иллюстрациями объектов, которые создают континуум, могут быть типы почв, границы лесов, заболоченных участков, а также географические рынки, формирующиеся посредством телевизионной рекламы.
При определении места объекта в непрерывно-дискретном континууме, ключевым фактором будет простота нахождения его границ. Не имеет значения, где именно находится объект в континууме, ячеистая структура хранения может отобразить его с большей или меньшей точностью.
Принимая решение на основе полученного результата, важно понимать особенности моделирования различных типов данных, как непрерывных, так и дискретных. Точное место постройки здания не должно основываться только на типе почвы. Площадь лесного участка не может являться основным фактором, определяющим количество населяющих его оленей. Маркетинговая программа не должна основываться только на данных о географическом рынке, зависящим от распространения телевизионной рекламы. Достоверность и точность границ во входных данных, имеет первостепенное значение.
Связанные темы
Отзыв по этому разделу?дискретные данные — это… Что такое дискретные данные?
- дискретные данные
4.2.8 дискретные данные (символьные данные):Данные, представленные при помощи символов.
(ИСО/МЭК 2383-5) [2]
Словарь-справочник терминов нормативно-технической документации. academic.ru. 2015.
- дискретность монтажа
- дискретный
Смотреть что такое «дискретные данные» в других словарях:
дискретные данные — символьные данные Данные, представленные при помощи символов. [ИСО/МЭК 2383 5] [ГОСТ Р 52292 2004] Тематики электронный обмен информацией Синонимы символьные данные … Справочник технического переводчика
Дискретные данные — * дыскрэтныя даныя * digital data or discrete data данные, выражаемые ограниченным набором значений (обычно целыми числами). Альтернатива непрерывным данным (см.) … Генетика. Энциклопедический словарь
дискретные данные — diskretieji duomenys statusas T sritis automatika atitikmenys: angl. discrete data; sampled data vok. diskrete Daten rus. дискретные данные pranc. données échantillonnées, f; données intermittentes, f … Automatikos terminų žodynas
ДИСКРЕТНЫЕ ДАННЫЕ (СИМВОЛЬНЫЕ ДАННЫЕ) — согласно ГОСТ Р 52292–2004 «Информационная технология. Электронный обмен информацией. Термины и определения», – данные, представленные при помощи символов … Делопроизводство и архивное дело в терминах и определениях
данные — 3.4 данные (data): Совокупность значений, присвоенных для основных мер измерений, производных мер измерений и (или) показателей. [ИСО/МЭК 15939:2007] Источник … Словарь-справочник терминов нормативно-технической документации
выборочные данные — дискретные данные — [Л.
Непрерывные данные — * бесперапынныя даныя * continuous data количественные данные, принимающие значения на непрерывной шкале значений. Альтернативой непрерывным данным служат дискретные данные … Генетика. Энциклопедический словарь
ГОСТ Р 52292-2004: Информационная технология. Электронный обмен информацией. Термины и определения — Терминология ГОСТ Р 52292 2004: Информационная технология. Электронный обмен информацией. Термины и определения оригинал документа: алгоритм … … Словарь-справочник терминов нормативно-технической документации
Мета-анализ — (англ. meta analysis) в статистике это объединение результатов нескольких исследований для анализа набора связанных между собой научных гипотез. В разных случаях для повторного статистического анализа отдельных исследований используют… … Википедия
Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия
Книги
- Байесовские модели, Дауни А.. Если вы знаете, как программировать на Python и немного знаете о теории вероятности, значит, вы готовы освоить байесовскую статистику. Эта книга расскажет вам, как решать статистические… Подробнее Купить за 1100 руб
- Байесовские модели. Байесовская статистика на языке Python, Дауни Аллен Б.. Если вы знаете, как программировать на Python и немного знаете о теории вероятности, значит, вы готовы освоить байесовскую статистику. Эта книга расскажет вам, как решать статистические… Подробнее Купить за 1009 руб
- Байесовские модели, Дауни А.Б.. Если вы знаете, как программировать на Python и немного знаете о теории вероятности, значит, вы готовы освоить байесовскую статистику.
Типы данных в статистике
Дата публикации Mar 18, 2018
Типы данных являются важным понятием статистики, которое необходимо понимать, чтобы правильно применять статистические измерения к вашим данным и, следовательно, правильно сделать определенные предположения о них. В этом блоге вы познакомитесь с различными типами данных, которые вам необходимо знать, для проведения надлежащего аналитического анализа данных (EDA), который является одной из самых недооцененных частей проекта машинного обучения.
Оглавление:
- Введение в типы данных
- Категориальные данные (Номинальные, Порядковые)
- Числовые данные (дискретные, непрерывные, интервальные, отношения)
- Почему типы данных важны?
- Статистические методы
- Резюме
Хорошее понимание различных типов данных, также называемых шкалами измерений, является критически важным условием для проведения исследовательского анализа данных (EDA), поскольку вы можете использовать определенные статистические измерения только для определенных типов данных.
Вам также необходимо знать, с каким типом данных вы имеете дело, чтобы выбрать правильный метод визуализации. Думайте о типах данных как о способе классификации различных типов переменных. Мы обсудим основные типы переменных и рассмотрим пример для каждой. Иногда мы будем называть их шкалами измерения.
Категориальные данные представляют собой характеристики. Поэтому он может представлять такие вещи, как пол человека, язык и т. Д. Категориальные данные также могут принимать числовые значения (например: 1 для женщины и 0 для мужчины). Обратите внимание, что эти числа не имеют математического значения.
Номинальные значения представляют собой дискретные единицы и используются для обозначения переменных, которые не имеют количественного значения. Просто думайте о них как о ярлыках. Обратите внимание, что номинальные данные, которые не имеют порядка. Поэтому, если вы измените порядок его значений, значение не изменится. Вы можете увидеть два примера номинальных функций ниже:
Левая особенность, которая описывает пол человека, будет называться «дихотомической», что является типом номинальных шкал, который содержит только две категории.
Порядковые значения представляют собой дискретные и упорядоченные единицы. Поэтому он почти такой же, как и номинальные данные, за исключением того, что порядок имеет значение. Вы можете увидеть пример ниже:
Обратите внимание, что разница между начальной и средней школой отличается от разницы между средней школой и колледжем. Это основное ограничение порядковых данных, различия между значениями на самом деле не известны. По этой причине порядковые шкалы обычно используются для измерения нечисловых характеристик, таких как счастье, удовлетворенность клиентов и так далее.
Мы говорим о дискретных данных, если их значения различны и разделены. Другими словами: мы говорим о дискретных данных, если данные могут принимать только определенные значения. Этот тип данныхне может быть измерено, но оно может быть подсчитано, Это в основном представляет информацию, которая может быть классифицирована в классификации. Примером является количество голов в 100 монетах.
Вы можете проверить, задав следующие два вопроса, имеете ли вы дело с дискретными данными или нет: можете ли вы считать их и можно ли разделить на меньшие и меньшие части?
Непрерывные данные представляют измерения и, следовательно, их значенияне могут быть подсчитаны, но они могут быть измерены, Примером может служить рост человека, который можно описать с помощью интервалов в строке действительных чисел.
Интервальные данные
Интервальные значения представляютупорядоченные единицы, которые имеют одинаковую разницу, Поэтому мы говорим об интервальных данных, когда у нас есть переменная, которая содержит числовые значения, которые упорядочены, и где мы знаем точные различия между значениями. Примером может служить функция, которая содержит температуру определенного места, как вы можете видеть ниже:
Проблема с данными интервальных значений заключается в том, что онине имеют «истинного нуля», Для нашего примера это означает, что нет такой вещи, как отсутствие температуры. С помощью интервальных данных мы можем складывать и вычитать, но мы не можем умножать, делить или вычислять отношения. Поскольку истинного нуля нет, множество описательной и логической статистики не может быть применено.
Соотношение данных
Значения отношения также являются упорядоченными единицами, которые имеют одинаковую разницу. Соотношение значенийтакие же как интервальные значения, с той разницей, что они имеют абсолютный ноль, Хорошие примеры: рост, вес, длина и т. Д.
Типы данных являются важной концепцией, потому что статистические методы могут использоваться только с определенными типами данных. Вы должны анализировать непрерывные данные иначе, чем категориальные данные, иначе это приведет к неправильному анализу. Поэтому, зная типы данных, с которыми вы имеете дело, вы сможете выбрать правильный метод анализа.
Теперь мы снова рассмотрим каждый тип данных, но на этот раз в отношении того, какие статистические методы можно применять Чтобы правильно понять, что мы сейчас будем обсуждать, вы должны понимать основы описательной статистики. Если вы их не знаете, вы можете прочитать мой пост в блоге (прочитано 9 минут):https://towardsdatascience.com/intro-to-descriptive-statistics-252e9c464ac9,
Когда вы имеете дело с номинальными данными, вы собираете информацию посредством:
частотыЧастота — это частота, с которой что-либо происходит в течение определенного периода времени или в наборе данных.
доля: Вы можете легко рассчитать пропорцию, разделив частоту на общее количество событий. (например, как часто что-то происходило, деленное на то, как часто это могло происходить)
Процент.
Методы визуализации: для визуализации номинальных данных вы можете использовать круговую диаграмму или гистограмму.
В Data Science вы можете использовать одно горячее кодирование для преобразования номинальных данных в числовую функцию.
Когда вы имеете дело с порядковыми данными, вы можете использовать те же методы, что и с номинальными данными, но у вас также есть доступ к некоторым дополнительным инструментам. Поэтому вы можете суммировать ваши порядковые данные с частотами, пропорциями, процентами. И вы можете визуализировать это с помощью круговой диаграммы и гистограммы. Кроме того, вы можете использовать процентили, медианы, моды и межквартильный диапазон, чтобы суммировать ваши данные.
В Data Science вы можете использовать одну метку кодирования, чтобы преобразовать порядковые данные в числовую функцию.
Когда вы имеете дело с непрерывными данными, вы можете использовать большинство методов для описания ваших данных. Вы можете суммировать свои данные, используя процентили, медиану, межквартильный диапазон, среднее значение, режим, стандартное отклонение и диапазон.
Методы визуализации:
Для визуализации непрерывных данных вы можете использовать гистограмму или блок-график. С помощью гистограммы вы можете проверить центральную тенденцию, изменчивость, модальность и эксцесс распределения. Обратите внимание, что гистограмма не может показать вам, если у вас есть какие-либо выбросы. Вот почему мы также используем боксы.
В этом посте вы обнаружили разные типы данных, которые используются в статистике. Вы узнали разницу между дискретными и непрерывными данными и узнали, каковы номинальные, порядковые, интервальные и относительные шкалы измерения. Кроме того, теперь вы знаете, какие статистические измерения вы можете использовать, для какого типа данных и какие методы визуализации являются правильными. Вы также узнали, какими методами категориальные переменные можно преобразовать в числовые переменные. Это позволяет вам создавать большую часть аналитического анализа для данного набора данных.
Этот пост изначально был опубликован в моем блоге (https://machinelearning-blog.com).
Оригинальная статья
Статистические типы данных, используемые в машинном обучении
Введение в статистику
Статистика — это наука об изучении данных. Знания в этой области позволяют использовать подходящие методы сбора и анализа данных, а также эффективно представлять результаты такого анализа.
Чтобы стать успешным специалистом по теории и методам анализа данных, необходимо знать основы статистики. Математика и статистика — “строительные блоки” алгоритмов машинного обучения. Чтобы понимать, как и когда следует использовать различные алгоритмы, нужно знать, какие методы за ними стоят. Тут встаёт вопрос — что именно собой представляет статистика?
Статистика — это математическая наука о сборе, анализе, интерпретации и представлении данных.
Для чего изучать статистику?
Один из основных принципов науки о данных — получение выводов из их анализа. Статистика отлично для этого подходит. Она является разновидностью математики и использует формулы, но она отнюдь не обязательно покажется пугающей, даже если вам не приходилось сталкиваться с ней раньше.
Машинное обучение зародилось из статистики. Основой используемых в нём алгоритмов и моделей является так называемое статистическое обучение. Знание основ статистики крайне полезно вне зависимости от того, изучаете вы глубоко алгоритмы МО или просто хотите быть в курсе новейших исследований в этой сфере.
Введение в типы данных
Хорошее понимание разных типов данных (шкал измерений) — основное условие для проведения разведочного анализа данных (EDA), ведь для определённых типов данных можно использовать только ограниченный набор статистических измерений.
Чтобы решить, какой метод визуализации выбрать, также необходимо понимать, с какими данными вы имеете дело. Думайте о типах данных как о способе категоризации разновидностей переменных. Далее мы обсудим основные типы данных и рассмотрим примеры для каждого из них.
Качественные и количественные данные
Разделение данных на качественные и количественные — основополагающий принцип разделения данных на типы.
1) Качественные данные
В информации представлены характеристики, которые не измеряются числами, в то время как сами наблюдения можно разделить на измеряемое количество групп. Информацию, хранящуюся в таком типе переменной, трудно измерить, а измерения могут быть субъективными. Вкус, цвет автомобиля, архитектурный стиль, семейное положение — всё это типы качественных данных. Аналитики также называют такие данные категориальными.
1.1) Номинальные данные
Номинальные значения выражают дискретные единицы и служат для обозначения переменных, которые не имеют количественного выражения. Номинальные данные не имеют порядка, поэтому при изменении порядка значений итоговый результат не меняется. Ниже представлено два примера номинальных признаков:
Вы женаты/замужем?
- Да
- Нет
Какими языками вы владеете?
- Английским
- Французским
- Немецким
- Испанским
Методы визуализации: для визуализации номинальных данных можно использовать круговую или столбчатую диаграмму.
Круговая и столбчатая диаграммы для визуализации номинальных данныхВ науке о данных можно использовать прямое кодирование, чтобы преобразовать номинальные данные в числовое свойство.
1.2) Порядковые данные
Порядковые данные — это смесь числовых и категориальных данных. Данные можно разбить на категории, но числа, ассоциируемые с каждой категорией, имеют значение. К примеру, рейтинг ресторана от 0 (самый низкий) до 4 (самый высокий) звёзд — это пример порядковых данных. Порядковые данные часто обрабатываются как категориальные, когда при построении диаграмм и графиков данные разделяются на упорядоченные группы. Однако, в отличие от категориальных, числа в порядковых данных имеют математическое значение. Таким образом, порядковые данные — это почти то же самое, что и номинальные, с тем лишь отличием, что в номинальных порядок не имеет значения. Взгляните на пример ниже:
Proportion - Пропорция
Very Poor - Очень плохо
Poor - Плохо
Neutral Rating - Средне
Good - Хорошо
Very Good - Очень хорошо
Порядковые шкалы обычно используются для измерения нечисловых свойств, таких как счастье, уровень удовлетворённости клиентов, успеваемость студентов в классе, уровень квалификации и т. д.
Такие данные можно обобщать с помощью частотности, пропорций, процентных долей, а визуализировать — с помощью круговых и столбчатых диаграмм. Кроме того, можно использовать процентиль, медиану, моду, межквартильный размах.
В дополнение к порядковым и номинальным есть особый тип категориальных данных — бинарные (двоичные).
Бинарные данные принимают только два значения — “да” или “нет”, что можно представить разными способами: “истина” и “ложь” или 1 и 0. Бинарные данные широко применяются в классификационных моделях машинного обучения. В качестве примеров бинарных переменных можно привести следующие ситуации: отменил человек подписку или нет, купил машину или нет.
Типы бинарных данных2) Количественные данные
Информация записывается в виде чисел и представляет объективное измерение или подсчёт. Температура, вес, количество транзакций — вот примеры количественных данных. Аналитики также называют такие данные числовыми.
2.1) Дискретные данные
Дискретные количественные данные — это подсчёт случаев наличия характеристики, результата, предмета, деятельности. Эти измерения невозможно поделить на более мелкие части без потери смысла. Например, у семьи может быть 1 или 2 машины, но их не может быть 1,6. Таким образом, существует конечное число возможных значений, которые можно зарегистрировать в процессе наблюдений.
У дискретных переменных можно подсчитать и оценить интенсивность потока событий или сводное количество (медиана, мода, среднеквадратичное отклонение). К примеру, в 2014 году у каждой американской семьи было, в среднем, по 2,11 транспортных средства.
Обычный способ графического представления дискретных переменных — столбчатые диаграммы, где каждый отдельный столбик представляет отдельное значение, а высота столбика означает его пропорцию к целому.
2.2) Непрерывные данные
Непрерывные данные могут принимать практически любое числовое значение и могут быть разделены на меньшие части, включая дробные и десятичные значения. Непрерывные переменные часто измеряют по шкале. Когда вы измеряете высоту, вес, температуру, вы имеете дело с непрерывными данными.
Например, средний рост в Индии составляет 5 футов 9 дюймов (~ 175 см.) для мужчин и 5 футов 4 дюйма (~ 162 см.) для женщин.
Непрерывные данные подразделяются на 2 типа:
а) Интервальные данные
Интервальные значения представлены упорядоченными единицами, которые имеют одинаковое отличие друг от друга. Таким образом, мы говорим об интервальных данных, когда есть переменная, которая содержит упорядоченные числовые значения, и нам известны точные отличия этих значений. Примером может служить температура в заданном месте:
Положительные и отрицательные интервалы температурыПроблема со значениями интервальных данных в том, что у них нет “абсолютного нуля”.
б) Данные соотношения
Данные соотношения также представляют собой упорядоченные единицы с одинаковыми отличиями друг от друга. Это практически то же самое, что и интервальные данные, однако данные соотношения имеют “абсолютный ноль”. Подходящие примеры — высота, вес, длина и т. д.
Длина стола в дюймахПри работе с непрерывными данными можно использовать практически все методы: процентиль, медиану, межквартильный размах, среднее арифметическое, моду, среднеквадратичное отклонение, амплитуду.
Методы визуализации:
Для визуализации непрерывных данных можно воспользоваться гистограммой или диаграммой размаха. С помощью гистограммы можно определить среднее значение и крутость распределения, изменчивость и модальность. Имейте в виду, что гистограмма не показывает выбросы — для этого нужно использовать диаграмму размаха.
Диаграмма размаха и гистограмма для анализа непрерывных данныхЗаключение
Из этой статьи вы узнали о различных типах данных, используемых в статистике, о разнице между дискретными и непрерывными данными, а также о том, что собой представляют номинальные, порядковые, бинарные, интервальные данные и данные соотношения. Кроме того, теперь вы знаете, какие статистические измерения и методы визуализации можно применять для разных типов данных и как преобразовать категориальные переменные в числовые. Это позволит вам провести большую часть разведочного анализа на представленном наборе данных.
Читайте также:
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Jagadish Bolla: Data Types in Statistics Used for Machine Learning
Вейвлет-преобразование
Вейвлет-преобразование
Вейвлет-преобразование — преобразование, похожее на преобразование Фурье (или гораздо больше на оконное преобразование Фурье) с совершенно иной оценочной функцией. Основное различие лежит в следующем: преобразование Фурье раскладывает сигнал на составляющие в виде синусов и косинусов, т.е. функций, локализованных в Фурье-пространстве; напротив, вейвлет-преобразование использует функции, локализованные как в реальном, так и в в Фурье-пространстве. В общем, вейвлет-преобразование может быть выражено следующим уравнением:
где * — символ комплексной сопряженности и функция ψ — некоторая функция. Функция может быть выбрана произвольным образом, но она должна удовлетворять определённым правилам.
Как видно, вейвлет-преобразование на самом деле является бесконечным множеством различных преобразований в зависимости от оценочной функции, использованной для его расчёта. Это является основной причиной, почему термин «вейвлет-преобразование» используется в весьма различных ситуациях и для различных применений. Также существует множество типов классификации вариантов вейвлет-преобразования. Здесь мы покажем только деление, основанное на ортогональности вейвлетов. Можно использовать ортогональные вейвлеты для дискретного вейвлет-преобразования и неортогональные вейвлеты для непрерывного. Эти два вида преобразования обладают следующими свойствами:
- Дискретное вейвлет-преобразование возвращает вектор данных той же длины, что и входной. Обычно, даже в этом векторе многие данные почти равны нулю. Это соответствует факту, что он раскладывается на набор вейвлетов (функций), которые ортогональны к их параллельному переносу и масштабированию. Следовательно, мы раскладываем подобный сигнал на то же самое или меньшее число коэффициентов вейвлет-спектра, что и количество точек данных сигнала. Подобный вейвлет-спектр весьма хорош для обработки и сжатия сигналов, например, поскольку мы не получаем здесь избыточной информации.
- Непрерывное вейвлет-преобразование, напротив, возвращает массив на одно измерение больше входных данных. Для одномерных данных мы получаем изображение плоскости время-частота. Можно легко проследить изменение частот сигнала в течение его длительности и сравнивать этот спектр со спектрами других сигналов. Поскольку здесь используется неортогональный набор вейвлетов, данные высоко коррелированы и обладают большой избыточностью. Это помогает видеть результат в более близком человеческому восприятию виде.
Дополнительные подробности о вейвлет-преобразовании доступны на тысячах интернет-ресурсов о вейвлетах в сети, или, например, здесь [1].
В библиотеке обработки данных Gwyddion реализованы оба этих преобразования и использующие вейвлет-преобразование модули доступны в меню → .
Дискретное вейвлет-преобразование
Дискретное вейвлет-преобразование (DWT) — реализация вейвлет-преобразования с использованием дискретного набора масштабов и переносов вейвлета, подчиняющихся некоторым определённым правилам. Другими словами, это преобразование раскладывает сигнал на взаимно ортогональный набор вейвлетов, что является основным отличием от непрерывного вейвлет-преобразования (CWT), или его реализации для дискретных временных рядов, иногда называемой непрерывным вейвлет-преобразованием дискретного времени (DT-CWT).
Вейвлет может быть сконструирован из функции масштаба, которая описывает свойства его масштабируемости. Ограничение состоит в том, что функция масштаба должна быть ортогональна к своим дискретным преобразованиям, что подразумевает некоторые математические ограничения на них, которые везде упоминаются, т.е. уравнение гомотетии
где S — фактор масштаба (обычно выбирается как 2). Более того, площадь под функцией должна быть нормализована и функция масштабирования должна быть ортогональна к своим численным переносам, т.е.
После введения некоторых дополнительных условий (поскольку вышеупомянутые ограничения не приводят к единственному решению) мы можем получить результат всех этих уравнений, т.е. конечный набор коэффициентов ak которые определяют функцию масштабирования, а также вейвлет. Вейвлет получается из масштабирующей функции как N где N — чётное целое. Набор вейвлетов затем формирует ортонормированный базис, который мы используем для разложения сигнала. Следует отметить, что обычно только несколько коэффициентов ak будут ненулевыми, что упрощает расчёты.
На следующем рисунке показаны некоторые масштабирующие функции и вейвлеты. Наиболее известным семейством ортонормированных вейвлетов явлется семейство Добеши. Её вейвлеты обычно обозначаются числом ненулевых коэффициентов ak, таким образом, мы обычно говорим о вейвлетах Добеши 4, Добеши 6, и т.п. Грубо говоря, с увеличением числа коэффициентов вейвлета функции становятся более гладкими. Это явно видно при сравнении вейвлетов Добеши 4 и 20, представленных ниже. Другой из упомянутых вейвлетов — простейший вейвлет Хаара, который использует прямоугольный импульс как масштабирующую функцию.
Существует несколько видов реализации алгоритма дискретного вейвлет-преобразования. Самый старый и наиболее известный – алгоритм Малла (пирамидальный). В этом алгоритме два фильтра – сглаживающий и несглаживающий составляются из коэффициентов вейвлета и эти фильтры рекуррентно применяются для получения данных для всех доступных масштабов. Если используется полный набор данных D = 2N и длина сигнала равна L, сначала рассчитываются данные D/2 для масштаба L/2N — 1, затем данные (D/2)/2 для масштаба L/2N — 2, … пока в конце не получится 2 элемента данных для масштаба L/2. Результатом работы этого алгоритма будет массив той же длины, что и входной, где данные обычно сортируются от наиболее крупных масштабов к наиболее мелким.
В Gwyddion для расчёта дискретного вейвлет-преобразования используется пирамидальный алгоритм. Дискретное вейвлет-преобразование в двумерном пространстве доступно в модуле DWT.
Дискретное вейвлет-преобразование может использоваться для простого и быстрого удаления шума с зашумлённого сигнала. Если мы возьмём только ограниченное число наиболее высоких коэффициентов спектра дискретного вейвлет-преобразования, и проведём обратное вейвлет-преобразование (с тем же базисом) мы можем получить сигнал более или менее очищенный от шума. Есть несколько способов как выбрать коэффициенты, которые нужно сохранить. В Gwyddion реализованы универсальный порог, адаптивный по масштабу порог [2] и адаптивный по масштабу и пространству порог [3]. Для определения порога в этих методах мы сперва определяем оценку дисперсии шума, заданную
где Yij соответствует всем коэффициентам наиболее высокого поддиапазона масштаба разложения (где, как предполагается, должна присутствовать большая часть шума). Или же дисперсия шума может быть получена независимым путём, например, как дисперсия сигнала АСМ, когда сканирование не идёт. Для наиболее высокого поддиапазона частот (универсальный порог) или для каждого поддиапазона (для адаптивного по масштабу порога) или для окружения каждого пикселя в поддиапазоне (для адаптивного по масштабу и пространству порога) дисперсия рассчитывается как
Значение порога считается в конечном виде как
где
Когда порог для заданного масштаба известен, мы можем удалить все коэффициенты меньше значения порога (жесткий порог) или мы можем уменьшит абсолютное значение этих коэффициентов на значение порога (мягкий порог).
Удаление шума DWT доступно в меню → → .
Непрерывное вейвлет-преобразование
Непрерывное вейвлет-преобразование (CWT) — реализация вейвлет-преобразования с использованием произвольных масштабов и практически произвольных вейвлетов. Используемые вейвлеты не ортогональны и данные, полученные в ходе этого преобразования высоко коррелированы. Для дискретных временных последовательностей также можно использовать это преобразование, с ограничением что наименьшие переносы вейвлета должны быть равны дискретизации данных. Это иногда называется непрерывным вейвлет-преобразованием дискретного времени (DT-CWT) и это наиболее часто используемый метод расчёта CWT в реальных применениях.
В принципеЮ непрерывное вейвлет-преобразование работает используя напрямую определение вейвлет-преобразования, т.е. мы рассчитываем свёртку сигнала с масштабированным вейвлетом. Для каждого масштаба мы получаем этим способом набор той же длины N, что и входной сигнал. Используя M произвольно выбранных масштабов мы получаем поле N×M, которое напрямую представляет плоскость время-частота. Алгоритм, используемый для этого расчёта может быть основан на прямой свёртке или на свёртке посредством умножения в Фурье-пространстве (это иногда называется быстрым вейвлет-преобразованием).
Выбор вейвлета для использования в разложении на время-частоту является наиболее важной вещью. Этим выбором мы можем влиять на разрешение результата по времени и по частоте.Нельзя изменить этим путём основные характеристики вейвлет-преобразования (низкие частоты имеют хорошее разрешение по частотам и плохое по времени; высокие имеют плохое разрешение по частотам и хорошее по времени), но можно несколько увеличить общее разрешение по частотам или по времени. Это напрямую пропорционально ширине используемого вейвлета в реальном и Фурье-пространстве. Если, например, использовать вейвлет Морле (реальная часть – затухающая функция косинуса), то можно ожидать высокого разрешения по частотам, поскольку такой вейвлет очень хорошо локализован по частоте. наоборот, используя вейвлет Производная Гауссиана (DOG) мы получим хорошую локализацию по времени, но плохую по частоте.
Непрерывное вейвлет-преобразование реализовано в модуле CWT, который доступен в меню → → .
[1] Adhemar Bultheel: Learning to swim in a sea of wavelets. Bull. Belg. Math. Soc. Simon Stevin 2 (1995), 1-45, doi:10.36045/bbms/1103408773
[2] S. G. Chang, B. Yu, M. Vetterli: Adaptive wavelet thresholding for image denoising and compression. IEEE Trans. Image Processing 9 (2000) 1532–1536, doi:10.1109/83.862633
[3] S. G. Chang, B. Yu, M. Vetterli: Spatially adaptive wavelet thresholding with context modeling for image denoising. IEEE Trans. Image Processing 9 (2000) 1522–1531, doi:10.1109/83.862630
MIME types — HTTP | MDN
Медиа тип (так же известный как Multipurpose Internet Mail Extensions или MIME тип) является стандартом, который описывает природу и формат документа, файла или набора байтов. Он определён и стандартизирован в спецификации RFC 6838 .
Организация Internet Assigned Numbers Authority (IANA) является ответственной за все официально признанные MIME типы, и вы можете найти самый последний и полный лист MIME типов на их странице Медиа Типов.
Важно: Для принятия решения о том, как обрабатывать URL, браузеры используют MIME типы, а не расширения файлов, так что серверам необходимо отправлять правильные MIME типы в Content-Type
заголовке ответа. При неточном задавании этого заголовка, браузеры с большой вероятностью будут неправильно интерпретировать и обрабатывать содержание файлов, из-за чего сайт будет работать неверно.
Простейший MIME тип состоит из типа и подтипа — двух строк разделённых наклонной чертой (/
), без использования пробелов.
тип/подтип
Тип представляет общую категорию, в которой находится тип данных, например video
или text
. Подтип же строго отождествляется с отдельным типом данных, представляемых данным MIME типом. Например, для MIME типа text
, подтипы могут быть plain
(простой текст), html
(HTML source code) или calendar
(для iCalendar/.
ics
).
Необязательный параметр может быть добавлен для указания дополнительных деталей
тип/подтип;параметр=значение
Например, для MIME типов категории text
, необязательный параметр charset
может быть задан для уточнения кодировки, используемой в документе. Для объявления, что пересылаемый файл имеет кодировку UTF-8, необходимо использовать MIME тип text/plain;charset=UTF-8
. При не указании параметра charset
, его значение автоматически будет задано, как ASCII (US
-
ASCII
), если в настройках браузера не будет определено иначе.
MIME типы являются нечувствительными к регистру, но традиционно их пишут строчными буквами, за исключением значений параметров.
Типы
Все типы можно разделить на два класса: дискретные и многокомпонентные. Дискретные типы представляют одиночные файлы, например, одиночный текстовый, музыкальный или видео файл. Многокомпонентные типы представляют документы, составленные из нескольких частей, каждая из которых может иметь свой отдельный MIME тип, или они могут заключать в себе несколько отдельных файлов, передаваемых в одном сообщении. Например, многокомпонентные MIME типы используются для передачи нескольких изображений в одном email.
Дискретные типыВ настоящее время на IANA зарегистрированы следующие дискретные типы:
application
Список IANA- Любой вид бинарных данных, явно не попадающих ни в одну другу группу типов. Данные, которые будут выполняться или как-либо интерпретироваться, или данные для выполнения, которых необходимо отдельное приложение. Для указания базового типа бинарных данных (данных без определённого типа) используют тип
application/octet-stream
. Другие распространённые примеры включаютapplication/pdf
,application/pkcs8
иapplication/zip
. audio
Список IANA- Аудио или музыкальные данные. Примеры:
audio/mpeg
,audio/vorbis
. example
- Тип, зарезервированный для написания примеров, отображающих использование MIME типов. Этот тип никогда не должен использоваться вне примеров кода или документации.
example
может так же использоваться, как подтип. font
Список IANA- Данные шрифтов. Распространённые примеры включают
font
/
woff
,font
/
ttf
иfont
/
otf
. image
Список IANA- Изображения или графические данные, включая векторную и растровую графику, а так же анимированные версии форматов неподвижных изображений, таких как GIF или APNG. Распространённые примеры включают
image/
jpeg
,image
/
png
иimage
/
svg
+
xml
. model
Список IANA- Данные моделей для 3D объектов или сцен. Примеры:
model/3mf
иmodel/vml
. text
Список IANA- Любые текстовые данные, так или иначе доступные для чтения человеку, а так же исходный код или текстовые данные для программ. Примеры:
text
/
plain
,text
/
csv
иtext
/
html
. video
Список IANA- Видео данные или файлы. Например, MP4 фильмы (
video
/
mp
4
).
Любые текстовые документы без определённого подтипа стоит отправлять, как text/plain
тип. Аналогичным образом, application/octet-stream
тип подойдёт бинарным документам при неопределённом или неизвестном подтипе.
Многокомпонентные типы
Многокомпонентные типы описывают категории разграниченных на части документов, где каждая из частей может иметь свой отдельный MIME тип. При работе с электронными письмами, они могут использоваться для описания нескольких отдельных файлов, передаваемых в одном сообщении. Они представляют составные документы.
За исключением multipart/form-data
типа, используемого в POST
методе HTML форм, и multipart/byteranges
типа, используемом в ответе 206
Partial Content
для отправки части документа, HTTP никаким особым образом не обрабатывает многокомпонентные типы, и просто отправляет данные в браузер (который, с большой вероятностью, предложит сохранить переданный файл, тоже не зная как его обработать).
Существуют два многокомпонентных типа:
message
Список IANA- Сообщение, включающее в себя другие сообщения. Этот тип может использоваться, например, для представления сообщения, которое включают в себя другое переадресованное сообщение, как часть данных, или для отправки больших сообщений по частям, как если бы каждое сообщение отправлялось отдельно. Примеры включают
message
/
rfc
822
(для переадресованных или цитируемых сообщений) иmessage
/
partial
для автоматического разделения одного большого сообщения на несколько небольших и их последующей сборки на стороне получателя. multipart
Список IANA- Данные составленные из нескольких компонентов, каждый из которых может иметь отдельный MIME тип. Примеры включают
multipart
/
form
-
data
(для данных созданных с помощьюFormData
API) иmultipart
/
byteranges
(определённого в RFC 7233: 5.4.1 и используемого в ответах HTTP206
«Partial Content», когда запрашиваемые данные возвращаются по частям в нескольких сообщениях, как например, при использовании заголовкаRange
).
application/octet-stream
Этот тип является базовым для бинарных данных. В связи с тем, что он подразумевает неопределённые бинарные данные, браузеры, как правило, не будут пытаться его обработать каком-либо образом, а вызовут для него диалоговое окно «Сохранить Как», как если бы заголовок ответа Content-Disposition
имел значение attachment
.
text/plain
Этот тип является базовым для текстовых файлов. Несмотря на то, что он означает «неопределённые текстовые данные», браузеры всё равно могут его отображать.
Заметьте: text/plain
не означает «любой вид текстовых данных». Если браузер ожидает получения какого-то конкретного типа текстовых данных, то с большой вероятностью он не будет считать text/plain
подходящим типом. Например, при загрузке text/plain
документа через <link>
элемент, браузер не будет его признать правильным CSS файлом и использовать для применения стилей. Только text/css
тип должен использоваться для загрузки CSS документов.
text/css
CSS документы, используемые для стилизации web-страниц должны отправляться, как text/css
тип. Большинство браузеров не смогут распознавать CSS документы, загруженные с отличным от text/css
MIME типом.
text/html
Все HTML данные должны пересылаться с данным типом. Альтернативные MIME типы для XHTML (например, application/xhtml+xml
) почти не используются в настоящее время.
Заметьте: Используйте application/xml
или application/xhtml+xml
, когда вам необходим строгий синтаксический анализ документов, разделы <![CDATA[…]]>
или элементы, не принадлежащие к пространствам имён HTML/SVG/MathML.
text/javascript
Согласно HTML спецификации: при пересылке JavaScript файлов, всегда должен использоваться MIME тип text/javascript
.
По исторически сложившимся причинам, MIME Sniffing Standard (стандарт, определяющий, как браузеры должны интерпретировать медиа типы и выяснять, как обрабатывать данные при неправильно заданных медиа типах) позволяет серверам отправлять JavaScript документы, используя один из нижеперечисленных типов:
application/javascript
application/ecmascript
application/x-ecmascript
application/x-javascript
text/javascript
text/ecmascript
text/javascript1.0
text/javascript1.1
text/javascript1.2
text/javascript1.3
text/javascript1.4
text/javascript1.5
text/jscript
text/livescript
text/x-ecmascript
text/x-javascript
Заметьте: Несмотря на то, что некоторые user agent могут поддерживать какие-то из вышеперечисленных типов, вы всегда должны использовать text
/
javascript
. Это единственный MIME тип, который гарантированно будет работать в настоящее время и в будущем.
Иногда вы можете заметить использование text/javascript
MIME типа в связке с параметром charset
, для уточнения кодировки, в которой был написан файл. Такое определение MIME типа является неправильным, и в большинстве случаев браузеры не станут загружать скрипт, передаваемый с таким типом.
Типы изображений
Файлы, MIME типом которых является image
, содержат в себе данные изображений. Подтип определяет, какой конкретный формат изображения представлен в данных.
Лишь несколько типов изображений достаточно распространены, чтобы безопасно использоваться на веб-страницах.
{{page(«ru/docs/Web/Media/Formats/Image_types», «table-of-image-file-types»)}}
Аудио и видео типы
Так же как в случае с изображениями, стандарт HTML не обязывает браузеры поддерживать какие-либо определённые форматы и кодеки для <audio>
и <video>
элементов, так что при их выборе, важно брать в расчёт целевую аудиторию и диапазон браузеров (а так же версии этих браузеров), которые она может использовать.
Наше руководство по медиа форматам предоставляет список общепринятых типов, включая информацию об особых случаях при их использовании, их недостатках, совместимости, а так же других деталях.
Руководства по аудио и видео кодекам перечисляют часто поддерживаемые браузерами кодеки, предоставляя детали по их совместимости и техническую информацию, например как много аудио каналов они поддерживают, какой тип сжатия используют, и так далее. Руководство по используемым в WebRTC кодекам развивает эту тему ещё дальше, конкретно описывая кодеки, поддерживаемые популярными браузерами, так чтобы вы могли выбрать кодеки, которые имеют наилучшую поддержку в диапазоне браузеров по вашему выбору.
Что касается MIME типов для аудио и видео файлов, то чаще всего они указывают на формат контейнера (тип файла). Необязательный параметр codecs
может быть добавлен к MIME типу для более точного указания, какой кодек и параметры использовались для пересылаемого файла.
Ниже перечислены наиболее часто используемые на веб-страницах MIME типы. Обратите внимание, что это не полный перечень всех доступных типов. Более полный список поддерживаемых форматов может быть наеден в руководстве по медиа форматам.
MIME тип | Аудио или видео тип |
---|---|
audio/wave audio/wav audio/x-wav audio/x-pn-wav | Аудио файл WAVE формата. С PCM аудио кодеком (WAVE кодек «1»), считающимся наиболее поддерживаемым, а так же другими, имеющими ограниченную поддержку. |
audio/webm | Аудио файл формата WebM. С Vorbis и Opus официально поддерживаемыми WebM спецификацией аудио кодеками. |
video/webm | Видео файл, с возможной аудио дорожкой, формата WebM. С VP8 и VP9, как наиболее распространёнными видео кодеками; Vorbis и Opus, как наиболее распространёнными аудио кодеками. |
audio/ogg | Аудио файл формата OGG. С Vorbis, как наиболее распространённым аудио кодеком. Хотя на данный момент имеется поддержка и Opus кодека. |
video/ogg | Видео файл, с возможной аудио дорожкой, в формате OGG. Где Theora – наиболее часто встречающийся видео кодек и Vorbis — наиболее часто встречающийся аудио кодек. Хотя использование кодека Opus становится всё более распространённым. |
application/ogg | Аудио или видео формата OGG. Где Theora – наиболее часто встречающийся видео кодек и Vorbis — наиболее часто встречающийся аудио кодек. |
multipart/form-data
multipart/form-data
тип может быть использован при отправке значений из заполненной HTML Формы на сервер.
Как многокомпонентный тип документа, он состоит из различных частей, разделённых специальной границей (строкой, начинающейся с двух чёрточек --
), где каждая часть представляет собой отдельную сущность и имеет отдельные HTTP заголовки Content-Disposition
и Content-Type
для загружаемых файлов.
Content-Type: multipart/form-data; boundary=aBoundaryString (other headers associated with the multipart document as a whole) --aBoundaryString Content-Disposition: form-data; name="myFile"; filename="img.jpg" Content-Type: image/jpeg (data) --aBoundaryString Content-Disposition: form-data; name="myField" (data) --aBoundaryString (more subparts) --aBoundaryString--
Следующая форма <form>
:
<form action="http://localhost:8000/" method="post" enctype="multipart/form-data">
<label>Name: <input name="myTextField" value="Test"></label>
<label><input type="checkbox" name="myCheckBox"> Check</label>
<label>Upload file: <input type="file" name="myFile" value="test.txt"></label>
<button>Send the file</button>
</form>
отправит сообщение:
POST / HTTP/1.1 Host: localhost:8000 User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:50.0) Gecko/20100101 Firefox/50.0 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate Connection: keep-alive Upgrade-Insecure-Requests: 1 Content-Type: multipart/form-data; boundary=---------------------------8721656041911415653955004498 Content-Length: 465 -----------------------------8721656041911415653955004498 Content-Disposition: form-data; name="myTextField" Test -----------------------------8721656041911415653955004498 Content-Disposition: form-data; name="myCheckBox" on -----------------------------8721656041911415653955004498 Content-Disposition: form-data; name="myFile"; filename="test.txt" Content-Type: text/plain Simple file. -----------------------------8721656041911415653955004498--
multipart/byteranges
multipart/byteranges
MIME тип используется для отправки данных в браузер по частям.
При отправке кода состояния 206
Partial Content
, этот MIME тип будет означать, что документ состоит из нескольких частей, по одной для каждого отдельно запрашиваемого диапазона. Аналогично с остальными многокомпонентными типами, заголовок Content-Type
используется для объявления границы boundary
, разделяющей документ на отдельные компоненты. Каждый компонент имеет заголовок Content-Type
, описывающий тип сегмента данных, и Content-Range (en-US), описывающий его диапазон.
HTTP/1.1 206 Partial Content
Accept-Ranges: bytes
Content-Type: multipart/byteranges; boundary=3d6b6a416f9b5
Content-Length: 385
--3d6b6a416f9b5
Content-Type: text/html
Content-Range: bytes 100-200/1270
eta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta name="vieport" content
--3d6b6a416f9b5
Content-Type: text/html
Content-Range: bytes 300-400/1270
-color: #f0f0f2;
margin: 0;
padding: 0;
font-family: "Open Sans", "Helvetica
--3d6b6a416f9b5--
Большинство серверов отправляет ресурсы неопределённого типа, как application/octet-stream
MIME тип. Большинство же браузеров, в целях безопасности, не позволяет их никак обрабатывать, вынуждая пользователя сохранять их на жёсткий диск, для дальнейшего использования.
Несколько советов по правильной настройке MIME типов на серверах:
- RAR-сжатые файлы. В этом случае самым правильным вариантом было бы задать тип изначального ресурса; но это не всегда выполнимо, так как .RAR файлы могут хранить в себе несколько типов данных. Тогда, настройте сервер на отправку
application/x-rar-compressed
MIME типа вместе с RAR ресурсами. - Аудио и видео. Только ресурсы с правильно заданными MIME типами могут производиться в
<video>
и<audio>
элементах. Убедитесь, что вы используете правильные типы для аудио и видео данных. - Запатентованные типы файлов. Избегайте использования
application/octet-stream
при их отправке, так как большинство браузеров не позволит определять способы обработки (например, «Открыть в Word») для этого базового MIME типа. Используйте специальные типы, напримерapplication/vnd.mspowerpoint
, чтобы позволить пользователям открывать загруженный ресурс в программе по их выбору.
В отсутствии заданного MIME типа, или в определённых случаях, когда браузеры полагают, что MIME тип задан неправильно, они могут выполнять MIME sniffing — попытку угадать правильный MIME тип, анализируя характеристики ресурса.
Каждый браузер выполняет MIME sniffing по-своему и при разных условиях (например, Safari будет смотреть на расширение файла, если переданный MIME тип является неподходящим для документа). В этих случаях могут присутствовать опасения по поводу безопасности, так как некоторые MIME типы представляют исполняемые файлы. Сервера имеют возможность предотвращать MIME sniffing, отправляя X-Content-Type-Options
заголовок ответа.
MIME типы не являются единственным способом сообщения типа документа:
- Суффиксы в названиях файлов могут указывать на тип документа, главным образом на Microsoft Windows. Но не все операционные системы могут считать их имеющими смысл (например, Linux или MacOS). А так же нет никакой гарантии, что они будут указывать на правильный тип.
- Магические числа. Синтаксисы различных форматов позволяют узнавать их тип, через анализ их структуры байтов. Например, GIF файлы начинаются с
47 49 46 38 39
шестнадцатеричного значения (GIF89
), а PNG файлы с89 50 4E 47
(.PNG
). Опять же, не все типы документов имеют магические числа, так что этот подход так же не надёжен на 100%.
Определение дискретных данных
Определение дискретных данных:
В этой статье мы представляем отдельный отчет о дискретных данных. К концу нашего совместного времени вы сможете с уверенностью использовать дискретные данные.
Обзор: Что такое дискретные данные?
Есть две категории данных:
- Непрерывные данные — это данные, которые можно измерить в бесконечном масштабе. Они могут принимать любое значение между двумя числами, независимо от того, насколько они малы.Мерой может быть практически любое значение на шкале. Измерения времени, высоты, температуры и толщины — все это примеры непрерывных данных.
- Дискретные данные — это данные, такие как вхождения, пропорции или характеристики (например, прошел или не прошел), и они подсчитываются (например, количество или доля людей, ожидающих в очереди, или количество дефектных элементов в выборке). Дискретные данные считаются неотрицательными целыми числами (1, 2, 3 и т. Д.).
Возьмем, к примеру, цвет.Ваш продукт может быть пяти разных цветов или категорий. Вы можете подсчитать появление каждого цвета (категории) в вашей выборке данных. Счетчик неделим — не имеет смысла иметь 1,5 синих продукта.
1 преимущество и 2 недостатка дискретных данных
Есть несколько важных вещей, которые нужно знать о дискретных данных.
1. Он предоставляет информацию о количестве элементов в каждой мере процесса или категории результата.
Дискретные данные можно суммировать в таблице частот, в которой показано количество каждой категории в выборке данных.
2. Требуется больше данных при использовании в графическом анализе и статистических тестах
Дискретные данные требуют больших объемов выборки для графиков и статистического анализа. Сбор достаточно большой выборки может быть дорогостоящим с точки зрения времени, денег и персонала. С другой стороны, сбор данных может быть проще, чем непрерывные данные, если у вас есть четкие определения категорий данных.
Дискретные данные менее эффективны, чем непрерывные. Он может сказать вам, есть ли дефект в весе продукта, но не может сказать, сколько на самом деле весит продукт.
3. Качество зависит от того, насколько хороша система измерения, которая его генерирует.
Я называю это недостатком, но анализ системы измерений — это действительно начальная цена для анализа дискретных данных. Дискретные данные могут получать как люди, так и машины.
Важно убедиться, что люди, сортирующие данные по категориям (иногда называемые инспекторами), согласовывают категорию для данного продукта.
Машины, которые предоставляют данные подсчета, также должны быть изучены, чтобы определить, заслуживают ли они доверия.Вы как специалист по анализу дискретных данных обязаны изучить и исправить любые проблемы с вашими инспекторами или измерительным оборудованием до анализа данных, которые они предоставляют.
Почему важно понимать дискретные данные?
Вы должны определить, являются ли данные, генерируемые измерениями процессов и / или выходными данными процесса, дискретными по своей природе, чтобы выполнить следующие два действия.
Выбрать правильную статистику для описания образца
Дискретные данные можно суммировать путем подсчета вхождений каждой категории.Вы также можете рассчитать долю (или процент) вхождений категории в выборку.
Чтобы правильно выбрать инструмент анализа
Инструмент, который вы хотите использовать в графическом или статистическом анализе, потребует, в частности, дискретных или непрерывных данных.
Если, например, вы случайно используете дискретные данные для инструмента, который требует непрерывных данных, вы можете сделать неверные выводы на основе результатов этого инструмента. Если вы будете действовать в соответствии с этими неверными выводами, вы можете не получить желаемых результатов, зря тратя время и деньги.
Промышленный пример дискретных данных
Были собраны дискретные данные теста печи для отверждения (прошел / не прошел тест), чтобы проверить, можно ли использовать печь для отверждения для нового продукта. Инженер хочет проверить, сколько раз тест печи не удался или прошел. Инженеру необходимо:
- Убедитесь, что прохождение теста печи для отверждения можно правильно определить с помощью исследования Gage R&R. Если датчик прошел…
- Проведите 30 испытаний в печи для отверждения в течение одного дня отверждения нового продукта.Классифицируйте каждый из них как пройденный (в диапазоне температур для нового продукта) или как неудачный.
- Изобразите данные в виде гистограммы.
Гистограмма из 30 дискретных точек данных имеет 20 отказов и 10 проходов.
Что могут сказать нам эти дискретные данные о прохождении / отказе о процессе отверждения?
- Дискретные данные ничего не говорят о центре или разбросе данных, а только о том, сколько показаний прошло испытание в печи для отверждения, а сколько — нет.
- Количество отказов печи для полимеризации в два раза больше, чем количество проходов.Это не хорошие новости.
- Дискретные данные могут сказать нам, на сколько больше неудачных испытаний печи для отверждения, чем пройденных испытаний. Однако дискретные данные не могут сказать нам, выходит из строя печь для отверждения, слишком холодная или слишком горячая. Для этого нам нужны непрерывные данные о температуре.
Основываясь на том, что они узнали из гистограммы дискретных данных, инженер решил принять меры и изучить компоненты печи для отверждения.
Механическая проверка духовки показала, что термостат не работает.Его заменили. Количество неудачных тестов теперь равно 0, и печь для отверждения годна для использования с новым продуктом.
3 передовых метода работы с дискретными данными
Если вы хотите анализировать данные как эксперт, помните об этих трех вещах.
1. Используйте Excel или компьютерную статистическую и графическую программу для анализа дискретных данных.
Времена, когда дискретные данные отображались в частотных таблицах и вручную вычислялись статистические данные, давно прошли.Найдите программу анализа, которая соответствует вашим потребностям и вашему бюджету.
Ваша компания может разрешить вам загрузку Minitab, JMP или Excel. Если нет, вы можете поискать в Интернете бесплатное программное обеспечение для статистики с открытым исходным кодом. Например, программное обеспечение «R» является бесплатным и используется многими университетами.
2. Оцените стабильность данных перед тем, как начать анализ дискретных данных.
Прежде чем использовать дискретные данные для представления показателя или результата процесса, важно знать, находится ли ваш процесс под статистическим контролем.
Если график дискретных данных нестабилен, следует провести некоторую работу по улучшению процесса, чтобы приблизить его к стабильности.
Анализ дискретных данных, которые нестабильны, применяется только к этой выборке дискретных данных. Если процесс находится под статистическим контролем, анализ дискретных данных также может быть применим к образцам процесса из ближайшего будущего.
3. Постройте данные, постройте данные, постройте данные
Картинка стоит тысячи слов. Статистика поддерживает графики, а не наоборот.Всегда начинайте анализ дискретных данных с частотных таблиц, гистограммы и контрольной диаграммы.
Часто задаваемые вопросы о дискретных данных
Какие графики лучше использовать с дискретными данными?
Существует множество гистограмм, диаграмм Парето и контрольных диаграмм — одни из самых популярных.
Можно ли обрабатывать дискретные данные как непрерывные?
Иногда. Если дискретные данные являются двоичными по своей природе (например, пройдены или не пройдены), тогда нет, вы должны подсчитывать только вхождения двух категорий данных.
Однако, если дискретные данные представляют собой упорядоченные данные подсчета (например, 1 меньше 2, а оба меньше 3), и вы видите 10 или более возможных значений подсчетов (шкалы оценок от 1 до 10). , например), то вы можете безопасно использовать непрерывную статистику, такую как среднее, и построить данные в виде гистограммы.
Если вы считаете, что у вас есть такие данные, посоветуйтесь со своим экспертом по анализу данных, прежде чем начинать анализ.
Несколько заключительных мыслей о дискретных данных
Дискретные данные — это переменные «категории» (например,грамм. цвет, тип дефекта или сдал / упал) или заказанные рейтинговые шкалы (например, шкалы Лайкерта для силы согласия). Анализ дискретных данных может сказать вам наличие или долю категорий в выборке.
Хотя дискретные данные не дадут вам столько информации о вашем образце, сколько непрерывные данные, они все же полезны и информативны для измерения вашего процесса или результата.
Вам также может понравиться «Назад к словарному указателюДискретный vs.Непрерывные данные: в чем разница? | Whatagraph | Открытый микрофон
Иногда мы создаем данные, даже не осознавая этого — отправляя текстовое сообщение, размещая фотографию в Instagram или просто просматривая различные веб-сайты. Для сравнения: в 2020 году люди генерировали 2,5 квинтиллиона данных каждую секунду. Как и многие способы создания данных, существует множество различных типов данных. Есть структурированные и неструктурированные данные. Затем есть качественные и количественные данные. И, наконец, есть дискретные vs.непрерывные данные, которые являются основой для каждого человека, работающего с бизнесом.
Изучение разницы между дискретными и непрерывными данными и сценариев использования может показаться ошеломляющим. Однако понимание, основанное на данных, играет важную роль в успехе бизнеса. Профессионалы, разбирающиеся в этих уникальных типах данных, могут определить возможности, в которых данные могут пригодиться. Специалисты по маркетингу могут использовать эту информацию для улучшения своих стратегий и оптимизации рекламных кампаний.
Что такое числовые данные?
Числовые данные, также известные как количественные, представляют собой тип данных, выраженный числами, а не естественным языком. Числовые данные отличаются от других типов данных числовой формы своей способностью выполнять арифметические операции с этими числами.
Количественные данные делятся на два типа данных: дискретные, которые представляют собой счетные элементы. И непрерывные данные, в которых описывается измерение данных. Непрерывные числовые данные далее подразделяются на данные интервалов и соотношений, известные для измерения определенных элементов.
Основы дискретных данных
Дискретные данные — это счетчик, который включает целые числа — возможно только ограниченное количество значений. Этот тип данных нельзя разделить на разные части. Дискретные данные включают дискретные переменные, которые являются конечными, числовыми, счетными и неотрицательными целыми числами. Во многих случаях перед дискретными данными может стоять префикс «число». Например:
Количество учеников, посетивших занятия;
Количество покупателей, купивших разные товары;
Количество продуктов, которые люди покупают каждый день;
Этот тип данных в основном используется для простого статистического анализа, поскольку его легко обобщать и вычислять.В большинстве случаев дискретные данные отображаются в виде гистограмм, диаграмм типа «стержень-лист» и круговых диаграмм.
Непрерывные данные — все о точностиНепрерывные данные считаются полной противоположностью дискретных данных. Это тип числовых данных, которые относятся к неопределенному количеству возможных измерений между двумя предполагаемыми точками.
Номера непрерывных данных не всегда чистые и целые, поскольку они обычно собираются на основе очень точных измерений.Измерение конкретного объекта позволяет создать определенный диапазон для сбора большего количества данных.
Переменные в непрерывных наборах данных часто имеют десятичные точки, при этом числа растягиваются насколько это возможно. Как правило, со временем он меняется. Он может иметь совершенно разные значения в разные промежутки времени, которые не всегда могут быть целыми числами. Вот несколько примеров:
Погодная температура;
Скорость ветра;
Вес малышей;
Непрерывные данные можно измерить с помощью специальных инструментов и отобразить в виде линейных графиков, перекосов и гистограмм.
Дискретные и непрерывные данные — сравнение
Оба типа данных важны для статистического анализа. Однако необходимо отметить некоторые существенные различия, прежде чем делать какие-либо выводы или принимать решения. Ключевые отличия:
Дискретные данные — это тип данных, между значениями которых есть пустые пробелы. Непрерывные данные — это данные, которые попадают в постоянную последовательность.
Дискретные данные можно считать, а непрерывные — измерить.
Для точного представления дискретных данных используется гистограмма.Гистограмма или линейные графики используются для графического представления непрерывных данных. Диаграмма дискретной функции показывает отдельную точку, которая остается несвязанной. На непрерывном графике функции точки соединены непрерывной линией.
Дискретные данные содержат различные или отдельные значения. Непрерывные данные включают любое значение в пределах предпочтительного диапазона.
Важность дискретных и непрерывных данных
Как дискретные, так и непрерывные данные важны для всех видов решений, основанных на данных.Ценные исследования и выводы делаются путем объединения обоих наборов данных. Вот несколько примеров использования дискретных и непрерывных данных:
Маркетинг и реклама. Прежде чем участвовать в какой-либо маркетинговой или рекламной кампании, компании должны проанализировать внутренние и внешние факторы, которые могут повлиять на маркетинговые кампании. В большинстве случаев специалисты по маркетингу используют SWOT-анализ. SWOT-анализ — это совокупность сильных и слабых сторон, возможностей и угроз бизнеса.Основная цель этого анализа — помочь компаниям полностью осознать все факторы, влияющие на принятие решений на основе данных.
Исследования. Числовые типы данных популярны среди исследователей из-за их совместимости с большинством статистических методов. Дискретные и непрерывные данные помогают упростить исследовательский процесс.
Демографический анализ. Используя анализ тенденций, исследователи собирают данные о различных показателях в стране или регионе за определенный период и прогнозируют численность населения в будущем.Это может включать рождаемость, смертность, популярность языков и так далее. Прогнозирование демографии страны играет жизненно важную роль в экономике.
Разработка продукта. Исследователи продукта используют анализ общего недублированного охвата и частоты (TURF), чтобы выяснить, будет ли новый продукт или услуга востребована и будет ли она хорошо принята на целевом рынке на этапе разработки продукта.
Однако реализация дискретных или непрерывных данных не всегда может обеспечивать точные результаты, поскольку существуют проблемы, связанные только с анализом числовых данных.Например:
Дискретные или непрерывные исследования данных могут быть ограничены в поисках статистических взаимосвязей. Это может привести к тому, что исследователи упустят ценную информацию. Сосредоточившись исключительно на цифрах, аналитик рискует упустить общую информацию, которая может принести пользу бизнесу.
При проведении исследования аналитикам необходимо разработать гипотезу и создать модель для сбора и анализа данных. Любые ошибки в настройке, предвзятость со стороны аналитиков или ошибки выполнения могут исказить результаты.Иногда даже выдвижение гипотезы может быть субъективным, особенно если есть конкретный вопрос, на который нужно ответить и подтвердить не только числовыми данными.
Как собирать и агрегировать числовые данные
Какими бы сложными ни были дискретные и непрерывные данные, это наиболее полезный тип в статистическом анализе. Числовые данные позволяют предприятиям принимать решения на основе данных и искать идеи, которые помогают стимулировать рост бизнеса. Выводы, сделанные на основе дискретных и непрерывных данных, также позволяют маркетологам оценивать эффективность своих маркетинговых усилий и реализовывать более эффективные стратегии в будущем.
Whatagraph может пригодиться и упростить трудоемкий процесс сбора и агрегирования данных. Инструмент отчетности автоматически собирает данные из разных источников и представляет их в визуальном отчете. Собранные данные могут быть показаны в виде различных диаграмм и графиков, включая круговые диаграммы для дискретных данных и линейные графики для непрерывных данных.
Нижняя линия
Следовательно, совершенно очевидно, что эти два типа данных различаются в пояснениях и примерах.Дискретные данные представляют собой определенное количество разрозненных значений. Напротив, непрерывные данные показывают любое значение из заданного диапазона.
Понимание числовых данных и разницы между дискретными и непрерывными данными может представлять проблему на начальном этапе. Однако после обработки данных профессионалы по маркетингу смогут подкрепить свои представления о производительности фактическими и точными данными.
Мои данные непрерывны или дискретны? | Блоги
Мои данные непрерывны или дискретны?
Просмотреть все блогиТипы данных
При анализе данных часто бывает необходимо знать, является ли наш набор данных непрерывным или дискретным.Основная причина этого — определить, какой статистический инструмент или методологию нам нужно использовать для анализа данных. Если набор данных является непрерывным, нам необходимо использовать один набор аналитических инструментов или методов, а если данные дискретны, нам придется использовать другой набор инструментов или методов. Я встречал несколько мест в литературе, где это определение типа данных делалось неправильно, и в результате был проведен неправильный анализ данных, что привело к ошибкам в анализе и выводах.В этом блоге мы проведем различие между различными типами данных и, надеюсь, проясним, как вы можете определить тип имеющихся у вас данных.Что такое данные?
Данные — это любая фактическая информация или измерения, которые собираются и используются для принятия решения, обоснования или любых расчетов. Нам необходимо обработать данные, чтобы извлечь и понять информацию, которую они нам сообщают. Данные — это язык процесса, который сообщает нам, что с ним происходит.Различные типы данных
Существуют различные способы классификации данных, но мы будем использовать следующую простую классификацию, показанную на рисунке ниже.Качественные данные
Данные могут быть как качественными (выражаются в виде текста — пример цвета продукта, описание характеристик продукта), так и количественными (выражаются числами — количество элементов с зеленым цветом равно 4). Например, если мы описываем чашку кофе, качественными данными могут быть «кофе имеет прекрасный вкус», а количественными данными могут быть «температура кофе 76 градусов Цельсия» или «кофе стоит 12 долларов.50 ”.В большинстве случаев, когда мы собираем данные, мы пытаемся собрать количественные данные, чтобы мы могли сделать лучшие выводы из данных. Однако мы также собираем качественные данные по опросам и из других источников. Когда мы собираем количественные данные, мы можем разделить их на два типа: дискретные и непрерывные.
Дискретные данные
Дискретные данные — это данные, для которых все значения в действительной числовой строке невозможны — возможны только определенные значения. Например, оценка, которую вы получаете на школьном экзамене (A, B, C, D или E), является примером дискретных данных, потому что ваша оценка может принимать только одно из этих 5 возможных значений и ничего больше.Дискретные данные можно разделить на три категории: двоичные, номинальные и порядковые. Двоичные данные: Двоичные данные принимают только два возможных значения. Например, лампа горит или лампа не горит, ответ — истина или ложь, 0 или 1, да или нет и т. Д. Если вы собираете данные о количестве отчетов, в которых есть ошибка, это будет пример двоичных данных.
Номинальные данные: Номинальный набор данных может принимать более двух значений, но эти значения не упорядочены — нет естественного упорядочивания или сравнения этих значений.Например, национальность, род занятий, регион, категория дефекта и т. Д. Если вы собираете данные о различных типах ошибок, допущенных отделом, это будет пример номинальных данных.
Порядковые данные: Порядковые данные также принимают несколько значений, но они естественным образом упорядочены — можно сделать вывод, что одно лучше другого. Например, оценки на экзамене, результаты забега, результаты опроса клиентов и т. Д. Например, если вы проводите опрос, и на него есть пять ответов: «Плохо», «Ниже среднего», «Среднее», « Выше среднего »и« Отлично ».Эти пять ответов упорядочены так, чтобы быть примером порядковых данных.
Непрерывные данные
В непрерывном наборе данных теоретически возможно любое значение. Например, вы можете получить такое значение, как 2.37983. Все значения на прямой числовой строке могут быть возможными значениями данных. Например, длина таблицы может принимать любое значение. Только приборные измерения могут ограничивать количество десятичных знаков, которые мы можем сообщить. Если бы у нас был лучший измерительный прибор, теоретически возможно любое значение.Примерами непрерывных данных являются те, которые обычно измеряются, такие как температура, давление, влажность, длина, время и т. Д. Непрерывные данные могут быть дополнительно классифицированы как измеренные по шкале интервалов или шкале отношений.Интервальная шкала: Интервальная шкала — это те значения, которые не имеют естественного нуля. Вы не можете взять соотношение этих чисел — например, температуру в комнате, измеренную в градусах Цельсия.
Масштаб отношения: Масштаб отношения — это те значения, которые имеют натуральный ноль.Например, температура в комнате измеряется в градусах Кельвина. Температура не может опускаться ниже 0 К. Например, среднее время, необходимое для ответа на анкету опроса клиентов, показанную ниже, является примером непрерывных данных.
Вопросы
Давайте рассмотрим несколько примеров, чтобы узнать, можем ли мы классифицировать различные типы данных. Классифицируйте следующие данные как непрерывные или дискретные.- Количество ДТП за месяц в Чикаго
- Результаты опроса об удовлетворенности клиентов (по шкале от 1 до 5)
- Время доставки товара покупателю в днях
- Доля отсутствующих в классе
- Выручка от продаж продукта за каждый квартал (измеряется в долларах США)
Всегда обращайте внимание на основную природу данных, чтобы определить, является ли набор данных непрерывным или дискретным.Если базовые данные дискретны, то данные следует рассматривать как дискретные. Таким образом, соотношение двух дискретных чисел следует рассматривать как дискретное, например,% элементов, зафиксированных правильно с первого раза. Соотношение дискретных и непрерывных значений следует рассматривать как непрерывное, например среднее время ремонта телевизора.
Следуйте за нами в LinkedIn, чтобы получать последние сообщения и обновления.
Дискретные и непрерывные данные | Онлайн-тренинг по грамотности данных
Данные, которые мы рассматривали в ходе этого курса, имеют фиксированный диапазон значений.
Эти данные известны как дискретные данные.
Мы еще не встречали данных, которые могли бы принимать какое-либо значение в пределах определенного диапазона, известного как непрерывные данные.
В этом уроке мы исследуем разницу между дискретными и непрерывными данными. Дискретные данные относятся к переменным, которые могут принимать только конкретный, четко определенный набор значений.
Каждое из этих значений отличается. И между каждым значением есть четкий шаг, между которыми нет других значений.
Чаще всего под дискретными данными понимаются данные, которые можно подсчитать с использованием целых чисел.
Давайте рассмотрим пример результатов тестов, полученный несколько уроков назад. В этом тесте студенты могли набрать от нуля до 50 баллов.
В этом случае существует 51 возможное значение для тестовой оценки студента.
Мы можем найти числа от нуля до 50, которые не являются допустимыми значениями, например, 36,5 или 46,72263.
В результате результаты тестов являются дискретными данными.
Хотя большинство дискретных данных относятся к тому, что мы можем легко подсчитать, они не обязательно должны быть числовыми.
Нечисловые категории можно описать как дискретные данные.
Например, список цветов, предлагаемых производителем автомобилей, может быть обширным, но ограниченным. И можно назвать дискретными данными.
Когда дискретные данные являются числовыми, они не ограничиваются целыми числами.
Рассмотрим доход ресторана от предыдущего урока.
Поскольку деньги приходят с шагом в один цент, это тоже дискретная переменная.
Теоретически ресторан мог заработать любую сумму денег.Однако выручка по-прежнему дискретна. Потому что мы можем думать о невозможных ценностях. Например, 1000 долларов и 17,6 центов.
Теперь рассмотрим непрерывные данные.
Непрерывные данные относятся к переменным, которые могут принимать бесконечное количество различных значений.
Предположим, мы измеряем рост группы людей в метрах. Мы можем измерить одного человека ростом 1,6 метра.
Однако рост человека, вероятно, не совсем 1,6 метра.
Может, на самом деле 1.581 метр, и мы округлили это до 1,6.
Но, может быть, и рост человека не 1,581 метра.
Может быть, они на самом деле 1,58067 метра в высоту, и мы просто не можем это точно измерить.
Фактически, если бы у нас была возможность измерять рост с абсолютной точностью, мы могли бы продолжать бесконечно, все точнее и точнее определять рост этого человека.
В результате можно сказать, что высота является непрерывной переменной. Потому что мы не можем определить конкретный набор ценностей, включающий все возможные высоты любого человека.Другими словами, предположим, что рост любого человека в мире составляет от 0,5 до 2,5 метров.
Если это так, то любое значение в этом диапазоне может быть допустимым ростом для человека. Один человек может быть ростом 1,7 метра. Другой может быть 1,543454.
Кто-то другой может быть ростом 1,865 метра и так далее.
Мы не можем придумать невозможное значение в этом диапазоне, как могли бы, с дискретными данными.
Не всегда ясно, является ли переменная непрерывной или дискретной.
В некоторых случаях имеет смысл игнорировать правильную классификацию переменной.
Давайте снова обратимся к деньгам.
В реальном мире мы можем зарабатывать или тратить деньги только в дискретных единицах.
Следовательно, мы теоретически должны рассматривать деньги как дискретную переменную.
Однако для бизнеса или правительства, чьи доходы и расходы могут измеряться миллионами или даже миллиардами, один или два цента вряд ли будет значительным скачком.
В результате для этих организаций деньги можно рассматривать как непрерывные данные.
В конечном итоге, независимо от того, являются ли данные дискретными или непрерывными, может зависеть от того, что вы с ними делаете. Скорее, какое-то фиксированное неизменяемое свойство данных. Понимание того, являются ли ваши данные дискретными или непрерывными, поможет вам понять, как их анализировать.
Например, для анализа непрерывных данных часто требуется создание бункеров данных, как мы видели в предыдущем уроке.
Однако вы можете анализировать дискретные данные и без этого. В зависимости от того, сколько значений присутствует.
В следующем уроке мы рассмотрим корреляцию. Это одна из самых важных, но часто неправильно понимаемых концепций статистики.
Понимание качественных, количественных, атрибутивных, дискретных и непрерывных типов данных
«Данные! Данные! Данные! Я не могу делать кирпичи без глины».
— Шерлок Холмс, в книге Артура Конан Дойля Приключение медных буков
Независимо от того, являетесь ли вы величайшим детективом в мире, пытающимся раскрыть дело, или человеком, пытающимся решить проблему на работе, вам понадобится информация.Факты. Data , как говорит Шерлок Холмс.
Но не все данные одинаковы, особенно если вы планируете анализировать в рамках проекта повышения качества.
Если вы используете статистическое программное обеспечение Minitab, вы можете получить доступ к Ассистенту, который проведет вас по этапам анализа и поможет определить тип имеющихся данных.
Но по-прежнему важно иметь хотя бы базовое представление о различных типах данных и о том, на какие вопросы вы можете с их помощью ответить.
В этом посте я дам общий обзор типов данных, с которыми вы, вероятно, столкнетесь, и мы будем использовать коробку с моими любимыми конфетами — мармеладом — чтобы проиллюстрировать, как мы можем собирать эти различные типы данных. и для каких типов анализа мы можем его использовать.
Два основных вида данных: качественные и количественные
На самом высоком уровне существует два вида данных: количественные и качественные .
Количественные данные имеют дело с числами и объектами, которые можно измерить объективно: такими измерениями, как высота, ширина и длина.Температура и влажность. Цены. Площадь и объем.
Качественные данные имеют дело с характеристиками и дескрипторами, которые нелегко измерить, но которые можно наблюдать субъективно, например запахи, вкусы, текстуры, привлекательность и цвет.
Вообще говоря, когда вы что-то измеряете и присваиваете ему числовое значение, вы создаете количественные данные. Когда вы что-то классифицируете или судите, вы создаете качественные данные. Все идет нормально. Но это только самый высокий уровень данных: есть также разные типы количественных и качественных данных.
Количественные вкусы: непрерывные данные и дискретные данные
Существует два типа количественных данных, которые также называются числовыми данными: непрерывные и дискретные . Как правило, отсчета, являются дискретными, а измерения, — непрерывными.
Дискретные данные — это счет, который невозможно сделать более точным. Обычно это целые числа. Например, количество детей (или взрослых, или домашних животных) в вашей семье — это дискретные данные, потому что вы считаете целые неделимые сущности: у вас не может быть двоих.5 детей или 1,3 домашних животных.
Непрерывные данные, с другой стороны, могут быть разделены и сокращены до более тонких и более тонких уровней. Например, вы можете измерять рост своих детей в все более точных масштабах — в метрах, сантиметрах, миллиметрах и т. Д. — так что рост является непрерывными данными.
Если я подсчитываю количество отдельных джужубов в коробке, это число является частью дискретных данных.
Если я использую весы для измерения веса каждой мармеладки или веса всей коробки, это непрерывные данные.
Непрерывные данные могут использоваться во многих различных тестах гипотез. Например, чтобы оценить точность веса, напечатанного на коробке с мармеладом, мы могли бы измерить 30 коробок и выполнить t-тест для 1 выборки.
В некоторых анализах одновременно используются непрерывные и дискретные количественные данные. Например, мы могли бы выполнить регрессионный анализ, чтобы увидеть, коррелирует ли вес коробок мармеладов (непрерывные данные) с количеством мармеладов внутри (дискретные данные).
Качественные разновидности: биномиальные данные, номинальные данные и порядковые данные
Когда вы классифицируете или классифицируете что-либо, вы создаете Качественные или атрибутные данные. Есть три основных вида качественных данных.
Двоичные данные помещают вещи в одну из двух взаимоисключающих категорий: правильное / неправильное, истинное / ложное или принятие / отклонение.
Время от времени я получаю коробку с мармеладом, содержащую пару отдельных кусочков, которые либо слишком твердые, либо слишком сухие.Если бы я просмотрел коробку и классифицировал каждую деталь как «хорошо» или «плохо», это были бы двоичные данные. Я мог бы использовать такие данные для разработки статистической модели, чтобы предсказать, как часто я могу ожидать получать плохой мармелад.
При сборе данных неупорядоченных или номинальных мы относим отдельные элементы к именованным категориям, которые не имеют неявного или естественного значения или ранга. Если бы я просмотрел коробку с мармеладом и записал цвет каждого из них на своем листе, это были бы номинальные данные.
Данные такого типа можно использовать по-разному — например, я мог бы использовать анализ хи-квадрат, чтобы увидеть, есть ли статистически значимые различия в количестве каждого цвета в поле.
У нас также может быть упорядоченных или порядковых данных , в которых элементы назначаются категориям, которые имеют какой-то неявный или естественный порядок, например «Короткий, Средний или Высокий». Другой пример — вопрос опроса, в котором нам предлагается оценить элемент по шкале от 1 до 10, где 10 — лучший результат.Это означает, что 10 лучше, чем 9, что лучше, чем 8, и так далее.
Использование упорядоченных данных является предметом споров среди статистиков. Все согласны с тем, что это подходит для создания гистограмм, но помимо этого ответ на вопрос «Что мне делать с моими порядковыми данными?» «Это зависит от обстоятельств». Вот сообщение из другого блога, которое предлагает отличное резюме затронутых соображений.
Дополнительные ресурсы о данных и распределениях
Чтобы узнать больше о статистике, которую вы можете сделать с конфетами, ознакомьтесь с этой статьей (в формате PDF): Статистические концепции: чему нас могут научить M&M.
Для более глубокого изучения распределений вероятностей, применимых к различным типам данных, ознакомьтесь с сообщениями моего коллеги Джима Фроста о понимании и использовании дискретных распределений и о том, как определить распределение ваших данных.
Разница между дискретными и непрерывными данными (со сравнительной таблицей)
Последнее обновление: , автор: Surbhi S
В статистике данные определяются как факты и цифры, собранные вместе с целью анализа.Он разделен на две большие категории: качественные данные и количественные данные. Кроме того, качественные данные не могут быть измерены в числах, и они подразделяются на номинальные и порядковые данные. С другой стороны, количественные данные — это данные, содержащие числовые значения и использующие диапазон. Он подразделяется на дискретные и непрерывные данные. Дискретные данные содержат конечные значения, между которыми нет ничего промежуточного
В отличие от непрерывные данные содержит данные, которые можно измерить, включая дробные и десятичные дроби.Прочтите статью, чтобы узнать разницу между дискретными и непрерывными данными
Содержание: дискретные данные против непрерывных данных
- Сравнительная таблица
- Определение
- Ключевые отличия
- Заключение
Сравнительная таблица
Основа для сравнения | Дискретные данные | Непрерывные данные |
---|---|---|
Значение | Дискретные данные — это данные, между значениями которых есть пустые промежутки. | Непрерывные данные — это данные, которые попадают в непрерывную последовательность. |
Природа | Счетный | Счетный |
Значения | Может принимать только отдельные или отдельные значения. | Может принимать любое значение в некотором интервале. |
Графическое представление | Гистограмма | Гистограмма |
Таблица известна как | Несгруппированное частотное распределение. | Сгруппированное частотное распределение. |
Классификация | Взаимоисключающая | Взаимоисключающая |
Функциональный график | Показывает изолированные точки | Показывает соединенные точки |
Пример | Дни недели | Рыночная цена товара |
Определение дискретных данных
Термин дискретный означает отдельный или отдельный. Итак, дискретные данные относятся к типу количественных данных, основанных на подсчетах.Он содержит только конечные значения, разделение которых невозможно. Он включает только те значения, которые можно считать только целыми или целыми числами, и которые являются отдельными, что означает, что данные не могут быть разбиты на дробные или десятичные числа.
Например, Количество учеников в школе, количество машин на стоянке, количество компьютеров в компьютерном классе, количество животных в зоопарке и т. Д.
Определение непрерывных данных
Непрерывные данные описываются как непрерывный набор наблюдений; что можно измерить по шкале.Может принимать любое числовое значение в пределах конечного или бесконечного диапазона возможных значений. Статистически диапазон относится к разнице между самым высоким и самым низким показателем. Непрерывные данные можно разбить на дробные и десятичные дроби, то есть их можно разумно разделить на более мелкие части в соответствии с точностью измерения.
Например, Возраст, рост или вес человека, время, затраченное на выполнение задачи, температура, время, деньги и т. Д.
Ключевые различия между дискретными и непрерывными данными
Разницу между дискретными и непрерывными данными можно ясно увидеть по следующим причинам:
- Дискретные данные — это тип данных, между значениями которых есть пустые пробелы.Непрерывные данные — это данные, которые находятся в непрерывной последовательности.
- Дискретные данные можно считать, а непрерывные данные можно измерить.
- Дискретные данные содержат отдельные или отдельные значения. С другой стороны, непрерывные данные включают любое значение в пределах диапазона.
- Дискретные данные графически представлены гистограммой, тогда как гистограмма используется для графического представления непрерывных данных.
- Табулирование дискретных данных по одному значению называется несгруппированным частотным распределением.Напротив, табулирование непрерывных данных, сделанное для группы значений, называется сгруппированным частотным распределением.
- Перекрывающаяся или взаимоисключающая классификация, такая как 10-20, 20-30, .. и т. Д., Выполняется для непрерывных данных. В отличие от дискретных данных, неперекрывающаяся или взаимно включающая классификация, такая как 10-19,20-29,…. И т. Д., Выполняется для дискретных данных.
- На графике дискретной функции показана отдельная точка, которая остается несвязанной. В отличие от непрерывного функционального графика, точки соединены непрерывной линией
Заключение
Следовательно, с приведенным выше объяснением и примером будет совершенно ясно, что эти два типа данных различаются.Дискретные данные предполагают определенное количество изолированных значений. В отличие от непрерывных данных, которые ожидают любое значение из заданного диапазона (без каких-либо перерывов) и связаны с физическим измерением.
Дискретные и непрерывные данные — ArcMap | Документация
Доступно с лицензией 3D Analyst.
Значения, присвоенные ячейкам поверхности, могут быть представлены как дискретные или непрерывные данные. Объекты и поверхности в ArcGIS могут быть представлены как дискретные, так и непрерывные данные.
Дискретные данные, также известные как категориальные или прерывистые данные, в основном представляют объекты как в системах хранения пространственных, так и растровых данных. Дискретный объект имеет известные и определяемые границы. Легко точно определить, где объект начинается и где заканчивается. Озеро — это отдельный объект в окружающем ландшафте. Точно можно установить, где край воды встречается с сушей. Другие примеры дискретных объектов включают здания, дороги и земельные участки. Дискретные объекты обычно являются существительными.
Непрерывные данные или непрерывная поверхность представляют собой явления, в которых каждое место на поверхности является мерой уровня концентрации или его зависимости от фиксированной точки в пространстве или от источника излучения. Непрерывные данные также называются полевыми, недискретными или поверхностными данными.
Один тип непрерывных данных поверхности выводится из тех характеристик, которые определяют поверхность, где каждое местоположение измеряется от фиксированной точки регистрации. К ним относятся высота (фиксированной точкой является уровень моря) и аспект (фиксированной точкой является направление: север, восток, юг и запад).
Сравнение дискретных и непрерывных пространственных объектов
Большинство приложений ArcGIS используют дискретную географическую информацию, такую как землевладение, классификация почв, зонирование и землепользование. Эти типы данных представлены номинальными, порядковыми, интервальными и относительными значениями. Поверхности представляют собой непрерывные данные, такие как высота над уровнем моря, количество осадков, концентрация загрязнения и уровень грунтовых вод. Эти данные могут быть представлены в виде сплошной поверхности, как правило, без резких или резких изменений.
Дискретные элементы
Дискретные элементы являются прерывистыми и имеют определенные границы элементов.Например, дорога имеет ширину и длину и представлена на карте в виде линии. Карта землевладения показывает границы между разными участками. Есть определенные изменения в характеристиках (таких как имя владельца, номер участка и юридическая зона) между каждым объектом на карте.
Пример отдельных объектов можно увидеть на этой карте землевладения.
Дискретные объекты карты также можно рассматривать как тематические данные. Эти данные или объекты карты легко представить на картах в виде точек, линий или областей.К настоящему времени вы узнали, как структура данных ArcGIS представляет топологические отношения двухмерных объектов. Атрибуты могут быть присвоены объектам карты и использованы для их описания, построения, обозначения и маркировки. Кроме того, может быть проведен дальнейший анализ для определения или выявления новых отношений между этими функциями.
Непрерывные элементы
Напротив, непрерывные элементы не являются пространственно дискретными. Как правило, переход между возможными значениями на непрерывной поверхности происходит без резких или четко определенных разрывов между значениями.Атрибут поверхности сохраняется как z-значение, единственная переменная в вертикальном измерении, связанная с заданным местоположением x, y. Например, значения отметок поверхности непрерывны по всей поверхности. Любое представление поверхности — это просто образец (подмножество) значений всей поверхности.
Постепенно изменяющиеся непрерывные данные
Второй тип непрерывных данных о поверхности включает явления, которые постепенно меняются по мере движения по поверхности от источника.Примерами постоянно меняющихся данных на поверхности являются движение жидкости и воздуха. Эти поверхности характеризуются типом или манерой движения явления.
Один из типов движения — это диффузия или любое другое передвижение, при котором явления перемещаются из областей с высокой концентрацией в области с меньшей концентрацией до тех пор, пока уровень концентрации не выровняется. Поверхностные характеристики этого типа движения включают концентрацию соли, перемещающуюся через землю или воду, разлив нефти и тепло от лесного пожара.В этом типе сплошной поверхности должен быть источник. Концентрация всегда выше вблизи источника и уменьшается в зависимости от расстояния и среды, через которую движется вещество.
На приведенной выше поверхности концентрации источника концентрация явления в любом месте является функцией способности события перемещаться через среду.
Другой тип движения определяется характеристиками, присущими движущемуся объекту, или режимом передвижения.Например, движение шума от взрыва бомбы определяется внутренними характеристиками шума и средой, в которой он движется. Способ передвижения также может ограничивать и напрямую влиять на поверхностную концентрацию объекта, как в случае распространения семян от растения. Средства передвижения, будь то пчелы, человек, ветер или вода, влияют на поверхностную концентрацию семян, рассеиваемых растением.
Другие примеры передвижения включают рассредоточение популяций животных, потенциальных покупателей магазина (автомобиль является средством передвижения, а время является ограничивающим фактором) и распространение болезни.
Дискретный или непрерывный?
При представлении и моделировании многих объектов границы не являются четко непрерывными или дискретными. Континуум создается при представлении географических объектов, причем крайними значениями являются чисто дискретные и чисто непрерывные объекты. Большинство функций находятся где-то между крайностями.
Примерами объектов, попадающих в континуум, являются типы почв, опушки леса, границы водно-болотных угодий и географические рынки, на которые влияет телевизионная рекламная кампания.Определяющим фактором для того, где объект попадает в непрерывный или дискретный спектр, является простота определения границ объекта. Независимо от того, в какую часть континуума попадает объект, растр может представить его с большей или меньшей точностью.
При принятии решений на основе полученных значений важно понимать тип моделируемых данных, будь то дискретные или непрерывные. Точное место для постройки не должно основываться исключительно на карте почв. Площадь леса не может быть основным фактором при определении доступной среды обитания оленей.Кампания продаж не должна основываться только на географическом рыночном влиянии телерекламы.