Способы визуального представления данных. Методы визуализации

Легко распознают лица и без затруднения воспринимают небольшие изменения в нём. Американский математик Герман Чернов в 1973 году опубликовал работу, в которой изложил концепцию использования этой способности восприятия лица человека для построения пиктографиков. Их применяют, как правило, в двух случаях: 1) когда нужно выявить характерные зависимости или группы наблюдений и 2) когда необходимо исследовать предположительно сложные взаимосвязи между несколькими переменными. Лица Чернова являются одним из самых эффективных способов визуализации многомерных данных, и позволяет легко оценивать одновременно большое их количество.

«Из всех зрительных навыков у человека сильнее всего развита способность к восприятию лиц других людей. Особый участок коры головного мозга узнает лицо, определяет направление взгляда и т. д. Другие части мозга (миндалевидное тело и островковая доля) анализируют выражение лица, а участок в префронтальной зоне лобной доли и система мозга, отвечающая за чувство удовольствия, оценивают его красоту».

Для каждого наблюдения рисуется отдельное «лицо», где относительные значения выбранных переменных представлены как формы и размеры отдельных черт лица (например, длина носа, угол между бровями, ширина лица). Таким образом, наблюдатель может идентифицировать уникальные для каждой конфигурации значений наглядные характеристики объектов.

Параметры лица

Может использоваться, например, 18 параметров: размер глаза, размер зрачка, позиция зрачка, наклон глаза, горизонтальная позиция глаза, вертикальная позиция глаза, изгиб брови, плотность брови, горизонтальная позиция брови, вертикальная позиция брови, верхняя граница волос, нижняя граница волос, обвод лица, темнота волос, наклон штриховки волос, нос, размер рта, изгиб рта.

Ссылки

  • Herman Chernoff (1973). «The Use of Faces to Represent Points in K-Dimensional Space Graphically». Journal of the American Statistical Association 68 (342): 361-368
  • Соболева А. Г. Когнитивная визуализация знаний с помощью Лиц Чернова

Wikimedia Foundation . 2010 .

  • Лица (фильм)
  • Лица в толпе

Смотреть что такое "Лица Чернова" в других словарях:

    Чернова - весьма известная в свое время драматическая актриса Симферопольского театра, умерла в Симферополе 16 го марта 1877 года, на двадцатом году жизни. Не получив никакого сценического образования и не имея перед собой примеров, достойных подражания,… … Большая биографическая энциклопедия

    Чернов, Герман - В Википедии есть статьи о других людях с такой фамилией, см. Чернов. Герман Чернов Дата рождения: 1 июля 1923(1923 07 01) (89 лет) Место рождения: Нью Йорк Научная сфера: Прикладная математика, п … Википедия

    Физиогномика - Это статья о неакадемическом направлении исследований. Пожалуйста, отредактируйте статью так, чтобы это было ясно как из её первых предложений, так и из последующего текста. Подробности в статье и на странице обсуждения … Википедия

лицах Чернова " состоит в кодировании значений различных переменных в характеристиках или чертах человеческого лица . Пример такого "лица" приведен на рис.16.2 .


Рис. 16.2. "Лицо Чернова"

Для каждого наблюдения рисуется отдельное "лицо". На каждом "лице" относительные значения переменных представлены как формы и размеры отдельных черт лица (например, длина и ширина носа, размер глаз, размер зрачка, угол между бровями).

Анализ информации при помощи такого способа отображения основан на способности человека интуитивно находить сходства и различия в чертах лица.

На рис. 16.3 представлен набор данных, каждая запись которого выражена в виде " лица Чернова ".


Рис. 16.3. Пример многомерного изображения данных при помощи "лиц Чернова"

Перед использованием методов визуализации необходимо:

  • Проанализировать, следует ли изображать все данные или же какую-то их часть.
  • Выбрать размеры, пропорции и масштаб изображения.
  • Выбрать метод, который может наиболее ярко отобразить закономерности, присущие набору данных.

Многие современные средства анализа данных позволяют строить сотни типов различных графиков и диаграмм. Поэтому выбор метода визуализации, если он самостоятельно осуществляется пользователем, не так прост и легок, как может показаться на первый взгляд. Наличие большого количества средств визуализации, представленных в инструменте, который применяет пользователь , может даже вызвать растерянность.

Одну и ту же информацию можно представить при помощи различных средств. Для того чтобы средство визуализации могло выполнять свое основное назначение - представлять информацию в простом и доступном для человеческого восприятия виде - необходимо придерживаться законов соответствия выбранного решения содержанию отображаемой информации и ее функциональному назначению. Иными словами, нужно сделать так, чтобы при взгляде на визуальное представление информации можно было сразу выявить закономерности в исходных данных и принимать на их основе решения.

Среди двухмерных и трехмерных средств наиболее широко известны линейные графики, линейные, столбиковые, круговые секторные и векторные диаграммы.

При помощи линейного графика можно отобразить тенденцию, передать изменения какого-либо признака во времени. Для сравнения нескольких рядов чисел такие графики наносятся на одни и те же оси координат.

Гистограмму применяют для сравнения значений в течение некоторого периода или же соотношения величин.

Круговые диаграммы используют, если необходимо отобразить соотношение частей и целого, т.е. для анализа состава или структуры явлений. Составные части целого изображаются секторами окружности. Секторы рекомендуют размещать по их величине: вверху - самый крупный, остальные - по движению часовой стрелки в порядке уменьшения их величины. Круговые диаграммы также применяют для отображения результатов факторного анализа, если действия всех факторов являются однонаправленными. При этом каждый фактор отображается в виде одного из секторов круга.

Выбор того или иного средства визуализации зависит от поставленной задачи (например, нужно определить структуру данных или же динамику процесса) и от характера набора данных.

Лица Чернова (Chernoff Faces) - это схема визуального представления мультивариативных данных в виде человеческого лица. Каждая часть лица: нос, глаза, рот - представляет собой значение определенной переменной, назначенной для этой части (всего 18).

Основная идея в том, что для человека очень естесственно смотреть на лица, ведь все люди делают это каждый день. Поэтому анализ данных получается эдаким «натуралистичным». Легко делать сравнения и легко выявлять отклонения. Даже блондинки смогут производить мультивариативный анализ значительного количества данных.

В 1981 году Бернард Флури и Ганс Ридвил (Bernhard Flury and Hans Riedwyl) улучшили концепцию и добавили лицам Чернова асимметрию. Таким образом количество переменных увеличилось вдвое - до 36.

Итак, каждое лицо - это массив из 18 элементов, каждый из которых принимает значение от 0 до 1. Значению соответствует внешний вид соответствующей части лица. Параметры исследуемых объектов приводятся к этим значениям. Экстремумы реальных данных будут приняты как 0 и 1. Все остальное - лежащим в этом промежутке. По полученному массиву конструируется лицо.

Или под катом


Вот какие параметры задаются у лица:

1. Размер глаза
2. Размер зрачка
3. Позиция зрачка
4. Наклон глаза
5. Горизонтальная позиция глаза
6. Вертикальная позиция глаза
7. Изгиб брови
8. Плотность брови
9. Горизонтальная позиция брови
10. Вертикальная позиция брови
11. Верхняя граница волос
12. Нижняя граница волос
13. Обвод лица
14. Темнота волос
15. Наклон штриховки волос
16. Нос
17. Размер рта
18. Изгиб рта

Сложность заключается в правильном сопоставлении исследуемых переменных с частями лица. При ошибке важные закономерности могут остаться незамеченными.

Флури приводит пример удачного анализа с помощью лиц. Он проанализировал 100 реальных и 100 поддельных банкнот по параметрам размера границ, отступов и диагоналей. Вот что получилось:

Поддельные банкноты четко выделились в отдельную группу. Таким образом анализ позволил выявить различающиеся группы объектов.

Асимметрия позволяет рассматривать объекты в прогрессе. Второй пример показывает различные параметры у пациентов, к которым применялось лечение. Левая сторона лица показывает значения параметров до, а правая - после лечения.

Посмотрите как изменилось состояние параметров. Легко можно понять кому и насколько стало лучше, даже не вникая в сущность исследуемых параметров.

Статью Graphical Representation of Multivariate Data by Means of Asymmetrical Faces (by Bernard Flury and Hans Riedwyl) можно почитать на JSTOR

Если у вас нет доступа, я могу вам ее прислать в обмен на интересую ссылку, о которой я еще не знаю.

Проиллюстрируем графические возможности пакета . Будем использовать следующую базу данных: в первом столбце содержится дата (информация фиксировалась по 2 раза в месяц в течении месяца), во втором - цены на газ Газпрома на Лондонской товарной бирже на текущий день (данные взяты с сайта http://www.lme.com), во второй - курс евро (http://www.audito.ru/rateofexchange).

Таблица 1. Исходные данные

Остальные столбцы содержат вымышленную информацию. Мы предполагаем, что имеется некоторая номинальная переменная, принимающая только два значения -1 и 0 (показывающая, например, наличие/отсутствие некоторого фактора, влияющего на результаты торгов) и некоторая категориальная переменная с натуральными значениями 5, 6, 7, 8, 9 и 10 (означающая, например, рейтинг Газпрома). Столбцы 6-8 показывают минимальный, средний и максимальный курсы евро в течении дня, а столбцы 9-11 - вероятности увеличения, уменьшения курса и того, что курс останется неизменным. Естественно, что сумма значений в трёх последних столбцах равна 1 для каждого наблюдения.

Таблица содержит 25 наблюдений.

Круговые диаграммы

Начнём с простейших графиков.

Круговая диаграмма является одним из наиболее часто используемых графических форматов для представления пропорций или значений переменных

Пусть, например, Вам нужно включить в доклад диаграмму, показывающую, какое относительное количество времени значение курса евро находилось в промежутках, по величине равных восьмой части всего диапазона изменения курса. Зайдём в модуль Графика/2M Графики/Круговые диаграммы .

На вкладке Дополнительно укажем переменную - Курс евро и количество категорий - 8. Можно указать тип диаграммы (2M,3M) и форму (окружность, эллипс).

Задание параметров графика Круговые диаграммы

Нажмём OK .

Круговая диаграмма переменной Курс евро

Линейные графики

На линейных графиках отдельные точки данных соединены линией. Эти графики являются простым способом представления и исследования последовательностей значений. Графики трассировочного типа можно использовать для воспроизведения следа (а не последовательности). Также линейные графики применяются для изображения непрерывных функций, теоретических распределений и т.п.

В нашем случае данные во втором и третьем столбцах вполне естественно интерпретировать как временные ряды, поэтому линейные графики являются очень эффективным средством визуализации.

К примеру, пусть мы хотим визуально проанализировать различия в динамиках изменений результатов торгов и курса евро. Для этого запустим Графика/2M Графики/Линейный график (для переменных) .

На вкладке Быстрый укажем интересующие нас переменные и тип графика - Составной .

Построенный график окажется несодержательным:

Линейный график переменных Цены на газ и Курс евро

Причина понятна - колебания курса евро незначительны по сравнению с колебанием результатов торгов. Поэтому укажем другой тип графика - с двойной осью Y (вкладка Дополнительно ).

Вкладка Дополнительно окна 2M линейные графики

Сделаем ещё одно изменение. На вкладке Параметры1 укажем в группе Параметры отображения в качестве метки наблюдений Переменная , а в качестве переменной - Дата .

Нажмём OK .

График с двойной осью Y переменных Цены на газ и Курс евро.

Диаграмма Вороного

Частным случаем диаграмм рассеяния является диаграмма Вороного

Эта особая диаграмма рассеяния одной переменной является в большей степени аналитическим средством, нежели просто методом графического представления данных. Предлагаемые ею решения помогают моделировать множество явлений в естественных и социальных науках (см. Coombs, 1964 г.; Ripley, 1981 г.). Программа разделяет пространство между точками данных, представленными координатами X, Y в двумерном пространстве. Пространство между отдельными точками данных делится границами на такие области, каждая точка которых находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных. Использование этого метода сильно зависит от области исследования; однако во многих случаях к этой диаграмме полезно добавлять дополнительные измерения, используя категоризацию и выбор сложных подгрупп.

Диаграмма Вороного категориальной переменной и курса евро

Трассировочный график

Трассировочный график является частным случаем линейного графика.

На трассировочных графиках сначала строится диаграмма рассеяния двух переменных, а затем отдельные точки данных соединяются линией (в порядке их считывания из файла данных). В этом смысле трассировочные графики визуализируют "путь" последовательного процесса (движение, изменение явления во времени и т.п.).

Трассировочный график переменных Цены на газ Газпрома и Курс евро

График вероятность - вероятность

На графике вероятность-вероятность строится зависимость между наблюдаемой функцией распределения (доля непропущенных значений ≤ x) и теоретической функцией распределения для оценки подгонки теоретического распределения к наблюдаемым данным. Если все точки графика попадают на диагональную линию (со сдвигом 0 и наклоном 1), то можно сделать вывод, что теоретическое распределение точно приближает наблюдаемое распределение. Если точки данных не попадают на диагональную линию, то этот график можно использовать для наглядной проверки, подходит ли распределение к данным (например, если точки располагаются в форме буквы S относительно диагональной линии, то может потребоваться преобразование данных для того, чтобы привести их распределение к нужному виду).

Пусть, например, мы хотим визуально проверить, является ли распределение величины Курс евро нормальным. Для этого укажем на вкладке Дополнительно тип распределения - нормальное, а также поставим галочку в поле Вычислить по данным .

Задание параметров построения графиков вероятность-вероятность.

Нажмём ОК .

График вероятность - вероятность для переменной Курс евро

Последовательные / наложенные графики

Все типы графиков из этой группы используются для представления последовательностей значений. Наложенный вид этих графиков специально разработан для представления большой категории множеств данных, в которых последовательные переменные представляют части ("порции") целого.

Например, построим наложеннный график типа Зонный для переменных Вероятность уменьшения курса евро , Вероятность того, что курс евро не изменится и Вероятность увеличения курса евро .

Наложенный (зонный) график для переменных, обозначающих вероятности колебания курса евро

Диаграмма размаха

На диаграммах размаха диапазоны значений выбранной переменной (или переменных) строятся отдельно для групп наблюдений, определяемых значениями категоризующей (группирующей) переменной. Центральная тенденция (например, медиана или среднее) и статистики диапазонов или вариации (например, квантили, стандартные ошибки или стандартные отклонения) вычисляются для каждой группы наблюдений, а выбранные переменные представляются в стиле, указанном в списке Тип графика (на вкладке Быстрый или Дополнительно диалогового окна 2М диаграммы размаха ). Здесь можно указать и точки выбросов.

Пусть нам нужно узнать, какие значения цен на газ наиболее вероятны при различных значениях категориальной переменной.

Диаграмма размаха цен на газ в зависимости от значения категориальной переменной.

Диаграмма диапазонов

На диаграммах диапазонов системы представлены диапазоны значений или столбцы ошибок, относящиеся к определенным точкам данных, в форме прямоугольников или отрезков. В отличие от стандартных диаграмм размаха диапазоны или столбцы ошибок не вычисляются по данным, а определяются исходными значениями выбранных переменных. Для каждого наблюдения строится один диапазон или столбец ошибок. В простейшем случае нужно выбрать три переменные, одна из которых будет представлять средние точки, другая - верхние границы, а третья - нижние границы.

Например, построим графики для переменных Минимальный , Средний и Максимальный курс.

Диаграмма диапазонов для переменных Минимальный, Средний и Максимальный курс.

Тернарные графики

Тернарные (или "трехлинейные") графики используются для исследования связей между несколькими переменными, когда три из них представляют собой, например, компоненты смеси (это означает, что сумма их остается постоянной для всех наблюдений). Обычное такие графики применяются при экспериментальном исследовании зависимости отклика от относительного содержания трех компонент (например, трех химических соединений), при этом соотношение компонент изменяется с целью определения его оптимального значения (например, при составлении смеси). На тернарных графиках для построения зависимости четырех (или более) переменных (компонент X, Y и Z и откликов V1, V2 и т.д.) используется треугольная система координат на плоскости (тернарные диаграммы рассеяния или линии уровня) или в пространстве (тернарные трехмерные диаграммы рассеяния или поверхности). При построении тернарного графика относительная доля каждой компоненты (для каждого наблюдения) ограничена их общей постоянной суммой (например, 1). При создании графика масштаб долей по умолчанию изменяется таким образом, чтобы эта сумма была равна 1 для каждого наблюдения

В нашем случае вполне естественно построить тернарный график для переменных, обозначающим измененение курса евро.

Двумерный тернарный график переменных, обозначающих вероятности изменения курса.

Лица Чернова

Лица Чернова это один из наиболее искусно разработанных типов пиктографиков. Для каждого наблюдения рисуется отдельное лицо . Переменные представлены как формы и размеры отдельных черт лица (например, длина носа, угол между бровями, ширина лица). Соответствие представленных на графике переменных конкретным чертам лица могут быть установлены в диалоговом окне

Покажем на нашем примере, как можно применять опцию включить подгруппы .

На вкладке Дополнительно нажмём кнопку Выделить пиктограммы и в появившемся окне укажем условие выбора: v3>34,5 (то есть мы хотим выделить пиктограммы, которые соответствуют дням, в которых курс евро был более 34,5).

Окно Задать подгруппы

На вкладке Дополнительно окна Пиктографики укажем переменные: Категориальная и Номинальная

Пиктограмма Лица Чернова

Ширина лица соответствует номинальной переменной, а уровень уха - категориальной. Пунктирной рамкой обведены лица, построенные по наблюдениям, удовлетворяющие указанному условию.

Chernoff faces ) - отображение многомерных данных в виде человеческого лица , его отдельных частей. Люди легко распознают лица и без затруднения воспринимают небольшие изменения в нём.

Для каждого наблюдения рисуется отдельное «лицо», где относительные значения выбранных переменных представлены как формы и размеры отдельных черт лица (например, длина носа, угол между бровями, ширина лица). Таким образом, наблюдатель может идентифицировать уникальные для каждой конфигурации значений наглядные характеристики объектов.

Параметры лица

Может использоваться, например, 18 параметров: размер глаза, размер зрачка, позиция зрачка, наклон глаза, горизонтальная позиция глаза, вертикальная позиция глаза, изгиб брови, плотность брови, горизонтальная позиция брови, вертикальная позиция брови, верхняя граница волос, нижняя граница волос, обвод лица, темнота волос, наклон штриховки волос, нос, размер рта, изгиб рта.

В 1981 году Бернард Флури и Ганс Ридвил (Bernhard Flury and Hans Riedwyl) улучшили концепцию и добавили лицам Чернова асимметрию , что позволило увеличить вдвое количество переменных (до 36).

Применение лиц Чернова

Лица Чернова нашли широкое применение для анализа ситуации в самых разных областях. Этот метод позволяет быстро оценивать состояние многофакторных систем (10-30-мерные множества), используя врожденную способность человека быстро оценивать изменения в лице человека по многим параметрам: оценка методов лечения , массива статистических данных, оценки режима на атомных электростанциях, в

Похожие публикации