Ну, ооооочень большие данные…. «Файлы и их обработка

Если страницы на вашем сайте размечены специальным образом, в Google Поиске могут отображаться их расширенные описания и другая полезная информация. Например, расширенное описание для сайта ресторана может содержать сводный отзыв и информацию о ценах. Данные на странице структурируются с помощью глоссария schema.org или в таких форматах, как микроданные, RDF, микроформаты и т. д. Кроме того, в Search Console для этой цели предусмотрен инструмент Маркер .

В Search Console на странице "Структурированные данные" можно просмотреть соответствующую информацию о вашем сайте, собранную роботом Googlebot. Также здесь будут сведения обо всех ошибках в разметке, которые мешают показу расширенных описаний или другой полезной информации в результатах поиска.

На странице Структурированные данные перечислены все типы структурированных данных на вашем сайте, а также информация о наличии в них ошибок.

Указываются только объекты верхнего уровня, обнаруженные на страницах. Например, если ваша страница содержит объект schema.org/Event , в который вложены данные schema.org/Place , учитываться будет только свойство Event .

Если в списке отсутствуют структурированные данные, которые вы добавили на страницу с помощью микроформатов, микроданных или RDFa, воспользуйтесь этим инструментом . Он позволяет проверить, может ли Google получить доступ к информации на странице и распознать разметку.

Диагностика и устранение ошибок в разметке 1. Выясните, в каких типах структурированных данных есть ошибки

Статистика по каждому из типов данных приведена в таблице под графиком. Для наглядности все типы отсортированы по количеству ошибок. Обратите внимание, что слово "элемент" в этой таблице означает один HTML-тег в исходном коде страницы. Поэтому если на сайте, к примеру, есть тип данных "Фильмы" с ошибками в 3000 элементов и тип "Места" с ошибками в 42 элементах, то начните работу по устранению ошибок с фильмов.

2. Определите тип ошибок

Нажмите на тип структурированных данных в таблице, чтобы увидеть подробный список всех проблемных элементов, которые к нему относятся. Появится список длиной до 10 000 URL, в котором для каждой страницы будет указано количество ошибок и их тип. Нажмите на URL, чтобы увидеть обнаруженные фрагменты разметки, например типы элементов и свойства.

Существует два типа ошибок в структурированных данных:

Отсутствующие поля
Например, в расширенном описании веб-страницы мероприятия указаны место и исполнитель, но не указана дата проведения.
Отсутствует минимальная или максимальная оценка
Например, товар оценен по пятибалльной шкале, но свойства bestRating (5) или worstRating (1) не размечены.

3. Исправьте разметку на сайте

Начните расследование с примеров, указанных в разделе "Структурированные данные". Меры по исправлению целиком зависят от того, как вы внедряли разметку на сайте. Например, если вы делали это с помощью системы управления контентом (CMS), скорее всего, придется откорректировать ее настройки.

26.05.2017 Время прочтения: 30 минут

Одно из самых сокровенных желаний владельцев сайтов и SEO-специалистов - это выделить свой сайт в результате поиска, чтобы он отличался от конкурентов, и пользователи чаще переходили на него. Самый действенный метод достижения этой цели – работа со структурированными данными. В этой статье мы постараемся разобраться, что же такое структурированные данные и как их можно внедрить на свой сайт.

С чего все началось?

Единая схема форматов семантической разметки сайтов, которую мы сейчас все знаем и применяем, появилась в 2011 году при поддержке таких гигантов, как «Google», «Yahoo!» и «Microsoft» (позже присоединился четвертый игрок – «Яндекс»). До этого разметка данных существовала в разных форматах и не было единой структуры. К примеру, у «Yahoo!» был сервис под названием «SearchMonkey», который уже в 2008 г. позволял размечать данные на странице и формировать уникальные сниппеты в поисковой выдаче своего поисковика.

Перед корпорациями стояла глобальная цель – разработать общий формат структурированных данных, которые бы улучшали отображение сайтов в поисковых машинах и повышали качество поиска. Поставленных задач инициаторы добились, в результате чего на свет появился словарь schema.org, который объединяет в себе огромное количество правил для микроразметки данных на сайте.

Что такое структурированные данные?

Структурированные данные – это информация, которая представлена в единой и корректной форме с соблюдением определенного комплекса правил.

Расписывать принципы работы с каждым словарем мы не будем, разберем подробнее лишь три из них: Json-ld, Opne Graph и schema.org.

Начнем с популярного словаря по микроразметке schema.org. Результат коллаборации Google, Yahoo!, Microsoft и Яндекса активно развивается и регулярно обновляется и по сей день. На момент создания статьи в словаре имеются описания для 589 типов документов, 860 свойств объектов и 114 специфичных значений. Полный список всех свойств перечислен в виде разветвленной иерархии на этой странице.

Основной высший тип сущности в словаре schema.org - Thing , который, в свою очередь, делится на несколько других подтипов. Некоторые из них:

CreativeWork – общий набор правил для описания творческой деятельности: статьи, книги, фильмы, фотографии, программное обеспечение, и т.д.;
Event – набор правил для событий, которые произошли или произойдут в определенный период времени: встречи, концерты, выставки и т.д.;
Intangible - сервисный класс, который включает в себя несколько нематериальных вещей, таких как размеры, рейтинги, описания рабочих вакансий, услуг и т.д.;
Organization – набор правил для разметки организаций, полный список разных видов бизнеса перечислен на странице localBusiness . Также можно посмотреть этот список в справке Яндекса https://yandex.ru/support/webmaster/supported-schemas/address-organization.html ;
Person – сущность используется для описания живых, умерших, вымышленных личностей или персонажей;
Place – набор правил для чего-то, что имеет фиксированное физическое положение (здание, парк, памятник и т.д.);
Product – это все, что создается для продажи. Например, пара обуви, билет или автомобиль.

Каждый подтип включает в себя большое количество тегов для описания, поэтому практически любой вид бизнеса найдет для себя необходимый вид разметки.

У большинства тегов в словаре есть варианты применения в виде примерного куска HTML-кода или JSON-LD скрипта. Ниже мы рассмотрим примеры разметок страницы со статьей (article), товаром (product) и организацией (organization).

Шаблон микроразметки статьи с помощью schema.org

Чаще всего размечаются такие микроданные как URL, datePublished, dateModified, headline, image, author, publisher и др. Рассмотрим на конкретном примере:

Примеры микроразметки статьи с помощью schema.org ИМЯ ФАМИЛИЯ "ШИРИНА ЛОГО В ПИКСЕЛЯХ" height= "ВЫСОТА ЛОГО В ПИКСЕЛЯХ" src= "ССЫЛКА НА ИЗОБРАЖЕНИЕ ЛОГОТИПА" alt= /> НАЗВАНИЕ СТАТЬИ ОПИСАНИЕ СТАТЬИ ИМЯ АВТОРА ЗАГОЛОВОК H1 "ШИРИНА ПРЕВЬЮ В ПИКСЕЛЯХ" height= "ВЫСОТА ПРЕВЬЮ В ПИКСЕЛЯХ" src= "ССЫЛКА НА ИЗОБРАЖЕНИЕ ПРЕВЬЮ" alt= "АЛЬТЕРНАТИВНОЕ ОПИСАНИЕ ПРЕВЬЮ" /> ОСНОВНОЙ ТЕКСТ СТАТЬИ ДОЛЖЕН БЫТЬ ЗДЕСЬ

Подобной схемы придерживаются большинство размеченных статей. Стоит обратить внимание, что в данном примере часть тегов указываются в разделе (мета-описание и ссылка на автора в g+), а остальная часть прописывается в теле HTML-документа. Некоторые теги использовать не обязательно, к примеру, статья отлично будет себя чувствовать и без разметки тегами articleBody или publisher , но тогда вряд ли пройдет проверку на валидность в инструментах Яндекса или Google .

Изображение 3. Пример страницы в выдаче с микроразметкой статьи в Google. Рядом со статьей отображается дата публикации.

Изображение 4. Пример страницы в выдаче по тому же запросу, что и на изображении 3, только в Яндексе. Дата отображается справа, сверху указывается дата публикации или создания, а ниже дата изменения.

Шаблон микроразметки товарной карточки с помощью schema.org

Следующий вид микроразметки, который мы рассмотрим, будет product или, другими словами, семантическая разметка товарной карточки.

СОДЕРЖАНИЕ H1 "ССЫЛКА НА ИЗОБРАЖЕНИЕ" title= "СОДЕРЖАНИЕ H1" > СТОИМОСТЬ В РУБЛЯХ УКАЗЫВАЕМ ДОСТУПНОСТЬ ТОВАРА ОПИСАНИЕ ТОВАРА

Уделяйте особое внимание формату цен, так как большинство ошибок в микроразметке товарных карточек кроется именно там. Текстом мы можем писать любую стоимость в любом формате, а непосредственно в самом теге price цену указываем строго в денежном формате, иначе поисковики проигнорируют эту строку.

Изображение 5. Пример из выдачи Google с указанием цены в формате «ОТ» и «ДО».

Шаблон микроразметки организации с помощью schema.org

Последний шаблон, который мы рассмотрим, – это разметка организации (organization). Обычно эту разметку применяют для структурирования информации на странице контактов.

НАЗВАНИЕ ОРГАНИЗАЦИИ УЛИЦА , ГОРОД , ОБЛАСТЬ . "ССЫЛКА НА ЛОГОТИП" /> Телефон: НОМЕР ТЕЛЕФОНА

У schema.org весьма объемный словарь. Из-за этого во время работы с ним могут возникать трудности, но далеко не все теги в разметке обязательны и от большинства можно отказаться. В приведенных примерах я указал самые основные теги, которые могут использоваться во время работы с разметкой schema.org, однако их может быть намного больше.

У Google есть специальный инструмент для разметки страниц по словарю schema.org. С его помощью создавать разметку страниц намного проще.

Изображение 6. Пример из Яндекса. Дополнительная информация об организации отображается под описанием страницы и может быть внедрена как вручную, с помощью разметки, так и с помощью сервиса Яндекс.Справочник.

Плюсы и минусы микроразметки schema.org

Большой словарь, который постоянно обновляется;
Поддерживается всеми популярными поисковыми системами;
Код не скрыт скриптами и целиком находится в контенте страницы;
Улучшает отображение сниппетов в поисковой выдаче;
Можно найти разметку практически для каждого сайта;
Существуют плагины для автоматизации формирования микроразметки;
Активно развивается и дополняется.

Большое количество схем микроразметки может отпугнуть неподготовленного пользователя;
Нужны начальные знания верстки и изменения кода страниц;
Усложняет HTML-код, что замедляет разработку сайта;
Вся официальная справочная документация на английском языке;
Не для всех свойств есть примеры использования на официальном сайте.

Инструменты для работы с микроразметкой schema.org

В работе с микроразметкой schema.org пригодятся такие сервисы, как:

Инструмент для проверки структурированных данных от Google;
Помощник по микроразметке страниц по словарю schema.org от Google. По итогу получаем HTML-код страницы с уже внедренной микроразметкой;
Проверка семантической разметки от Яндекса;
Официальный сайт разметки;
Неофициальный перевод сайта schema.org на русский язык;
«All In One Schema.org Rich Snippets », «Wprichsnippets.com », «Schema App Structured Data » - плагины для WordPress, которые формируют семантическую разметку schema.org автоматически;
Notepad++ - или любой другой текстовый редактор.

Данный протокол разработал «Facebook» для улучшения отображения сниппетов ссылок с внешних сайтов в социальных сетях. Это, наверное, один из самых простых и небольших словарей микроразметки. Начать внедрение разметки можно с четырех основных свойств:

og:title - заголовок страницы.
og:type - тип объекта, например, «music.album»(альбом). В зависимости от типа поддерживаются и другие свойства. Все возможные характеристики тега type перечислены на официальном сайте .
og:image - URL изображения.
og:url - канонический URL объекта.

Все теги разметки «Open Graph» прописываются в контейнере .

Помимо основных свойств также можно указать дополнительные, которые улучшат отображение ссылок в социальных сетях:

og:audio – URL на аудиофайл, если при открытии страницы воспроизводится музыка.
og:determiner - слово, которое появляется перед названием этого объекта в предложении. Тип enum (a, an, the, "", auto). Если выбрано auto, потребитель данных должен выбирать между "a" или "an". По умолчанию - " " (пусто). Тег наиболее актуален для англоязычного сегмента в связи с использованием различных артиклей вида «a», «the», «an» и т.д.
og:description – описание страницы, разрешенное количество символов от 160 до 295 знаков.
og:locale – язык и страна. Формат отображения language_TERRITORY, по умолчанию стоит en_US. Для русскоязычного сегмента прописывается тег ru_RU.
og:locale:alternate – альтернативный язык или страна.
og:site_name – название сайта.
og:video – URL видео.

Шаблон разметки страницы Open Graph

Ниже представлен пример HTML-кода со всеми возможными свойствами, на практике часть из указанных тегов не указывается и хватает стандартных четырех свойств:

ЗАГОЛОВОК СТРАНИЦЫ ...

Плюсы и минусы микроразметки Open Graph

Последний вид разметки и структурирования данных, который мы рассмотрим, – JSON-LD. Расшифровывается это страшное название как «JavaScript Object Notation Linked Data». За разработку формата ответственен «Консорциум Всемирной Паутины» или, другими словами, «W3C». Данный формат выполняет все ту же функцию, что и schema.org, но немного другим способом: он структурирует данные помощью JavaScript, что в несколько раз облегчает работу.

Один из плюсов этого формата в том, что для описания данных используется словарь schema.org. Таким образом, с помощью скриптов JSON-LD мы можем описать любой вид сущностей и улучшить отображение своего сайта в поисковой выдаче, затратив на это минимальное количество времени. Причем сделать это можно без внедрения HTML-тегов в тело страницы, нужно лишь указать в контейнере , а затем расписать все необходимые условия разметки и закрыть скрипт .

Для наглядности сравним разметку schema.org и JSON-LD:

Кроссовки

Кроссовки { "@context" : "https://schema.org/" , "@type" : "Product" , "price" : "100.00" } Кроссовки

Шаблон разметки статьи с помощью JSON-LD

Пример разметки с помощью JSON-LD я взял на основе микроразметки статьи в schema.org из этого же материала выше. Использованы все те же свойства.

НЗАГОЛОВОК СТАТЬИ //Указывается тип скрипта, в нашем случае это ld+json { "@context" : "https://schema.org" ,//Прописывается библиотека, которой будет размечена страница "@type" : "Article" ,//Указывается тип сущности "mainEntityOfPage" : { //Прописывается ID статьи, обычно просто указывается ссылка на статью "@type" : "WebPage" , "@id" : "ССЫЛКА НА СТАТЬЮ" }, "url" : "ССЫЛКА НА СТАТЬЮ" ,//Прописывается каноничная ссылка на статью "datePublished" : "ДАТА ПУБЛИКАЦИИ" ,//Указывается дата публикации "dateModified" : "ДАТА ИЗМЕНЕНИЯ" , //Указывается дата изменения "headline" : "ЗАГОЛОВОК H1" , //Прописывается заголовок "image" : { "@type" : "ImageObject" , "url" : "ССЫЛКА НА ПРЕВЬЮ" , //Вставляется ссылка на изображение для превью статьи "height" : ВЫСОТА ПРЕВЬЮ В ПИКСЕЛЯХ , //Прописывается высота и ширина изображения в пикселях "width" : ШИРИНА ПРЕВЬЮ В ПИКСЕЛЯХ }, "articleBody" : "" , "author" : { "@type" : "Person" , "name" : "ИМЯ АВТОРА" ,//Указывается имя автора "url" : "ССЫЛКА НА ПРОФИЛЬ АВТОРА (G+, ПЕРСОНАЛЬНАЯ СТРАНИЦА НА САЙТЕ)" //Прописывается ссылка на профиль автора в Google Plus или на персональную страницу на сайте }, "publisher" : { "@type" : "Organization " , "name" : "НАЗВАНИЕ ОРГАНИЗАЦИИ" ,//Указывается название организации "logo" : { "@type" : "ImageObject" , "url" : "ССЫЛКА НА ЛОГОТИП" ,//Указывается ссылка на логотип компании "height" : ВЫСОТА ЛОГОТИПА , //Прописывается высота и ширина логотипа "width" : ШИРИНА ЛОГОТИПА } } } ЗАГОЛОВОК СТАТЬИ

Возникает закономерный вопрос: что же лучше schema.org или JSON-LD? Тут нельзя дать однозначный ответ. Работать с микроразметкой в формате JSON-LD проще и приятнее, чем все с тем же словарем schema.org в HTML-формате, но и у него есть свои минусы. Например, поисковик Google советуют использовать эту технологию для разметки своих страниц. А вот с Яндекс ом есть проблемы: данный вид разметки пока не отображается в результатах поиска из-за скриптов, хотя страницы с разметкой JSON-LD и проходят проверку на валидность.

Поисковая система Яндекс не показывает в поисковой выдаче информацию, размеченную с помощью мета-языка JSON-LD.

Изображение 8. Письмо из техподдержки Яндекса по поводу планов насчет JSON-LD. За скриншот спасибо пользователю Oleh Holovkin .

В данном случае нужно правильно расставить приоритеты. Если нужны расширенные сниппеты в Яндексе и Google, то используем старую добрую разметку schema.org; если мы ориентируемся на Запад и наша основная поисковая система только Google, то разметку JSON-LD нужно брать и внедрять без промедлений.

Плюсы и минусы микроразметки JSON-LD

Формат несколько проще по сравнению с schema.org;
Рекомендуется Google;
Для движка WordPress есть качественные плагины для работы;
Благодаря JavaScript разметка «невидима» для рядового пользователя в отличие от HTML;
Скрипт помещается только в контейнер без внедрения дополнительных строчек кода в тело сайта;
Проходит валидацию в официальных инструментах проверки Яндекса и Google.

Как еще можно разметить сайт?

Те способы разметки, что перечислены выше, относятся к непосредственному вмешательству в исходный код страницы, однако есть и другие методы структурирования данных. Это Data Highlighter (Маркер) от Google и «Товары и цены» от Яндекса. С помощью этих инструментов можно напрямую из панели веб-мастеров расширить сниппеты страниц в поисковой выдаче.

Изображение 9. «Маркер» в Search Console и сервис «Товары и цены» от Яндекса.

Маркер Google

Для того, чтобы начать разметку, нужно:

Перейти к инструменту и выбрать тип данных для разметки. На данный момент их всего 9 штук:

Мероприятия
Местные организации
Обзоры книг
Приложения
Продукты
Рестораны
Статьи
Телесериалы
Фильмы

Изображение 10. Панель выбора типа информации для разметки в Search Console.

Далее Google предложит проверить пять страниц на корректность автоматической разметки. Если в процессе проверки будут найдены ошибки в разметке, их можно будет исправить. Уделите особое внимание ценам, если размечаете товарные карточки, так как инструмент довольно часто ошибается именно в разметке стоимости. Если инструмент разметил страницу другой тематики (например, вы размечали карточки товаров, а он предложил разметить страницу контактов), то эту страницу можно удалить с помощью кнопки в правом верхнем углу.

Изображение 12. Кнопка для удаления неверно определённой страницы для разметки в Search Console.

После проверки образцов проверяем еще раз список размеченных страниц и публикуем. По завершению в Search Console появится список всех размеченных групп страниц на сайте, которые можно редактировать или вовсе удалить.

Изображение 13. Пример списка уже размеченных страниц с помощью Маркера Google.

На этом разметка с помощью Маркера Google заканчивается. В данном случае абсолютно не нужно знать HTML или JavaScript, достаточно вручную разметить каждую страницу, и Google сам обработает данные и внесет корректировки в поисковые сниппеты. Но и у Маркера есть свои плюсы и минусы.

Плюсы и минусы микроразметки с помощью Маркера от Google

Разметка без вмешательства в исходный код страниц;
Инструмент находится непосредственно в Google Search Console;
Страницы размечаются полуавтоматически;
Можно группировать страницы по типам;

Разметка будет отображаться только в поисковой выдаче Google;
Инструмент не всегда корректно размечает информацию;
При разметке крупного сайта много ручной работы.

Сервис «Товары и цены» Яндекса

Сам по себе этот инструмент не совсем относится к привычному понимаю микроразметки страниц, так как обычно в Яндексе он применяется для загрузки информации о товаре в Яндекс.Маркет в YML-формате. Как ни странно, Яша смог найти применение данному виду информации о товаре, и сейчас в органической выдаче часто встречаются сайты, размеченные с помощью этого сервиса. Главная особенность «Товаров и цен» – это отображение в поисковой выдаче Яндекса цены на товар/услугу справа от ссылки на сайт.

Изображение 14. Пример отображения цены услуги в выдаче Яндекса с подключенным сервисом «Товары и цены».

Применять сервис «Товары и цены» могут не только интернет-магазины, но и организации, которые предоставляют услуги. В данном случае придется создавать YML-документ вручную.

Итак, для того, чтобы подключить сервис «Товары и цены» в Яндексе, нужно:

Добавить свой сайт в веб-мастер Яндекса и перейти в сервис «Товары и цены»;

Затем нужно принять условия соглашения, если ранее на сайте не был подключен данный сервис.

Изображение 15. Яндекс предлагает ознакомиться с форматом YML и руководством по подключению.

Плюсы и минусы инструмента «Товары и цены» Яндекса

Сильно отличает сайт от других конкурентов в поиске, увеличивает CTR;
Пользователь до перехода на сайт получает информацию о стоимости услуги/товара;
Помимо цены в YML-документе указываются другие параметры, которые также учитываются при формировании сниппета;
В большинстве популярных движков сайтов генерация файла происходит в автоматическом или полуавтоматическом режиме.

Результаты с ценами будут видны только в выдаче Яндекса;
Выгрузка YML-документа предусмотрена не во всех CMS;
При частой смене цен на сайте требуется регулярная генерация документа;
Трудозатратно, если нужно разметить большое количество страниц вручную.

Инструменты для работы с сервисом «Товары и цены» Яндекса

В отличие от Маркера Google для работы с YML-файлом потребуется следующие инструменты для работы:

Список движков сайтов с возможностью выгрузки YML-документов;
Генератор YML-документа для формирования файла вручную;

Итог

Внедрение разметки структурированных данных – это важный шаг, который впоследствии может повысить CTR сайта в поиске и улучшить отображение контента в поисковой выдаче. Существует несколько способов разметить свой сайт, но на сегодняшний момент самым проверенным считается внедрение разметки schema.org, так как остальные методы имеют либо ограниченный функционал, либо размечаются в пределах одной поисковой системы.

У каждого способа разметки данных есть свои достоинства и недостатки, перед началом внедрения следует трезво оценить свои возможности и выбрать наилучший вариант. Отдельные методы разметки можно комбинировать друг с другом, к примеру, Open Graph с schema.org и «Товарами и ценами» от Яндекса. И помните: наличие микроразметки на сайте не гарантирует изменение поискового сниппета в выдаче, в первую очередь это облегчает сканирование сайта поисковиками.

Статью подготовил: Абдуллин Константин, Технолог SEO-эксперт компании сайт

На каждом предприятии существует множество различных баз данных, которые пополняются от источников структурированных данных. Структурированные данные – данные, которые вводятся в базы данных в определенной форме, например, таблиц Excel, со строго определенными полями. Совокупность баз данных предприятия называется в англоязычной литературе Enterprise Data Warehouse (EDW) – буквально «склад данных». В русскоязычной литературе мне пока не встречалось аналога этого термина, поэтому назовем это «склад данных предприятия». Для красоты будем использовать английскую аббревиатуру EDW.

Источники структурированных данных – это приложения, которые снимают данные различных транзакций. Например, это могут быть CDR в сети оператора, извещения об авариях на сети (trouble tickets), финансовые транзакции по банковским счетам, данные системы ER (Enterprise Resource Planning), данные прикладных программ, и др.

Бизнес-аналитика BI (Business Intelligence) – компонент обработки данных. Это различные приложения, инструменты и утилиты, которые позволяют анализировать собранные в EDW данные и принимать решения на их основе. Это системы генерации операционных отчет, выборочные запросы, приложения OLAP (On-Line Analytical Processing), т.н. «дисруптивная аналитика», системы предиктивного анализа и визуализации данных. Попросту говоря, менеджер должен видеть бизнес-процесс в удобной для восприятия форме, лучше всего графической и анимационной, чтобы быстро принимать оптимальные решения. Первый закон бизнеса: правильное решение – это решение принятое вовремя. Если правильное решение для вчерашнего дня принято сегодня, не факт, что оно еще остается правильным.

А что делать, если источники данных – неструктурированные, разнородные, полученные из разных источников? Как будут работать с ними аналитические системы? Попробуйте выделить мышкой несколько ячеек с данными в таблице Excel и вставить в простой текстовый редактор (например, Notepad) и вы увидите, что такое «неструктурированные данные» (Unstructured Data). Примеры неструктурированных данных: электронная почта, информация из соцсетей, данные XML, файлы видео-, аудио- и изображений, данные GPS, спутниковые изображения, данные с сенсоров, веб-логи, данные о перемещении мобильного абонента в хендовере, тэги RFID, документы PDF…

Для хранения подобной информации в центрах обработки данных (ЦОД) используется распределенная файловая система Hadoop, HDFS (Hadoop Distributed File System). HDFS может хранить все типы данных: структурированные, неструктурированные и полу-структрированные.

Приложения Big Data для бизнес-аналитики – компонент не только обработки, но и с данными, как структурированными, так и нет. Они включают приложения, инструменты и утилиты, помогают анализировать большие объемы данных и принимать решения, на основе данных Hadoop и других нереляционных систем хранения. Он не включают традиционные приложения BI-аналитики, а также инструменты расширения самого Hadoop.

Кроме того, важным компонентом Hadoop является система MapReduce. Она предназначена для управления ресурсами и обработкой данных в Hadoop, чтобы обеспечить надежность хранения и оптимизированное размещение данных в географически распределенных ЦОД. Система MapReduce состоит из двух основных компонетов – Мар, которая распределяет дубликаты блоков неструктурированных данных по различным узлам системы хранения (с целью надежности сохранения информации), и Reduce – компонента удаления идентичных данных, как с целью уменьшения требуемого общего объема хранения, так и повышения корректности последующих действий над данными. MapReduce примечательна тем, что обрабатывает данные там, где они и хранятся (т.е. в HDFS), вместо того, чтобы их куда-то перемещать для обработки, а потом ещё куда-то записывать результаты, что обычно и делается в обычных EDW. MapReduce также имеет встроенную систему восстановления данных, т.е. если один узел хранения отказывает, MapReduce всегда знает, куда надо лезть за копией потерянных данных.

Хотя скорость обработки данных MapReduce на порядок превосходит традиционные методы обработки с «выемкой» данных, все же, вследствие несравнимо больших объемов данных (на то они и Big Data), в MapReduce обычно используют параллельную обработку потоков данных (batch mode). В версии Hadoop 2.0 функция управления ресурсами выделена в отдельную функциональность (называется YARN), поэтому MapReduce более не является «бутылочным горлышком» в Big Data.

Переход на системы Big Data вовсе не означает, что традиционные EDW надо отправить в утиль. Напротив, их можно использовать совместно, чтобы использовать преимущество тех и других, а также извлекать новые ценности бизнеса за счет их синергии.

Для чего это все нужно.

Среди потребителей ИТ- и телеком-оборудования широко бытует мнение, что все эти эффектные иностранные слово- и буквосочетания – Cloud Computing, Big Data и разные прочие IMS с софтсвитчами придумываются хитрыми поставщиками оборудования, чтобы поддерживать свою маржинальность. То есть, чтобы впаривать, впаривать и впаривать новые разработки. А иначе не будет выполнен план по продажам и Билл Джобс Чемберс скажет «ай-яй-яй». И «накрылась премия в квартал».

Поэтому поговорим о нужности этого всего и тенденциях.

Наверное, многие еще не забыли страшный вирус гриппа H1N1. Были опасения, что он может оказаться даже сильнее испанки 1918 года, когда счет жертв шел на десятки миллионов. Хотя врачи должны были регулярно сообщать об участившихся случаях заболеваний (и они таки сообщали), однако анализ этой информации запаздывал на 1-2 недели. И сами люди обращались, как правило, через 3-5 дней после начала болезни. Т.е., меры принимались, по большому счету, задним числом.

Зависимость ценности информации в от времени обычно имеет вид U-образной кривой.

Информация наиболее ценна либо сразу после ее получения (для принятия оперативных решений), либо спустя некоторое время (для анализа тренда).

Компания Google, хранящая многолетнюю историю запросов, решила проанализировать 50 миллионов наиболее популярных запросов из мест очага предыдущих эпидемий гриппа, и сравнить их с данными медицинской статистики во время этих эпидемий. Была разработана система установления корреляции между частотой определенных запросов и найдено 40-50 типичных запросов. Коэффициент корреляции достигал 97%.

В 2009 году и удалось избежать серьезных последствий эпидемии H1N1, именно потому, что данные были получены сразу, а не спустя 1-2 недели, когда в поликлиниках в местах эпидемии уже было бы не протолкнуться. Это было, пожалуй, самое первое использование технологии «больших данных», хотя в то время они еще так не назывались.

Хорошо известно, что цена авиабилета – вещь очень непредсказуемая, и зависящая от многих факторов. Недавно я оказался в ситуации, когда можно было купить один и тот же билет экономкласса, одной и той же авиакомпании в один и тот же город в двух возможных вариантах. На рейс, улетающий вечером через три часа, билет стоил 12 тыс. рублей, а на раннее утро завтрашнего дня – 1500 рублей. Повторю, авиакомпания – одна и даже самолет на обоих рейсах одного типа. Обычно цена на билет тем дороже, чем ближе время вылета. На цену билета влияют еще много разных факторов – как-то раз агент по бронированию объяснял мне суть этого сонма тарифов, но я так ничего и не понял. Возможны случаи, когда цена на билет, наоборот, падает, если при приближении даты вылета остается много непроданных мест, в случае проведения каких либо акций и пр.

Однажды, Орен Энциони, директор программы искусственного интеллекта в Университете штата Вашингтон, собрался лететь на свадьбу брата. Поскольку свадьбы обычно планируются заранее, то и билет он купил сразу же, задолго до вылета. Билет действительно был недорогой, гораздо дешевле, чем обычно, когда он покупал билет для срочной командировки. В полете он похвастался соседу, как дешево ему удалось купить билет. Оказалось, что у соседа билет ещё дешевле, а покупал он его позже. Мистер Энциони с досады устроил импровизированный социологический опрос прямо в салоне самолета о ценах на билеты и датах их покупки. Большинство пассажиров заплатило меньше, чем Энциони, и почти все купили билет позже него. Это было очень странно. И Энциони, как профессионал, решил заняться этой проблемой.

Приобретя выборку из 12 тысяч транзакций на сайте одного из туристических агентств, он создал модель прогнозирования цен на авиабилеты. Система анализировала только цены и даты, не учитывая никаких факторов. Только «что» и «сколько», без анализа «почему». На выходе получалась прогностическая вероятность снижения или повышения цены на рейс, на основе истории изменений цен на другие рейсы. В результате ученый основал небольшую консультационную фирму Farecast (игра слов: Fare — тариф, цена; Forecast — прогноз) по прогнозированию цен на авиабилеты, на основе большой базы данных по бронированию рейсов, которая, конечно, не давала 100%-ную точность (что указывалось в пользовательском соглашении), но с достаточной степенью вероятности могла ответить на вопрос, покупать билет прямо сейчас, или подождать. Чтобы еще больше обезопаситься от судебных исков, система также выдавала «оценку доверия самой себе» примерно в таком виде: «С вероятностью 83,65% цена на билет будет ниже через три дня».

Потом компанию Farecast за несколько миллиардов долларов купила Microsoft и встроила ее модель в свой поисковик Bing. (И, как это чаще всего бывает у Microsoft , об этом функционале больше ничего не слышно, т.к. этим Bing’ом мало кто пользуется, а кто пользуется, ничего об этой функции не знает).

Эти два примера показывают, как с помощью анализа Больших Данных можно извлечь общественную пользу и экономическую выгоду.

Что же это все-таки такое — Big Data?

Для «больших данных» нет строгого определения. По мере появления технологий для работы с большими объемами данных, для которых уже не хватало памяти одного компьютера и их приходилось где-то хранить, (MapReduce, Apache Hadoop), появилась возможность оперировать намного бóльшими объемами данных, чем прежде. При этом данные могли быть неструктурированными.

Это дает возможность отказаться от ограничений т.н. «репрезентативных выборок», на основе которых делаются более масштабные заключения. Анализ причинности заменяется при этом анализом простых корреляций: анализируется не «почему», а «что» и «сколько». Это в корне меняет устоявшиеся подходы о том, как принимать решения и анализировать ситуацию.

На фондовых рынках каждый день происходит десятки миллиардов транзакций, из них около двух третей торгов решаются с помощью компьютерных алгоритмов на основе математических моделей с использованием огромных объемов данных.

Еще в 2000 году количество оцифрованной информации, составляло лишь 25% общего количества информации в мире. К настоящему времени количество хранимой информации в мире составляет величину порядка зетабайт, из которых на нецифровую информацию приходится менее 2%.

По данным историков, с 1453 по 1503 год (за 50 лет) напечатано около 8 миллионов книг. Это больше всех рукописных книг, написанных писцами с Рождества Христова. Другими словами, потребовалось 50 лет, чтобы приблизительно вдвое увеличить информационный фонд. Сегодня это происходит каждые три дня.

Чтобы понять ценность «больших данных» и механизм их работы, приведем такой простой пример. До изобретения фотографии, для того, чтобы нарисовать портрет человека, требовалось от нескольких часов до нескольких дней или даже недель. При этом художник делал определенное количество мазков или штрихов, число которых (для достижения «потретного сходства») можно измерить сотнями и тысячами. При этом важно было КАК рисовать, как класть краски, как штриховать и пр. С изобретением фотографии, число «зерен» в аналоговой фотографии, или число «пикселов» в цифровой изменилось на несколько порядков, и то КАК их расположить нам неважно – за нас это делает фотоаппарат.

Однако результат по большому счету один – изображение человека. Но есть и различия. В рукописном портрете точность сходства весьма относительна и зависит от «видения» художника, неизбежны искажения пропорций, добавление оттенков и деталей, которых в «оригинале», т.е. в человеческом лице, не было. Фотография точно и скрупулезно передает «ЧТО», оставляя «КАК» на заднем плане.

С некоторой аллегорией можно сказать, что фотография – это Big Data для рукописного портрета.

А теперь будем фиксировать каждое движение человека через строго определенные и достаточно малые интервалы времени. Получится кинофильм. Кинофильм – это «большие данные» по отношению к фотографии. Увеличили количество данных, соответствующим образом их обработали – получили новое качество – движущееся изображение. Изменяя количество, добавляя алгоритм обработки, мы получаем новое качество.

Теперь уже и сами видео-изображения служат пищей для компьютерных систем Big Data.

При увеличении масштаба обрабатываемых данных появляются новые возможности, недоступные при обработке данных меньших объемов. Google прогнозирует эпидемии гриппа не хуже, и гораздо быстрее, чем официальная медицинская статистика. Для этого нужно произвести тщательный анализ сотен миллиардов исходных данных, в результате чего она дает ответ намного быстрее, чем официальные источники.

Ну, и кратко о еще двух аспектах больших данных.

Точность .

Системы Big Data могут анализировать огромное массивы данных, а в некоторых случаях - все данные, а НЕ их выборки. Используя все данные, мы получаем более точный результат и можем увидеть нюансы, недоступные при ограничении выборочного анализа. Однако, при этом приходится довольствоваться общим представлением, а не пониманием явления вплоть до мельчайших деталей. Однако, неточности на микро-уровне позволяют при большом количестве данных позволяют делать открытия на макро-уровне.

Причинность .

Мы привыкли во всем искать причины. На этом, собственно, и основан научный анализ. В мире больших данных причинность не так важна. Важнее – корреляции между данными, которые могут дать необходимые знания. Корреляции не могут дать ответ на вопрос «почему», но хорошо прогнозирует «что» произойдет, в случае обнаружения тех или иных корреляций. И чаще всего именно это и требуется.

***

Это перевод статьи Нейта Харриса для блога Ahrefs. Больше об авторе можно узнать из его страницы Facebook .

Информация полезна для вебмастеров и SEO-специалистов продвинутого уровня. Хотя и начинающие могут оценить важность структурированных данных в современном SEO.

Вы узнаете про

особенности применения Schema.org,
тонкости JSON-LD,

интересные фишки в Google Search Console (по старинке — Google Webmaster),

мифах структурированной разметки.

Поисковые системы дали ясно понять: крайне важную роль в поиске будущего будут иметь хорошие сниппеты.

Нам известно, что Google добавляет каждые пару месяцев новый блок в Google Search Gallery .

Google отлично понимает содержание контента на сайте. Когда же речь идет о нюансах в статьях и специфике каждой страницы – тут роботу поисковика уже нужна помощь. Именно поэтому структурированные данные помогут вам хорошо ранжироваться.

Структурированные данные – это общий термин, который относится к любым организованным данным определенного формата.

Это не SEO-термин. Реляционные базы данных - основополагающее ядро всех вычислений – полагаются на структурированные данные. SQL - структурированный язык запросов - управляет упорядоченными данными.

Когда создатель сайта хочет представить страницу как профиль пользователя, страницу события или список вакансий, в коде нужно поместить определенную маркировку.

Чем больше страниц на сайте, которые поисковый робот будет воспринимать как XML или JSON объекты, тем лучше ваш контент будет ранжироваться в выдаче.

Де-факто в интернете основным языком описания структурированных данных является schema.org. Например, для представления авиаперелета schema.org содержит правила для описания типа авиаборта, номера выхода на посадку, меню.

Проект был основан в сотрудничестве между Google, Microsoft, Yahoo и Яндекс. Он остается открытым исходным кодом и технически редактируется кем-либо. Однако, как и любой проект W3C, процесс внесения изменений не так прост. Если вам хочется добавить новый тип структурированных данных, смиритесь с техническими и бюрократическими проволочками. В итоге вы получите новый тип разметки, включенный в библиотеку Schema.org.

4 варианта структурирования данных

Микроразметка JSON-LD - один из новых форматов структурированных данных, - именно его регулярно рекомендует Google. Вместо того, чтобы расставлять теги для каждого html элемента, JSON-LD представляет собой большой блок информационного кода, который сообщает роботу Google: «Тип воздушного судна, время отправления, меню и т. п.».

JSON-LD также хорош тем, что на странице нет необходимости размещать какие-либо визуальные элементы контента, содержащие информацию.

RDFa+GoodRelation - это еще одно синтаксическое расширение HTML. RDFa отличается от JSON по сути. Вместо того, чтобы помещать структурированные данные в один блок, HTML-расширение разбросано по всему документу и структурирует ваши данные «на лету».

Данный синтаксис можно представить как еще один атрибут. Например, как class. Этот формат может быть полезен для маркировки динамических элементов (отзывы). В таких случаях он быстрее и удобнее, чем использование JSON.

Microdata - расширение языка в формате HTML5. Используется редко.

Microformat aka μF - микроформат, наиболее часто встречающийся в форме hAtom/hentry.

Маркировка данных Google Search Console

Для сайтов, на которых нет большого числа элементов для маркировки, Google предлагает полезный инструмент в GSC, позволяющий владельцам сайтов быстро применять структурированные данные. Однако приведем несколько причин не использовать Data Highlighter

Разметка ярлыка ваших данных будет нарушена, если что-либо изменится в форматировании ваших страниц.
Маркировка доступна только для поискового робота Google.

Как структурированные данные помогают SEO

Расширенные сниппеты (т. н. Rich Snippets ) - наиболее желанные для всех вебмастеров, как повышающие CTR. Например, вывод рейтинга товаров непосредственно в сниппете страницы для интернет-магазина.

Граф знания - блок о бренде или личности, например:

AMP, Google News и т. д. - для того, чтоб попасть в Google News или иметь пометку AMP, сайт должен иметь множество различных типов микроразметки, например события .

Индексация и ранжирование контента. Поисковики заявляют, что лучше понимают контекст и смысл содержимого страницы, если вы применяете микроразметку, даже если нет явно заметных результатов.
Другие поисковые системы. Каждая поисковая система обрабатывает структурированные данные по-разному. У Yandex есть поля, необходимые для успешной обработки, которых Google не требует. Результаты первой страницы Baidu в значительной степени зависят от структурированных данных.

Мифы факторов ранжирования Микроразметка не является фактором ранжирования.

В прошлом мы наблюдали некий трюк со стороны Google, учитывающий микроразметку. Google понимал в выдаче брендовые запросы. Например, если вы владелец пиццерии «Tim`s Pizzeria» в Бруклине и кто-то набирает запрос «tims pizzeria brooklyn», то ваш сайт появится на первом месте в выдаче, даже не имея ссылочного профиля.

Если Google еще не понял, что ваш сайт является аналогом «Tim`s Pizzeria», то микроразметка может в этом помочь, впрочем как и с графом знаний, который был описан выше.

Микроразметка - это не магия, и не добавляет качества сайту в глазах поисковых систем. Это нужно помнить, не забывая о её преимуществах.

Примеры применения структурированных данных

Использование JSON-LD является наипростейшим способом внедрения структурированных данных на сайт. Эта разметка сообщает, что ваш сайт «представляет собой набор связанных веб-страниц и других элементов, которые обычно размещаются на одном домене и доступны по определенным URL-адресам».

Вставьте данный код на ваш сайт так же, как, например, код GA, заменив yoursite.com вашим URL.

{ "@type": "WebSite", "url": "https:// ahrefs.com/" }

Запустите инструмент Google и кликните на «Run Test».

Вы должны увидеть примерно следующее:

Приведем пример для блога ahrefs, где можно включить следующий блок JSON-LD.

{ "@context": "https://schema.org", "@type": "BlogPosting", "url": "https://ahrefs.com/blog/bla-bla-bla", "headline": "What is Structured Data? And Why Should You Implement It?", "alternativeHeadline": "Stuctured Data 101", "description": "Structured data is bla bla bla bla", "datePublished": "July 4, 2017", "datemodified": "July 5, 2017", "mainEntityOfPage": { "@type": "WebPage", "url": "https://ahrefs.com/blog/bla-bla-bla" }, "image": { "@type": "imageObject", "url": "http://example.com/images/image.png", "height": "600", "width": "800" }, "publisher": { "@type": "Organization", "name": "ahrefs", "logo": { "@type": "imageObject", "url": "http://example.com/images/logo.png" } }, "author": { "@type": "Person", "name": "Nate Harris" }, "editor": { "@type": "Person", "name": "Tim Soulo" }, "award": "The Best ahrefs Guest Post Ever Award, 2017", "genre": "Technical SEO", "accessMode": ["textual", "visual"], "accessModeSufficient": ["textual", "visual"], "discussionUrl": "https://ahrefs.com/blog/bla-bla-bla/#disqus_thread", "inLanguage": "English", "articleBody": "Search engines have made it clear: a vitally important part of the future of search is rich results. While controversial..." }

Многим понадобится внедрить микроразметку для интернет-магазина. Ниже приведен пример кода для сайтов eCommerce.

{ "@context": "http://schema.org", "@type": "Product", "url":"https://timspizzeria.com/goat-cheese-pizza", "aggregateRating": { "@type": "AggregateRating", "ratingValue": "3.5", "reviewCount": "2", "bestRating": "5", "worstRating": "1" }, "description": "Tim"s pizzeria"s most delicious cheesiest cheese pizza. Made with 100% goat cheese turned blue.", "name": "Tim"s Goat Cheese Pizza", "image":["https://timspizzeria.com/goat-cheese-pizza-hero.jpg","https://timspizzeria.com/goat-cheese- pizza-olives.jpg","https://timspizzeria.com/goat-cheese-pizza-pineapple.jpg"], "offers": { "@type": "Offer", "availability": "http://schema.org/InStock", "image":"https://timspizzeria.com/goat-cheese-pizza-hero.jpg", "price": "26.00", "priceCurrency": "USD", "sku":"1959014", "seller":{ "@type":"Organization", "name":"Tim"s Pizzeria"}, "availability": "http://schema.org/InStock"}, "review": [ { "@type": "Review", "author": "Nate", "datePublished": "2017-07-041", "reviewBody": "Dope lit funkytown! Delicious pizza.", "name": "n8 h", "reviewRating": { "@type": "Rating", "bestRating": "5", "ratingValue": "5", "worstRating": "1" } }, { "@type": "Review", "author": "Dmitry", "datePublished": "2016-05-22", "reviewBody": "This is the grossest thing I"ve witnessed, let alone tasted.", "name": "OMG this pizza is abhorrent", "reviewRating": { "@type": "Rating", "bestRating": "5", "ratingValue": "1", "worstRating": "1" } } ] } }

Стоит отметить, что Google понимает JSON-LD, даже если ее элементы рендерятся асинхронно, поэтому микроразметку можно легко внедрить через Google Tag Manager, AJAX и т. д.

Инструменты структурированных данных

Владельцам сайтов на WordPress можно порекомендовать плагин Schema для быстрой и легкой настройки микроразметки. Большинство плагинов микроразметки для WordPress имеют множество проблем и недоработок. Многие из этих плагинов передают в качестве элементов микроразметки лишние данные дизайн-темы WP-сайта, такие как: author, date Published, Featured Image и т. д.

Однако использование плагинов не позволит вам охватить все возможности Schema, которые поддерживает Google. Тонкая и качественная настройка микроразметки - это путь к успеху в выдаче Google. Давайте посмотрим на необычную настройку карточек товаров Sephora . Также интересная микроразметка применена на .

А вот пример экспериментальной разметки страницы события, которую автор статьи внедрял для одного из своих клиентов.

Данная микроразметка делает сайт клиента автора одним из немногих (например, suggestedMinAge используется всего лишь от 100 до 1000 доменами)

Еще одна проблема SEO-плагинов для микроразметки в том, что их использование часто приводит к дублям. Это может быть проблемой, например, для карточек товаров: Google может считать два элемента микроразметки одного товара как два разных товара.

С данной проблемой автор статьи работает в настоящее время на одном из сайтов: Shopify имеет внедренную микроразметку товаров Schema, которая дублирует внедренную автором микроразметку для расширенных сниппетов, содержащую секции aggregate ratings и review (отзывы и рейтинг).

Кто то может предложить https://www.schemaapp.com/ … Автор статьи не сталкивался и не станет рекомендовать «за» или «против». Однако вот, что стоит отметить:

Schema App это набор инструментов, позволяющий интернет маркетологам создавать и управлять микроразметкой Schema даже не имея глубоких знаний в языке Scherma.org и программировании.

Все это кажется слишком сложным

Для мгновенного результата базовые возможности микроразметки несомненно помогут SEO. Основные структурированные данные могут быть внедрены с помощью плагинов. Если Вы выбрали применение плагинов, то стоит быть готовыми к сложностям, описанным выше.

Все те, кто работает с крупными проектами, должны уделить больше внимания расширенной микроразметке. Задумайтесь над тем, что, хорошее понимание структурированных данных - это ваш «золотой билет» в экспериментирование с поисковой выдачей. Это гарантирует, что ваш сайт будет «понятен» поисковой системой.

И хорошая новость в том, что работу с микроразметкой не надо делать регулярно. Достаточно проработать этот вопрос грамотно один раз, и можно больше к нему не возвращаться.

Поскольку внедрение микроразметки связано с программированием, то является своеобразной «страшилкой», и очень часто игнорируется SEO-специалистами. Автор уверен, что некоторым техническим SEO-специалистам это может не понравится и считает, что Schema не используется в полной мере всеми оптимизаторами.

Выводы

Техническое SEO бескрайне многообразно и широко по своим возможностям, и понимание структурированных данных является фундаментальным. Фактически Semantic Web может стать погибелью для SEO специалистов: чем больше данных мы скармливаем Google, тем больше создается расширений, которые уводят трафик из органической выдачи.

Когда мы грамотно внедряем структурированные данные на сайт, то мы обучаем поисковые системы все лучше обходиться без нас в будущем. Р азметка данных, с одной стороны будучи полезной, является удачным самообучающимся инструментом Google.

Однако, польза структурированных данных настолько велика, что микроразметку нельзя игнорировать. Не говоря о потенциальном росте трафика, хорошо выполненная маркировка данных повышает шансы сайта быть учтенным постоянно развивающимися дополнениями и расширениями органической выдачи со стороны Google.

Простые типы данных: переменные и константы.

Языки программирования.

Лекция 4.

Реальные данные, которые обрабатывает программа, - это числа (целые и вещественные), символы и логические величины. Данные типы данных называются базовыми . Все данные, обрабатываемые компьютером, хранятся в ячейках памяти, каждая из которых имеет свой адрес. Для того чтобы не следить за тем, по какому адресу будут записаны данные, в языках программирования используется понятие переменной , позволяющее отвлечься от адреса ячейки памяти и общаться с ней с помощью имени (идентификатора ).

Переменная – есть именованный объект (ячейка памяти), который может изменять свое значение. Имя переменной указывает на значение , а способ ее хранения и адрес остаются скрытыми от программиста. Кроме имени и значения, переменная имеет тип , определяющий, какая информация находится в памяти.

Тип переменной задает:

Используемый способ записи информации в ячейки памяти;

Необходимый объем памяти для ее хранения.

Если переменные присутствуют в программе, на протяжении всего времени ее работы – их называют статическими . Переменные, создающиеся и уничтожающиеся на разных этапах выполнения программы, называют динамическими .

Все остальные данные в программе, значения которых не изменяются на протяжении ее работы, называют константами или постоянными . Константы, как и переменные, имеют тип.

Для повышения производительности и качества работы необходимо иметь данные, максимально приближенные к реальным аналогам. Тип данных, позволяющий хранить вместе под одним именем несколько переменных, называется структурированным . Каждый язык программирования имеет свои структурированные типы. Одной из структур, объединяющих элементы одного типа данных, является массив .

Массивом называется упорядоченная совокупность однотипных величин, имеющих общее имя, элементы которых адресуются (различаются) порядковыми номерами (индексами).

Элементы массива в памяти компьютера хранятся по соседству, одиночные элементы простого типа такого расположения данных в памяти не предполагают. Массивы различаются количеством индексов, определяющих их элементы.

Одномерный массив предполагает наличие у каждого элемента только одного индекса. Примерами одномерных массивов являются арифметическая и геометрическая последовательности, определяющие конечные ряды чисел. Количество элементов массива называется размерностью . При определении одномерного массива его размерность записывается в круглых скобках, рядом с его именем. Например, массив, состоящий из элементов а1, а2… а10 записывается в виде А(10). Ввод элементов одномерного массива осуществляется поэлементно, в порядке, необходимом для решения конкретной задачи. Процесс ввода элементов массива можно изобразить в виде блок-схемы следующим образом:

Для примера рассмотрим алгоритм вычисления среднего арифметического положительных элементов числового массива А(10). Алгоритм решения задачи будет содержать подсчет суммы (обозначим S), включающей положительные элементы массива (ai>0), и количества (обозначим N) ее слагаемых.

Запись алгоритма в виде псевдокода :

1.Повторить 10 раз (для i=1,10,1)

1.1.Ввод ai.

2.Начальное значение суммы: S=0.

3.Начальное значение счетчика: N=0.

4.Повторить 10 раз (для i=1,10,1):

4.1.Если ai>0, то S=S+ai и N=N+1.

5.Если N>0, то вычисление среднего арифметического SA=S/N; вывод SA. Иначе: вывод «Положительных элементов в массиве нет».

Запись алгоритма в виде блок-схемы:

Двумерный массив предполагает наличие у каждого элемента двух индексов. В математике двумерный массив (или таблица чисел) называется матрицей. Каждый элемент имеет два индекса aij, первый индекс i определяет номер строки, в которой находится элемент (координата по горизонтали), а второй j – номер столбца (координата по вертикали). Двумерный массив характеризуется двумя размерностями N и М, определяющими число строк и столбцов соответственно.

Ввод элементов двумерного массива осуществляется построчно, в свою очередь, ввод каждой строки производится поэлементно, тем самым определяется циклическая конструкция, реализующая вложение циклов. Блок-схема алгоритма ввода двумерного массива:

Внешний цикл определяет номер вводимой строки (i), внутренний – номер элемента по столбцу (j).