Какие типы файлов индексируются поисковыми системами

Продвижение сайта ссылками до сих показывает хорошие результаты. Ссылки не работают так, как работали 3-5 лет назад. Необходимо использовать новые, порой нестандартные, методы получения ссылок. Одним из таких методов является размещение ссылок внутри документов загруженных на сайт.

Многие SEO-оптимизаторы стремятся получить внешние ссылки со страниц сайтов. Но мало кто использует такую возможность как ссылки внутри документов загруженных на сайт. Подробно разбирать процесс индексации мы не будем, но на некоторые моменты обратим внимание.

Токенизация

Люди, читая любой текстовый документ на понятном им языке, прекрасно понимают структуру документа. Например: где находится заголовок, как один абзац текста отделяет от другого, как слова разделяются пробелами. Компьютеры и программы не понимают форматирование и структуру. Любой документ или файл с точки зрения компьютера – это последовательность байтов. Создавая любой документ необходимо запрограммировать все так, чтобы компьютер понимал, какая именно часть документа будет являться отдельным значимым элементом (токеном), а какая часть информацией о разметке.

Токенизация

Специальные программы называемые «синтаксическим анализатором» во время сканирования документа автоматически определяет какие элементы являются словами, а какие являются знаками пунктуации и разметки. Стоит уточнить, что некоторые из знаков разметки могут быть непечатаемыми символами). Анализатор может распознавать внутри документа такие объекты, как заголовки, адреса e-mail, URL адреса. При токенизации учитывается масса параметров: язык и кодировка, позиция токена и т.д.

Более подробно можно почитать тут – Wikipedia поисковый индекс

Формат и структура документа

Для лучшего распознания поисковиками загруженные документы должны быть определенным образом подготовлены для сканирования распознания. Проблема в том, что большинство документов содержат не только текст, но специальную информацию о самом документе, форматировании текста или других объектов.

Самый простой пример – документ HTML. Любая страница на этом языке содержит HTML-теги. Теги могут описывать логические части документа, форматирование текста, различные объекты в виде картинок, видео, ссылок и т.д. Если поисковики будут игнорировать разницу между текстом и тегами, то в индекс поисковиков попадет ненужная информация и качество поисковой выдачи сильно упадет.

документ HTML

Поисковики найдя документ первым делом пытается проанализировать формат и выявить язык разметки. Некоторые типы документов защищены, а некоторые хорошо документированы.

Список расширений

Поисковые системы понимают практически все существующие файлы. Другое дело, что поисковые системы не все типы файлов могу проиндексировать и распознать ссылку внутри. Среди задокументированных стоит выделить следующие типы:

  • .txt, .text — Текстовые файлы
  • .bas — Исходный код Basic
  • .c, .cc, .cpp, .cxx, .h, .hpp  — Исходный код C/C++
  • .cs — Исходный код C#
  • .java  — Исходный код Java
  • .pl — Исходный код Perl
  • .py — Исходный код Python
  • ASCII текстовые файлы (текстовые документы без удобочитаемого для компьютера форматирования)
  • .pdf — Adobe-формат электронных документов
  • .ps — PostScript
  • .tex — LaTeX
  • .nzb — Usenet формат новостных интернет-серверов
  • XML и производные, например, RSS
  • .sgml — Standard Generalized Markup Language
  • .Id3 — Форматы мультимедийных метаданных
  • .doc, .docx — Microsoft Word
  • .rtf — Rich Text Format
  • .xls, .xlsx  — Microsoft Excel
  • .ppt, .pptx — Microsoft PowerPoint
  • .nsf, .ndk, .ntf — IBM Lotus Notes
  • .dwf — Autodesk Design Web Format
  • .kml, .kmz — Google Планета Земля
  • .gpx — GPS eXchange Format
  • .hwp — Hancom Hanword
  • .htm, .html и другие расширения файлов — HTML
  • .odp — Презентации OpenOffice
  • .ods — Таблицы OpenOffice
  • .odt — Текстовые файлы OpenOffice
  • .svg — Масштабируемая векторная графика

Поисковые системы могут индексировать файлы в сжатом формате. При работе с архивами, документы сначала распаковываются. После распаковки может получится несколько документов которые поисковая система будет индексировать отдельно.

  • .zip — формат сжатия данных и архивации файлов
  • .rar — формат сжатия данных и условно-бесплатная программа-архиватор
  • .cab — Microsoft Windows Cabinet File
  • .gzip — формат сжатого файла gzip
  • .bzip — формат сжатого файла bzip
  • Tape ARchive (TAR), сжатый файл Unix
  • TAR.Z, TAR.GZ or TAR.BZ2 — Unix-архив файлов сжатых в Compress, GZIP или BZIP2

Приведем пару примеров того как, и где можно разместить ссылки в документах. Самый простой и очевидный способ – сделать текстовый документ в Google Disk. В документе разместить релевантный текст и ссылку на интересующую нас страницу. При сохранении документа расшарить его видимость для всех. Таким образом можно сохранить различные форматы файлов.

Можно использовать специализированные сервисы. Например dropmark.com позволяет загрузить pdf документ. Сервис ru.scribd.com дает возможность загрузить презентацию содержащую ссылки.

Продвинуть свой сайт такими ссылками к сожалению не получится. Но такие ссылки позволят хорошо разнообразить ссылочный профиль и получить ссылки (пусть и nofollow) с достаточно качественных трастовых ресурсов.

Владислав Скляр
Сооснователь агентства и технический директор EXPANS. Развивает и улучшает технологию, разрабатывает и корректирует стратегии, с помощью которых компания приводит клиентов к результату.

Ваш комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Telegram

Viber

Messenger

Зв'яжіться з нами онлайн
Закрити