Продвижение сайта ссылками до сих показывает хорошие результаты. Ссылки не работают так, как работали 3-5 лет назад. Необходимо использовать новые, порой нестандартные, методы получения ссылок. Одним из таких методов является размещение ссылок внутри документов загруженных на сайт.
Многие SEO-оптимизаторы стремятся получить внешние ссылки со страниц сайтов. Но мало кто использует такую возможность как ссылки внутри документов загруженных на сайт. Подробно разбирать процесс индексации мы не будем, но на некоторые моменты обратим внимание.
Люди, читая любой текстовый документ на понятном им языке, прекрасно понимают структуру документа. Например: где находится заголовок, как один абзац текста отделяет от другого, как слова разделяются пробелами. Компьютеры и программы не понимают форматирование и структуру. Любой документ или файл с точки зрения компьютера – это последовательность байтов. Создавая любой документ необходимо запрограммировать все так, чтобы компьютер понимал, какая именно часть документа будет являться отдельным значимым элементом (токеном), а какая часть информацией о разметке.
Специальные программы называемые «синтаксическим анализатором» во время сканирования документа автоматически определяет какие элементы являются словами, а какие являются знаками пунктуации и разметки. Стоит уточнить, что некоторые из знаков разметки могут быть непечатаемыми символами). Анализатор может распознавать внутри документа такие объекты, как заголовки, адреса e-mail, URL адреса. При токенизации учитывается масса параметров: язык и кодировка, позиция токена и т.д.
Более подробно можно почитать тут – Wikipedia поисковый индекс
Для лучшего распознания поисковиками загруженные документы должны быть определенным образом подготовлены для сканирования распознания. Проблема в том, что большинство документов содержат не только текст, но специальную информацию о самом документе, форматировании текста или других объектов.
Самый простой пример – документ HTML. Любая страница на этом языке содержит HTML-теги. Теги могут описывать логические части документа, форматирование текста, различные объекты в виде картинок, видео, ссылок и т.д. Если поисковики будут игнорировать разницу между текстом и тегами, то в индекс поисковиков попадет ненужная информация и качество поисковой выдачи сильно упадет.
Поисковики найдя документ первым делом пытается проанализировать формат и выявить язык разметки. Некоторые типы документов защищены, а некоторые хорошо документированы.
Поисковые системы понимают практически все существующие файлы. Другое дело, что поисковые системы не все типы файлов могу проиндексировать и распознать ссылку внутри. Среди задокументированных стоит выделить следующие типы:
- .txt, .text — Текстовые файлы
- .bas — Исходный код Basic
- .c, .cc, .cpp, .cxx, .h, .hpp — Исходный код C/C++
- .cs — Исходный код C#
- .java — Исходный код Java
- .pl — Исходный код Perl
- .py — Исходный код Python
- ASCII текстовые файлы (текстовые документы без удобочитаемого для компьютера форматирования)
- .pdf — Adobe-формат электронных документов
- .ps — PostScript
- .tex — LaTeX
- .nzb — Usenet формат новостных интернет-серверов
- XML и производные, например, RSS
- .sgml — Standard Generalized Markup Language
- .Id3 — Форматы мультимедийных метаданных
- .doc, .docx — Microsoft Word
- .rtf — Rich Text Format
- .xls, .xlsx — Microsoft Excel
- .ppt, .pptx — Microsoft PowerPoint
- .nsf, .ndk, .ntf — IBM Lotus Notes
- .dwf — Autodesk Design Web Format
- .kml, .kmz — Google Планета Земля
- .gpx — GPS eXchange Format
- .hwp — Hancom Hanword
- .htm, .html и другие расширения файлов — HTML
- .odp — Презентации OpenOffice
- .ods — Таблицы OpenOffice
- .odt — Текстовые файлы OpenOffice
- .svg — Масштабируемая векторная графика
Поисковые системы могут индексировать файлы в сжатом формате. При работе с архивами, документы сначала распаковываются. После распаковки может получится несколько документов которые поисковая система будет индексировать отдельно.
- .zip — формат сжатия данных и архивации файлов
- .rar — формат сжатия данных и условно-бесплатная программа-архиватор
- .cab — Microsoft Windows Cabinet File
- .gzip — формат сжатого файла gzip
- .bzip — формат сжатого файла bzip
- Tape ARchive (TAR), сжатый файл Unix
- TAR.Z, TAR.GZ or TAR.BZ2 — Unix-архив файлов сжатых в Compress, GZIP или BZIP2
Продвинуть свой сайт такими ссылками к сожалению не получится. Но такие ссылки позволят хорошо разнообразить ссылочный профиль и получить ссылки (пусть и nofollow) с достаточно качественных трастовых ресурсов.