Решил выложить тему в блоге о том как скрывать Sape от поисковых систем. Информация, думаю, будет полезна для всех - начиная от вебмастеров (чтобы обезопасить себя от санкций за ссылочный спам) и заканчивая оптимизаторами (которым Яша объявил 18 марта 2008 г. в своем блоге об отношении к SEO-ссылкам).

Сапа кушает отдельные страницы сайтов, воспринимая страницы с содержанием параметров как отдельные страницы. Если пойти от обратного и к урлу страницы добавить параметры, скажем, ?param, то с точки зрения сапы мы получим другую страницу, а с точки зрения пользователя ничего не изменится.

Т.е., добавляя параметры к урлам страниц и сравнивая их с "эталонной" страницей мы условно можем определить продажность. Как этого избежать ...

Для избежания подобного нужно "рассказать" сапе о том что нужно "резать" параметры страниц.

Чтобы это сделать просто добавте код

$_SERVER['REQUEST_URI']=preg_replace("/\?(.*)$/",'',$_SERVER['REQUEST_URI']);

прямо в верх кода сапы.
Результат должен быть приблизительно таким (сразу же с кодировкой UTF-8 для WP) :

<?php
$_SERVER['REQUEST_URI']=preg_replace("/\?(.*)$/",'',$_SERVER['REQUEST_URI']);
if (!defined('_SAPE_USER')){
define('_SAPE_USER', 'УНИКАЛЬНЫЙ_ИДЕНТИФИКАТОР_САПЫ');
}
require_once($_SERVER['DOCUMENT_ROOT'].'/'._SAPE_USER.'/sape.php');
$o['charset'] = 'UTF-8';
$sape = new SAPE_client($o);
unset($o);
?>

Все :)

Теперь попробуйте добавить параметры к странице, содержащие сапу - ничего не изменится. Для максимальной безопасности остается только разнести код по разным частям страницы (иначе смысл скрывать код, оставляя линкопомойку весьма сомнителен).

Кстати у тех кто использует WP и оставил ссылочную структуру сайта неизменной с момента установки ничего не выйдет т.к. ссылки по умолчанию формируются в параметрическом виде. Соответственно, если применить данный метод сайт будет недоступен для Sape. Прийдется либо менять струкруру и ждать переиндексации либо отказаться от идеи скрытиыя.

Успехов!

ЗЫ: Метод тестировался на сервисах, которые определяют продажность морд. Работает.

ЗЫЫ: Поделитесь данной информацией со знакомыми - чем больше "незапаленных" линков - тем лучше всем (кроме Яши конечно :) ).

Запись опубликована Среда, Декабрь 10, 2008 в 13:06 в рубрике Все вместе, Программирование. Вы можете проследить за всеми комментариями через RSS 2.0 . Вы можете пролистать запись до конца и оставить отзыв. Уведомления в настоящее время не разрешены.

7 комментариев^^^

 1 

Уважаемый автор, Ваша статья опубликована в Блог-дайджесте “Сапёр”. При необходимости Вы можете сязаться с составителями дайджеста по указанной в комментарии электронной почте.

Декабрь 11, 2008 в 15:49
Шувалов
 2 

Занимательная интересная статья Да и в отличие от большинства других подобных советов воду в уши не льешь

Декабрь 12, 2008 в 8:06
Рудавинa
 3 

Прочитал - задумался - пойду спать.

Декабрь 17, 2008 в 4:40
Виктор
 4 

Добавил в избранное на будущее.

Декабрь 20, 2008 в 16:01
 5 

а как быть тем кто не менял ссылочную структуру? вопрос в другом - как ее изменить чтоб использовать сокрытие?

Декабрь 29, 2008 в 9:38
 6 

Александр, не могу, честно говоря, представить как такое возможно, если исходить из того что определить продажность можно путем прибавления пареметров. Если адреса в блоге идут по типу “/?p=(номер)”, то значит и применив метод мы выкинем из сапы все страницы с записями.

Если кто-то знает методы скрытия, основанные на другом принципе - пишите, будем пополнять базу знаний :)

Декабрь 29, 2008 в 10:05
 7 

Спасибо за метод. Реально работает

Январь 5, 2009 в 20:58

Оставить комментарий

Имя (*)
E-mail (не публикуется) (*)
URI
Комментарий