wyciek kodu źródłowego Yandex - kniew - 28-01-2023 10:45
Kto śledzi marketingowe newsy pewnie widział już info, że dwa dni temu wyciekły kody źródłowe rosyjskiego odpowiednika Google - Yandex, zawierające między innymi czynniki rankingowe.
Jest to o tyle ciekawe, że Yandex jest po części kopią Google i z pewnością wiele czynników mają wspólnych.
Poniżej przetłumaczony tekst przez Szymona Słowika.
- Jednym z głównych czynników rankingowych jest Page Rank. Co ciekawe osobno jest liczony Page Rank ukraiński, co może wskazywać, że PR jest budowany na podstawie linków z danej sieci krajowej.
- Wiek linków ma znaczenie.
- Czynnikami rankingowymi są ruch, liczba UU oraz i procentowy udział ruchu organicznego (co może oznaczać, że kupowanie ruchu PPC też może przekładać się na pozycjonowanie)!
- Cyfry w adresach URL są oceniane negatywnie.
- Wiele slashów w adresach URL to czynnik negatywny.
- Stabilność hosta ma znaczenie. Im mniej masz błędów 5xx,4xx tym lepiej dla SEO.
Wikipedia ma bonus do rankingu!
- Yandex w dużym stopniu korzysta z danych behawioralnych (CTR, czas na stronie, współczynnik odrzuceń, kliknięcia i ogólna aktywność na stronie). Warto tu podkreślić, że Yandex od dawna stosuje dane behawioralne i ma za sobą nieudaną próbę odejścia od czynników linkowych.
- Wiek dokumentu oraz ostatnia aktualizacja również mają znaczenie.
- CTR na podobne zapytania (synonimy itp.) również jest brany pod uwagę jako czynnik rankingowy.
- Jednym z czynników jest średnia pozycja domeny na wszystkie zapytania.
Brana jest pod uwagę liczba wyświetleń danego URL na dane zapytanie.
- Tematyczność linków (topical relevancy) jest czynnikiem rankingowym. To w zasadzie zespół wielu czynników (trudno je ocenić szczegółowo, bo linki w dokumentacji prowadzą do wewnętrznej bazy wiedzy Yandex, do której trzeba mieć dostępy).
- Weryfikowane jest czy strona nie zawiera treści porno.
- Na pozycje wpływa negatywnie jeśli w dokumencie nie ma wszystkich słów z zapytania (analizowany jest też udział procentowy).
- Długość tekstu ma znaczenie (liczona wg wzoru TLen = Map(number of words, 1/400), where Map(x, y) = xy / (1 + xy) )
- Czynnikiem rankingowym jest również udział klików w wyniki z danej domeny pochodzących z określonych regionów (the ratio of the number of clicks on the given domainId to all clicks on the request, by small regions from relev_regions.web.txt).
- Wyszukiwanie brandowe i jego CTR w pewnym sensie ma wpływ na pozycje (Clickability of the host for the first word of the query. Quite often, the first (last) word of the query is an explicit indication of the site on which to look for information.)
- Na podstawie whois oceniane jest prawdopodobieństwo czy hosting należy do spamera.
- Pesymistyczny wydźwięk / sentyment treści (?) obniża PageRank do zera… Nie bardzo wiem o co chodzi i to tylko moja interpretacja. Może ktoś mi wyjaśni. W oryginale jest użyte określenie „hard pessimization (aka PR=0), binary factor, used in antispam”
- Analizowania jest pora dnia zapytania.
- Lokalizacja ma znaczenie, a zapytania są oceniane w kontekście intencji związanej z lokalnymi wynikami.
- TLD ma znaczenie (np. jednym z czynników jest weryfikacja, czy domena jest domeną „com”)
- Analiza NLP w kontekście naturalności tekstu dla języka rosyjskiego. Mechanizm ma na celu wykrywanie treści, któ®e mogły być wygenerowane przez synonimizer lub automat (…how unnatural the text is from the point of view of the Russian language. An assessment of how much the text of the document can be considered as generated by a synonymizer or even automatic.). Analizowane są różne elementy treści jak długość słów, liczba czasowników, zaimków i innych części mowy.
- Udział w systemach wzajemnego linkowania jest analizowany (link rings).
- Liczba śmieciowych linków (trash-links) między hostami (?) jest też czynnikiem rankingowym.
- Istnieją czynniki (związane z czasem) brane pod uwagę tylko podczas rerankingu.
Dane są z lutego 2022, szczególnie ciekawe jest wykrywanie treści wygenerowanych przez Ai. Tak w kontekście ostatniej popularności ChatuGPT
|