Odkrycie wiedza
/ Knowledge Discovery >> Odkrycie wiedza >> tech >> komputer >> Internet >> podstawy Internetu >>

Jak internetowe Wyszukiwarki Work

aściwie zakończona - stale zmieniający się charakter sieci oznacza, że ​​pająki są zawsze indeksowania) , wyszukiwarka musi przechowywać te informacje w sposób, który sprawia, że ​​przydatne. Istnieją dwa zasadnicze elementy związane z dokonywaniem zebranych danych dostępne dla użytkowników:
  • Informacje przechowywane wraz z danymi Największa
  • sposobu, w jaki informacje są indeksowane

    W najprostszym przypadku, wyszukiwarka może po prostu zapisać słowo i adres URL, w którym zostało znalezione. W rzeczywistości byłoby to zrobić dla silnika ograniczone zastosowanie, ponieważ nie byłoby sposób mówienia, czy słowo zostało użyte w ważnym lub trywialny sposób na stronie, czy słowo było używane raz lub wiele razy, czy na stronie zawarte linki do innych stron zawierających słowo. Innymi słowy, nie byłoby sposobem budowania listy rankingowej, który stara się przedstawić najbardziej użyteczne strony u góry listy wyników wyszukiwania. Największa

    Aby bardziej przydatnych wyników, większość wyszukiwarek przechowywać więcej niż tylko słowa i adres URL. Silnik może przechowywać wiele razy, że na stronie pojawi się słowo. Silnik może przypisać wagę do każdego wpisu, wraz ze wzrostem wartości przypisane do słów, które pojawiają się w górnej części dokumentu, w poddziałów, w linkach, w meta tagach lub w tytule strony. Każdy handlowa wyszukiwarka ma inny wzór na przypisanie wagi do słów w indeksie. Jest to jeden z powodów, że poszukiwanie tego samego słowa w różnych wyszukiwarkach będą produkować różne listy, ze stron prezentowanych w różnych zleceń. Największa

    Niezależnie od dokładnego połączenia dodatkowych elementów informacji przechowywanych przez poszukiwaniu silnika, dane zostaną zakodowane, aby zaoszczędzić miejsce na dysku. Na przykład, oryginalny papier Google przedstawia za pomocą 2 bajtów, 8 bitów każda, do przechowywania informacji na ważenia - czy słowo zostało aktywowane, jego rozmiar czcionki, położenie i inne informacje, które pomogą w rankingu hit. Każdy czynnik może potrwać nawet 2 lub 3 bity w ramach grupy 2-bajt (8 bitów = 1 bajt). W rezultacie, wiele informacji mogą być przechowywane w bardzo kompaktowej formie. Po informacja jest zbita, jest gotowy do indeksowania Największa

    Indeks ma jeden cel:. Pozwala informacji można znaleźć tak szybko, jak to możliwe. Istnieje sporo sposobów na indeksie być budowane, ale jednym z najbardziej skutecznych sposobów jest stworzenie tabeli mieszania. W mieszaja, formuła jest stosowana do

    Page [1] [2] [3] [4] [5] [6]