inżynierowie Google wykorzystywane pięć lat historycznego Big Data - i mamy na myśli duże. Oni wykorzystać do ich bazy danych 50 mln z najbardziej powszechnie stosowanych wcześniej przefiltrowany zapytań w celu określenia podstawy ogólnej aktywności wirusa grypy. Początkowy algorytm narzędzia prognozowania oparła się wyłącznie na regionalnych dotyczących grypy wyszukiwania danych zapytań (regionalne na podstawie adresu IP), w tym nadrzędnych tematów, takich jak objawy grypy ogólnych, przeziębienie i leków przeciwwirusowych. Największa
algorytm porównuje rzeczywistym -time dane zapytanie wyszukiwania - słowo lub wyrażenie użyte jako wyszukiwane hasło, takie jak " ból gardła " - W stosunku do wartości wyjściowej w celu określenia poziomu regionalnego aktywności wirusa grypy, począwszy od klasyfikacji wśród pięciu minimalne do intensywny. Teoretycznie GFT może dostarczyć raporty bieżące-dniowy (niemal w czasie rzeczywistym) aktywności grypy i przewidywania epidemii grypy tygodni przed CDC kompiluje raport. Największa
Według wynalazców GFT, choć, raportowanie w czasie rzeczywistym GFT jest przeznaczona do stosowania jako uzupełniający do danych klinicznych i wirusologicznych w tradycyjnym nadzoru (CDC i jego sieci). Szybkie wykrywanie GFT ma na celu pomóc wczesnego wykrywania epidemii grypy nie tylko, ale także wirusowe identyfikacji szczepu oraz potencjał pandemii Największa GFT:. Model aktualizacji, dokładność i Big Data Pułapka Największa
Przed każdym nowego roku sezon grypowy, model Google Flu Trends jest odświeżany z 45 najbardziej przydatnych zapytań dotyczących grypy z lat poprzedzających (te szczególne warunki wyszukiwania są wybierane za pomocą regresji logistycznej, ale dokładne zapytania i jak są one ważone wobec innych są przechowywane tajne). Największa
Dodatkowo, szacunki po sezonie GFT są oceniane według tradycyjnych sprawozdań z nadzoru danych wykorzystywanych przez CDC, aby zobaczyć, jak dobrze dwa mecz. W oparciu o zdolność narzędzia Info do dokładnego oszacowania, gdy zaczyna tego roku sezon grypowy, gdy sezon osiągnie szczyt i jak ciężka będzie to model może zostać zaktualizowany. Kiedy to po raz pierwszy w 2008 roku, GFT miały średnią korelację 97 procent z danymi CDC [Źródło: Ginsberg]. Najwięks