Punkty kontrolne
Create a Cloud Storage bucket
/ 50
Run an Example Pipeline Remotely
/ 50
Dataflow: Qwik Start – Python
GSP207
Opis
W tym module dowiesz się, jak skonfigurować środowisko programistyczne Python, pobrać pakiet SDK Cloud Dataflow dla Pythona i uruchomić przykładowy potok przy użyciu konsoli Google Cloud.
Konfiguracja i wymagania
Zanim klikniesz przycisk Rozpocznij moduł
Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.
W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.
Do ukończenia modułu potrzebne będą:
- dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
- Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Rozpoczynanie modułu i logowanie się w konsoli Google Cloud
-
Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się wyskakujące okienko, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:
- przyciskiem Otwórz konsolę Google;
- czasem, który Ci pozostał;
- tymczasowymi danymi logowania, których musisz użyć w tym module;
- innymi informacjami potrzebnymi do ukończenia modułu.
-
Kliknij Otwórz konsolę Google. Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.
Wskazówka: otwórz karty obok siebie w osobnych oknach.
Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta. -
W razie potrzeby skopiuj nazwę użytkownika z panelu Szczegóły modułu i wklej ją w oknie logowania. Kliknij Dalej.
-
Skopiuj hasło z panelu Szczegóły modułu i wklej je w oknie powitania. Kliknij Dalej.
Ważne: musisz użyć danych logowania z panelu po lewej stronie, a nie danych logowania Google Cloud Skills Boost. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami. -
Na kolejnych stronach wykonaj następujące czynności:
- Zaakceptuj Warunki korzystania z usługi.
- Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
- Nie rejestruj się w bezpłatnych wersjach próbnych.
Poczekaj, aż na karcie otworzy się konsola Google Cloud.
Aktywowanie Cloud Shell
Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.
- Kliknij Aktywuj Cloud Shell na górze konsoli Google Cloud.
Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze PROJECT_ID. Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem PROJECT_ID dla tej sesji:
gcloud
to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.
- (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
-
Kliknij Autoryzuj.
-
Dane wyjściowe powinny wyglądać tak:
Dane wyjściowe:
- (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
Dane wyjściowe:
Przykładowe dane wyjściowe:
gcloud
w Google Cloud znajdziesz w opisie narzędzia wiersza poleceń gcloud.
Ustawianie regionu
- Aby ustawić region projektu na potrzeby tego modułu, uruchom to polecenie w Cloud Shell:
Sprawdzanie, czy interfejs Dataflow API jest włączony
Aby zapewnić dostęp do potrzebnego interfejsu API, ponownie uruchom połączenie z Dataflow API.
-
W konsoli Cloud wpisz „Dataflow API” na pasku wyszukiwania u góry. Kliknij wynik z Dataflow API.
-
Kliknij Zarządzaj.
-
Kliknij Wyłącz API.
Jeśli pojawi się prośba o potwierdzenie, kliknij Wyłącz.
- Kliknij Włącz.
Gdy interfejs API zostanie włączony, na stronie pojawi się opcja jego wyłączenia.
Zadanie 1. Tworzenie zasobnika Cloud Storage
- W Menu nawigacyjnym () kliknij Cloud Storage > Zasobniki.
- Kliknij Utwórz zasobnik.
- W oknie Utwórz zasobnik określ następujące atrybuty:
-
Nazwa: aby nazwa zasobnika była unikalna, wpisz
-bucket. Zauważ, że ta nazwa zasobnika nie zawiera informacji poufnych, ponieważ przestrzeń nazw zasobników jest globalna i widoczna publicznie. - Typ lokalizacji: w wielu regionach
-
Lokalizacja:
us
- Lokalizacja, w której będą przechowywane dane zasobnika.
-
Kliknij Utwórz.
-
Jeśli otworzy się okno „Dostęp publiczny zostanie zablokowany”, kliknij Potwierdź.
Testowanie ukończonego zadania
Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się ukończyć zadanie, wyświetli się wynik.
Zadanie 2. Instalowanie pip i pakietu SDK Cloud Dataflow
- Najnowszy pakiet SDK Cloud Dataflow dla Pythona wymaga Pythona w wersji 3.7 lub nowszej.
Aby mieć pewność, że proces działa we właściwej wersji, uruchom obraz Dockera Python3.9
:
To polecenie pobiera kontener Dockera z najnowszą stabilną wersją Pythona 3.9, po czym otwiera powłokę poleceń, aby uruchomić podane poniżej polecenia w kontenerze.
- W trakcie działania kontenera zainstaluj najnowszą wersję Apache Beam dla Pythona, uruchamiając to polecenie ze środowiska wirtualnego:
Wyświetlą się ostrzeżenia związane z zależnościami. W tym module możesz je bezpiecznie zignorować.
- Lokalnie uruchom przykład
wordcount.py
, korzystając z następującego polecenia:
W związku z tym może pojawić się podobny komunikat:
Możesz go zignorować.
- Teraz możesz wyświetlić listę plików, które znajdują się w lokalnym środowisku chmury, aby uzyskać nazwę
OUTPUT_FILE
(pliku wyjściowego):
- Skopiuj nazwę
OUTPUT_FILE
(pliku wyjściowego) i otwórz go za pomocą poleceniacat
:
W wynikach wyświetli się każde słowo występujące w pliku wraz z informacją, ile razy dane słowo się pojawia.
Zadanie 3. Zdalne uruchamianie przykładowego potoku
- Ustaw zmienną środowiskową BUCKET na utworzony wcześniej zasobnik:
- Teraz uruchom zdalnie przykład
wordcount.py
:
Poczekaj, aż w danych wyjściowych zobaczysz następujący komunikat:
Następnie kontynuuj moduł.
Zadanie 4. Sprawdzanie, czy zadanie zakończyło się sukcesem
- Otwórz menu nawigacyjne i z listy usług wybierz Dataflow.
Zadanie wordcount powinno być widoczne na początku i mieć stan Uruchomiono.
- Kliknij nazwę, aby przyjrzeć się procesowi. Aby kontynuować monitorowanie dzienników w Cloud Shell, zaznacz wszystkie pola.
Po zakończeniu procesu stan zmieni się na Ukończono.
Testowanie ukończonego zadania
Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się ukończyć zadanie, wyświetli się wynik.
-
W konsoli Google Cloud kliknij Menu nawigacyjne > Cloud Storage.
-
Wybierz nazwę swojego zasobnika. W zasobniku powinny wyświetlić się wyniki i katalogi etapów przejściowych.
-
Po kliknięciu folderu wyników powinny wyświetlić się pliki wyjściowe powstałe wskutek utworzonego przez Ciebie zadania.
-
Kliknij plik, aby sprawdzić, ile słów zawiera.
Zadanie 5. Sprawdzian wiedzy
Poniżej znajdziesz pytanie jednokrotnego wyboru, które pomoże Ci utrwalić wiedzę zdobytą w tym module. Odpowiedz na nie najlepiej, jak potrafisz.
Gratulacje!
Ukończ kurs
Ten moduł do samodzielnego ukończenia wchodzi w skład kursu Baseline: Data, ML, AI. Każdy kurs składa się z zestawu powiązanych ze sobą modułów, które razem tworzą ścieżkę szkoleniową. Za ukończenie kursu otrzymujesz odznakę – stanowi ona potwierdzenie Twojego osiągnięcia. Swoje odznaki możesz ustawiać jako widoczne publicznie, a także podać do nich linki w swoim CV lub w mediach społecznościowych. Zarejestruj się na ten kurs lub dowolny kurs zawierający ten moduł, a zostanie on automatycznie zaliczony. Wszystkie dostępne kursy znajdziesz w katalogu Google Cloud Skills Boost.
Kolejne kroki / Więcej informacji
Ten moduł należy do serii modułów Qwik Start. Opracowano je tak, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu Google Cloud Skills Boost i znajdź kolejny interesujący Cię moduł.
Zdobądź własny egzemplarz książki, na podstawie której opracowano ten moduł: Data Science on the Google Cloud Platform – O'Reilly Media, Inc (książka dostępna w języku angielskim).
Szkolenia i certyfikaty Google Cloud
…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.
Ostatnia aktualizacja instrukcji: 4 maja 2023 r.
Ostatni test modułu: 4 maja 2023 r.
Copyright 2024 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.