arrow_back

Dataflow: Qwik Start – Python

Zyskaj dostęp do ponad 700 modułów i kursów

Dataflow: Qwik Start – Python

Moduł 30 godz. universal_currency_alt 1 punkt show_chart Wprowadzające
info Ten moduł może zawierać narzędzia AI, które ułatwią Ci naukę.
Zyskaj dostęp do ponad 700 modułów i kursów

GSP207

Logo modułów do samodzielnego ukończenia poświęconych Google Cloud

Opis

Pakiet Apache Beam SDK to model programowania typu open source przeznaczony dla potoków danych. W Google Cloud możesz zdefiniować potok przy użyciu programu Apache Beam i następnie uruchomić ten potok za pomocą Dataflow.

W tym module dowiesz się, jak skonfigurować środowisko programistyczne Pythona dla Dataflow (za pomocą pakietu Apache Beam SDK for Python) i uruchomić przykładowy potok Dataflow.

Jakie zadania wykonasz

Z tego modułu dowiesz się, jak:

  • utworzyć zasobnik Cloud Storage do przechowywania wyników potoku Dataflow,
  • zainstalować pakiet Apache Beam SDK for Python,
  • zdalnie uruchomić potok Dataflow.

Konfiguracja i wymagania

Zanim klikniesz przycisk Rozpocznij moduł

Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.

W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.

Do ukończenia modułu potrzebne będą:

  • Dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito (zalecane) lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.
  • Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: w tym module używaj tylko konta do nauki. Jeśli użyjesz innego konta Google Cloud, mogą na nim zostać naliczone opłaty.

Rozpoczynanie modułu i logowanie się w konsoli Google Cloud

  1. Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się okno, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:

    • przyciskiem Otwórz konsolę Google Cloud;
    • czasem, który Ci pozostał;
    • tymczasowymi danymi logowania, których musisz użyć w tym module;
    • innymi informacjami potrzebnymi do ukończenia modułu.
  2. Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).

    Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.

    Wskazówka: otwórz karty obok siebie w osobnych oknach.

    Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
  3. W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.

    {{{user_0.username | "Username"}}}

    Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.

  4. Kliknij Dalej.

  5. Skopiuj podane niżej hasło i wklej je w oknie powitania.

    {{{user_0.password | "Password"}}}

    Hasło znajdziesz też w panelu Szczegóły modułu.

  6. Kliknij Dalej.

    Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
  7. Na kolejnych stronach wykonaj następujące czynności:

    • Zaakceptuj Warunki korzystania z usługi.
    • Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
    • Nie rejestruj się w bezpłatnych wersjach próbnych.

Poczekaj, aż na karcie otworzy się konsola Google Cloud.

Uwaga: aby uzyskać dostęp do produktów i usług Google Cloud, kliknij Menu nawigacyjne lub wpisz nazwę usługi albo produktu w polu Szukaj. Ikona menu nawigacyjnego i pole wyszukiwania

Aktywowanie Cloud Shell

Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.

  1. Kliknij Aktywuj Cloud Shell Ikona aktywowania Cloud Shell na górze konsoli Google Cloud.

  2. Kliknij te okna:

    • Przejdź przez okno z informacjami o Cloud Shell.
    • Zezwól Cloud Shell na używanie Twoich danych logowania w celu wywoływania interfejsu Google Cloud API.

Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze Project_ID . Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem Project_ID dla tej sesji:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.

  1. (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
gcloud auth list
  1. Kliknij Autoryzuj.

Dane wyjściowe:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
gcloud config list project

Dane wyjściowe:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} Uwaga: pełną dokumentację gcloud w Google Cloud znajdziesz w opisie gcloud CLI.

Ustawianie regionu

  • Aby ustawić region projektu na potrzeby tego modułu, uruchom to polecenie w Cloud Shell:
gcloud config set compute/region {{{project_0.default_region | "REGION"}}}

Sprawdzanie, czy interfejs Dataflow API jest włączony

Aby zapewnić dostęp do potrzebnego interfejsu API, ponownie uruchom połączenie z Dataflow API.

  1. W konsoli Cloud wpisz „Dataflow API” na pasku wyszukiwania u góry. Kliknij wynik z Dataflow API.

  2. Kliknij Zarządzaj.

  3. Kliknij Wyłącz API.

Jeśli pojawi się prośba o potwierdzenie, kliknij Wyłącz.

  1. Kliknij Włącz.

Gdy interfejs API zostanie włączony, na stronie pojawi się opcja jego wyłączenia.

Zadanie 1. Tworzenie zasobnika Cloud Storage

Kiedy uruchomisz potok przy użyciu Dataflow, uzyskane wyniki zostaną zapisane w zasobniku Cloud Storage. W tym zadaniu utworzysz zasobnik Cloud Storage do przechowywania wyników potoku, który uruchomisz w późniejszym zadaniu.

  1. Menu nawigacyjnym (Ikona menu nawigacyjnego) kliknij Cloud Storage > Zasobniki.
  2. Kliknij Utwórz zasobnik.
  3. W oknie Utwórz zasobnik określ następujące atrybuty:
  • Nazwa: aby nazwa zasobnika była unikalna, wpisz -bucket. Zauważ, że ta nazwa zasobnika nie zawiera informacji poufnych, ponieważ przestrzeń nazw zasobników jest globalna i widoczna publicznie.
  • Typ lokalizacji: w wielu regionach
  • Lokalizacja: us
  • Lokalizacja, w której będą przechowywane dane zasobnika.
  1. Kliknij Utwórz.

  2. Jeśli otworzy się okno „Dostęp publiczny zostanie zablokowany”, kliknij Potwierdź.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się ukończyć zadanie, wyświetli się wynik.

Tworzenie zasobnika w Cloud Storage

Zadanie 2. Instalowanie pakietu Apache Beam SDK for Python

  1. Zacznij od uruchomienia obrazu Dockera Python3.9, aby mieć pewność, że używasz obsługiwanej wersji Pythona:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

To polecenie pobiera kontener Dockera z najnowszą stabilną wersją Pythona 3.9, po czym otwiera powłokę poleceń, aby uruchomić podane poniżej polecenia w kontenerze.

  1. W trakcie działania kontenera zainstaluj najnowszą wersję pakietu Apache Beam SDK for Python, uruchamiając to polecenie ze środowiska wirtualnego:
pip install 'apache-beam[gcp]'==2.42.0

Wyświetlą się ostrzeżenia związane z zależnościami. W tym module możesz je bezpiecznie zignorować.

  1. Lokalnie uruchom przykład wordcount.py, korzystając z następującego polecenia:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE

W związku z tym może pojawić się podobny komunikat:

INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner. INFO:oauth2client.client:Attempting refresh to obtain initial access_token

Możesz go zignorować.

  1. Teraz możesz wyświetlić listę plików, które znajdują się w lokalnym środowisku chmury, aby uzyskać nazwę OUTPUT_FILE (pliku wyjściowego):
ls
  1. Skopiuj nazwę OUTPUT_FILE (pliku wyjściowego) i otwórz go za pomocą polecenia cat:
cat <nazwa pliku>

W wynikach wyświetli się każde słowo występujące w pliku wraz z informacją, ile razy dane słowo się pojawia.

Zadanie 3. Zdalne uruchamianie przykładowego potoku Dataflow

  1. Ustaw zmienną środowiskową BUCKET na utworzony wcześniej zasobnik:
BUCKET=gs://<podana wcześniej nazwa zasobnika>
  1. Teraz uruchom zdalnie przykład wordcount.py:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \ --runner DataflowRunner \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --output $BUCKET/results/output \ --region {{{project_0.default_region | "filled in at lab start"}}}

Poczekaj, aż w danych wyjściowych zobaczysz następujący komunikat:

JOB_MESSAGE_DETAILED: Workers have started successfully.

Następnie kontynuuj moduł.

Zadanie 4. Sprawdzanie, czy zadanie Dataflow zostało wykonane

  1. Otwórz Menu nawigacyjne i z listy usług wybierz Dataflow.

Zadanie wordcount powinno być widoczne na początku i mieć stan Uruchomiono.

  1. Kliknij nazwę, aby przyjrzeć się procesowi. Aby kontynuować monitorowanie dzienników w Cloud Shell, zaznacz wszystkie pola.

Po zakończeniu procesu stan zmieni się na Ukończono.

Testowanie ukończonego zadania

Kliknij Sprawdź postępy, aby zobaczyć stan realizacji zadania. Jeśli udało Ci się ukończyć zadanie, wyświetli się wynik.

Zdalne uruchomienie przykładowego potoku
  1. W konsoli Google Cloud kliknij Menu nawigacyjne > Cloud Storage.

  2. Wybierz nazwę swojego zasobnika. W zasobniku powinny wyświetlić się wyniki i katalogi etapów przejściowych.

  3. Po kliknięciu folderu wyników powinny wyświetlić się pliki wyjściowe powstałe wskutek utworzonego przez Ciebie zadania.

  4. Kliknij plik, aby sprawdzić, ile słów zawiera.

Zadanie 5. Sprawdź swoją wiedzę

Poniżej znajdziesz pytanie jednokrotnego wyboru, które pomoże Ci utrwalić wiedzę zdobytą w tym module. Odpowiedz na nie najlepiej, jak potrafisz.

Gratulacje!

Wiesz już, jak skonfigurować środowisko programistyczne Pythona dla Dataflow (za pomocą pakietu Apache Beam SDK for Python) i uruchomić przykładowy potok Dataflow.

Kolejne kroki / Więcej informacji

Ten moduł należy do serii modułów Qwik Start. Opracowano je tak, aby dać Ci przedsmak bogactwa funkcji dostępnych w Google Cloud. Wyszukaj „Qwik Start” w katalogu Google Cloud Skills Boost i znajdź kolejny interesujący Cię moduł.

Zdobądź własny egzemplarz książki, na podstawie której opracowano ten moduł: Data Science on the Google Cloud Platform – O'Reilly Media, Inc (książka dostępna w języku angielskim).

Szkolenia i certyfikaty Google Cloud

…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.

Ostatnia aktualizacja instrukcji: 4 lutego 2024 r.

Ostatni test modułu: 4 maja 2023 r.

Copyright 2025 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.

Zanim zaczniesz

  1. Moduły tworzą projekt Google Cloud i zasoby na określony czas.
  2. Moduły mają ograniczenie czasowe i nie mają funkcji wstrzymywania. Jeśli zakończysz moduł, musisz go zacząć od początku.
  3. Aby rozpocząć, w lewym górnym rogu ekranu kliknij Rozpocznij moduł.

Użyj przeglądania prywatnego

  1. Skopiuj podaną nazwę użytkownika i hasło do modułu.
  2. Kliknij Otwórz konsolę w trybie prywatnym.

Zaloguj się w konsoli

  1. Zaloguj się z użyciem danych logowania do modułu. Użycie innych danych logowania może spowodować błędy lub naliczanie opłat.
  2. Zaakceptuj warunki i pomiń stronę zasobów przywracania.
  3. Nie klikaj Zakończ moduł, chyba że właśnie został przez Ciebie zakończony lub chcesz go uruchomić ponownie, ponieważ spowoduje to usunięcie wyników i projektu.

Ta treść jest obecnie niedostępna

Kiedy dostępność się zmieni, wyślemy Ci e-maila z powiadomieniem

Świetnie

Kiedy dostępność się zmieni, skontaktujemy się z Tobą e-mailem

Jeden moduł, a potem drugi

Potwierdź, aby zakończyć wszystkie istniejące moduły i rozpocząć ten

Aby uruchomić moduł, użyj przeglądania prywatnego

Uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.