Chapter 7: Modules and files

Objekt typu bytes je neměnitelná sekvence bitů. Tato binární serializace je nutná pro uložení dat do paměti počítače nebo pro jejich transport po síti.
Mnohá data (obrázky, zvuk, text) lze serializovat (kódovat - encode) na objekt typu bytes či deserializovat (dekódovat - decode) z typu bytes s použitím vhodného protokolu, jako je PNG, WAW, JSON nebo UTF-8, ASCII, cp1250 aj.

7.1.1 Převod objektu na bytes

Prezentaci objektu ve formátu bytes lze provést dvojím způsobem a to úpravou literálu nebo s použitím příslušných funkcí či metod.

Literálový přepis objektu na typ bytes vytvoříme předznamenáním literálu písmenem b. Vhodným typem literálu je řetězec (string), obsahující pouze znaky ze sady ASCII.
Řetězec se znaky UTF-8 lze převést funkcí bytes().

Převod na formát bytes lze provést pro všeliké kódování funkcí bytes, přijímající tři nepovinné parametry:

Znaky, které nejsou součástí ASCII, jsou vyjádřeny hexadecimálními čísly za zpětnými lomítky (escape sekvence). Na příkladě vidíme, že znaky ze sady UTF-8 (í, á, ů, ž ) jsou vyjádřeny dvěma kódovými čísly.

Údaj o kódování (encoding) lze vypustit, pokud souhlasíme s implicitně nastaveným utf-8. Pokud chceme použít jiné kódování, musíme jej uvést:

7.1.2 Převod bytes na původní objekt

Při deserializaci (decoding) objektu typu bytes na původní objekt musíme vědět, jaké kódování bylo při serializaci použito. To není vždy spolehlivě zjistitelné.

7.1.3 Bytearray

7.1.4 Memoryview

Interní data objektu, uložená ve vyrovnávací paměti (buffer) jsou přístupná prostřednictvím procedury, zvané buffer protocol.

Tento protokol používá sekvenční objekt memoryview, vytvořený funkcí memoryview(obj). Objekt memoryview umožňuje přímý přístup (bez kopírování) k interním datům objektů typu bytes a bytearray.

Význam objektu memoryview spočívá v tom, že šetří paměť a urychluje výpočet zejména mnohokrát opakovaných operací.

Sekvence memoryview vytvořená z objektu bytes je neměnitelná, sekvence vytvořená z bytearray je měnitelná. Ovšem (jak vidno), sekvence bytes/memoryview/bytearray je rovněž měnitelná - zřejmě proto, že argumentem 'bymv' je objekt 'mvba', vytvořený z objektu 'ba' (bytearray).

7.2 Souborové objekty

Všechny soubory jsou v paměti počítače uloženy v binárním formátu. Při otevírání souboru v nějaké aplikaci (například v textovém editoru) je binární formát automaticky převeden do formátu, který lze číst nebo prohlížet. V prostředí Pythonu nám práci s binárním formátem umožňuje existence datového typu bytes.
Názvy souborů by neměly být stejné jako jména vestavěných objektů (built-ins) .

S textovými, ani s binárními soubory nepracujeme v Pythonu přímo, nýbrž prostřednictvím takzvaných souborových objektů.

Před vlastní manipulací s obsahem souboru musíme soubor otevřít funkcí open(~), po ukončení úprav musíme soubor zavřít funkcí close(). Případně můžeme použít idiom with open.

Při práci s textovým i binárním souborem musíme znát dvě věci - kde je soubor uložen a v jakém kódování (UTF-8, ASCII, ...) byl textový soubor uložen, neboli převeden do binárního formátu.

7.3 Práce s textovými soubory

Otevřený souborový objekt (označovaný také jako stream) vzniká použitím funkce open(~) dle následujícího schematu:

Kromě pozičního parametru 'file.ext' ve schematu funkce open() jsou všechny ostatní parametry párové s přiřazenými implicitními hodnotami - což znamená, že není nutné je při invokaci funkce uvádět, pokud nechceme jejich hodnoty měnit. Při běžném použití funkce open() použijeme kromě vždy povinného parametru 'file.ext' nepovinné parametry 'mode' a 'encoding'.

Funkce open() je také iterátor, jenž vlastní funkci next(), která posouvá interní index objektu neboli ukazovátko (viz. kap. 3.1).

Přístupové režimy

Přístupový režim (mód) určuje, jakou manipulaci lze s otevřeným souborem provádět. Není-li režim zadán, je implicitně nastaven režim 'r' (read). Zároveň určuje polohu interního ukazovátka (funkce open() vytváří iterátorový objekt), označujícího počáteční místo pro případnou manipulaci.

Kombinaci různých možností lépe vyjádří následující tabulka.

Mód	Deklarovaný soubor existuje	DS neexistuje
'r' read	DS je otevřen pro čtení; ukazovátko je na počátku.	FileNotFoundError
'w' write	DS je otevřen pro psaní; stáv. obsah je vymazán.	Vytvoří se nový soubor
'a' append	DS je otevřen pro psaní; ukazovátko je na konci textu.	Vytvoří se nový soubor
'x' exclusive	FileExistError	Vytvoří se nový soub. pro psaní

'r+'	DS je otevřen pro čtení a psaní; ukazovátko je na počátku.	FileNotFoundError
'w+'	Smaže stáv. obsah; otevře pro psaní a čtení	Vytvoří se nový soubor
'a+'	DS je otevřen pro připojení nového zápisu a pro čtení. Ukazovátko je na konci.	Vytvoří se nový soubor

Kromě přístupových režimů je při práci se souborovými objekty důležité znát typ kódování, v jakém byl ošetřovaný soubor vytvořen. Dobrým způsobem jak to zjistit, je otevření souboru v textovém editoru EditPad Lite 8, kde je kódování otevřeného souboru uvedeno ve spodní liště a nechá se případně nastavit.

Otevření a zavření souborového objektu

Jednoduchá invokace souborového objektu pro kódování v ANSII má tuto formu:

Otevřený souborový objekt musíme po ukončení práce zavřít, neboť tato procedura je poměrně náročná na paměť a práci operačního systému.
Použijeme k tomu metodu myfile.close ():

Alternativně lze k deklaraci objektového souboru použít idiom with open, který otevřený soubor po provedení zadaného kódu automaticky zavře. Mějme dva soubory week_cz.txt a week_en.txt, obsahující výčet dnů v tydnu.

Při práci s existujícími soubory je alternativně možné být "nacédován" v jim nadřazené složce (zde files), kde jsou soubory uloženy:

Nyní si v této složce vytvoříme prázdný soubor fruits_cz.txt, a to tak, že se jej pokusíme v Pythonu otevřít přesto, že dosud neexistuje:

Poznámka: Pořadí argumenů v závorce je nutné dodržet. Kdybychom neuvedli parametr encoding vůbec, měli bychom problém pracovat se souborem, ve kterém se vyskytují háčky a čárky. Kdybychom jej neuvedli až na konci, potýkali bychom se s námitkou, že poziční argument 'w' následuje za klíčovým argumentem encoding.
Tímto kódem si ověříme, že nám interpret Pythonu rozuměl a že nám vyhověl:

Příkaz print() nám vrátil typ objektu, jméno souboru, použitý mód a kódování souboru.
Pokud by soubor fruits_cz.txt v režimu write ('w') již existoval, byl by jeho případný text nahrazen textem, který bychom následně zapsali.

Pro vkládání dat do souborového objektu použijeme metodu .write. Pokud tuto proceduru provádíme v jedné seanci opakovaně, k přepisu stávajícího textu nedojde. K přepisu by došlo u nově otevřeného souborového objektu:

Nyní můžeme soubor opět otevřít, tentokrát pro čtení a načíst jeho obsah do výstupu v našem programu. Pokud není mód uveden, je implicitně zaveden mód 'r':

Metoda read() může také přijmout argument, který říká kolik znaků má být čteno; mezery se počítají.

Potřebujeme-li z objektu znovu číst, můžeme přesunout jeho ukazovátko (pointer) na začátek metodou seek(offset[, from]) předtím, než manipulovaný soubor posléze uzavřeme:

K idiomu 'with open' existuje alternativa 'try: ... finally:'. Ukážeme si to na tomto příkladě v aplikaci Thonny:

Metoda read() vrací zadaný počet znaků ze souboru. Implicitně (bez zadaného počtu) vrací celý soubor.
Metoda readline() vrací znaky z jednoho řádku včetně znaku newline (\n)
Metoda readlines() vrátí všechny zbyvající řádky jako seznam řetězců.

Následující funkce kopíruje textový soubor tak, že přečte a zapíše zadaný počet znaků najednou. První argument je jméno původního souboru, druhý argument je jméno nového souboru:

Tato funkce cyklicky čte znaky z infile a zapisuje je do outfile až je dosaženo konce a proměnná text je prázdný řetězec, čímž se vyvolá provedení příkazu break.
Soubor copy_file.py uložte do složky, kde máte soubor unsorted_fruits.txt; najdete tam také v Pythonu vytvořený soubor copied_fruits. Operaci jsme provedli v aplikaci Thonny.
Na objekt typu file (soubor) lze rovněž aplikovat metodu .split() (viz 6.2.4).

7.4 Práce s binárními soubory

Soubory, které obsahují fotografie, obrázky, videa, zvukový záznam, zipové a spustitelné soubory - se nazývají binární soubory. Tyto soubory nejsou organizovány do řádků a nelze je (užitečně) otevřít normálním textovým editorem .

V Pythonu tyto soubory regulerně otevřeme již popsanou funkcí open() v režimu rb (read binary) a wb (write binary). V následující ukázce vytvoříme binární kopii obrázku motýla:

Soubor motyl.jpg si prohlédnete zde , otevřený obrázek si v otevřeném kontextovém menu uložíte volbou "Save image as..." do téže složky jako soubor "copy_motýl.py", odkud dvojklikem invokujeme textový editor aplikace Thonny, kam zkopírujeme výše zobrazený text.

V následující ukázce si vytvoříme nový soubor a vložíme do něho text v kódování utf-8. Následně si tento soubor otevřeme jako objekt typu bytes:

Ve výstupu vidíme, že písmeno č se v utf-8 vyjádří pomocí dvou bajtů, což se v zápisu binárního řetězce (který je implicitně kódován v ASCII) projeví aplikací escape sekvence, neboli použitím zpětného lomítka \ .

7.5 Vytváření a import modulů

Soubor s příponou ~.py může být spuštěn jako skript přímou invokací (python file_name.py) z příkazového řádku systémové konzoly (CMD či Terminál) nebo být načten jako modul do jiného souboru příkazem import v jeho záhlaví.

Vestavěné (built-in) moduly jsou psány v jazyce C a jsou součástí standardní knihovny Pythonu - viz Python Module Index. Příkladem vestavěných modulů jsou moduly math, string, random, sys, se kterými se postupně seznámíme.

Jako vlastní modul můžeme použít vhodný textový soubor s příponou .py. Název souboru nesmí být rozdělen pomlčkou, přípustné je podtržítko.

Importovaný modul je nejprve hledán v témže adresáři, v němž je přítomen importující soubor. Poté je hledán mezi vestavěnými (built-in) moduly. Následně je hledán v seznamu adresářů s názvem sys.path.

V následující ukázce vidíme jednoduchý příklad modulu (importovatelného souboru), jenž obsahuje deklaraci funkce a v modulu obecně nedoporučovaný přímo proveditelný příkaz (bez tečkové notace):

V další ukázce si předvedeme vliv příkazu import a použití idiomu if __name__ == '__main__' :

Realizace tohoto souboru v Thonny či IDLE umožní přístup k definici funkce mocnina(m,n) ze souboru file_a.py.

7.5.1 Import modulu

7.5.2 Cesta k modulu

Importujeme-li vestavěný modul, můžeme jej importovat odkudkoli. Vlastní modul můžeme importovat :

Řekněmež, že si pro ukládání vlastních modulů vytvoříme složku F:/Howtopy/Cesty. Do seznamu sys.path ji vložíme tímto způsobem:

7.5.3 Import modulu z paketu

Paket (package) je adresář, který spolu s potřebnými soubory (moduly) ~ .py obsahuje také soubor (třeba prázdný) __init__.py. Tento konstrukt využívá inherentní souborovou strukturu operačního systému.
V našem paketu se také sama vytvoří složka __pycache__, která bude akumulovat kompilované soubory ~.py.
Doplníme tedy paket /cesty o prázdný soubor __init__.py a přidáme pro ukázku soubory plus_ab.py a class_foo.py:

7.6 Modul sys

Modul sys poskytuje přístup k proměnným a funkcím, které spolupracují s interpretem, správou paměti a s knihovnami Pythonu. Stručný přehled proměnných a funkcí modulu sys - viz sys Module in Python. Následující příklad ukazuje výstupní hodnoty několika zadaných příkazů:

7.7 Modul Numpy, Array a Matplotlib

7.7.1 Modul Numpy

Aplikaci Numpy je nutné nejprve instalovat. Ve Windows s instalovaným programem Python s aplikací pip to je jednoduché:

Knihovnu Numpy je nutné importovat do aktuálního pracovního prostředí Pythonu:

Numpy používá vlastní formát kolektoru, zvaný array neboli pole. Prvky tohoto kolektoru musí být homogenní - to jest, musí být stejného typu .
Datový typ pole může být jedno- (1D, vektor), dvou- (2D, matice), tři- (3D, tenzor) i více (nD) dimenzionální.
Dimenzím se v Numpy říká osy (axes). Velikost pole je vyjádřena atributem shape (tvar), což je entice celých čísel, která vyjadřují délky jednotivých os (dimenzí).

Uvedené pole má dvě osy (je to tedy matice) o délkách 2 a 4 položky. Pro přístup k vybranému prvku matice lze použít indexy (počínající nulou).

Protože solidnější popis práce s modulem Numpy přesahuje rámec tohoto tutoriálu, odkazuji případné zájemce na tuto webovou stránku.

7.7.2 Modul Array

Array je kolektor, podobně jako seznam. Na rozdíl od seznamu, který je vestavěným objektem Pythonu, je nutné objekt array vytvořit importovanou funkcí array() z modulu array nebo z instalovaného modulu (pip install numpy) numpy:

Údajem 'type_code' zadáváme typ a velikost jednotlivých elementů v bajtech :

Kolektory array s výhodou použijeme při rozsáhlejších matematických výpočtech, neboť jsou rychlejší než standardní seznamy (lists).

7.7.3 Modul Matplotlib

V Kap. 8.11.2 je popisováno, jak lze rozdělit pole náhodných čísel [0,1) na intervaly (bucketWidth) a určit počet výskytů náhodných čísel v daném intervalu(výskyty).

Tento soubor čísel (frekvenční tabulku) je možné graficky znázornit histogramem, vytvořeným pomocí knihovny Matplotlib.

7.8 Cvičení

Napište program mean.py, který na příkazovém řádku konzoly přijme číselné pořadí a vrátí jeho střední hodnotu. Nejde o doctesty.
```
>>> python mean.py 3 4
3.5
>>> python mean.py 3 4 5
4.0
>>> python mean.py 11 15 94.5 22
35.625
```
Vztah mezi vstupy a výstupy u vašeho programu by měl být stejný jako v uvedené ukázce.
Při řešení použijete vestavěnou funkci sum:
```
sum(iterable[, start])            

iterable je sekvence číselných hodnot - viz kap. 4.1
[, start] je nepovinná hodnota, která se přičte k součtu
```
Napište program median.py který na příkazovém řádku přijme číselné pořadí a vrátí jeho prostřední hodnotu. Řešení bude mít nejspíš větev 'if' a 'else'. Budete mít otevřený textový editor a systémovou konzolu, kde budete ověřovat program v souboru plus konzolu Pythonu, kde si budete ověřovat krátká dílčí řešení. Console2 vám ušetří místo na monitoru.
```
>>> python median.py 3 7 11
7
>>> python median.py 19 85 121
85
>>> python median.py 11 15 16 22
15.5
```
Proveďte následující:
- Spusťte server pydoc příkazem & pydoc -b případně > python -m pydoc -b z příkazového řádku.
- Vyberte modul calendar.
- Ze sektoru Funkctions vyberte a vyzkoušejte:
```
>>> import calendar
>>> year = calendar.calendar(2020)
>>> print(year)  
```
- Experimentujte s funkcí calendar.isleap(~). Co očekává jako argument? Co vrací jako výsledek? O jaký druh funkce se jedná?
Zapište si poznatky, získané z tohoto cvičení.
Alternativně se lze k webové stránce s nápovědou Pydoc dostat příkazem:
```
>>> python -m pydoc -p 7464
```
To aktivuje webový server pydoc na portu 7464. Jeho stránku ve vašem webovém prohlížeči aktivuje příkaz:
```
>>> [b]rowser
```
Spuštěný server deaktivuje příkaz:
```
> [q]uit
```
Použijte tento postup ke spuštění pydoc a vyhledejte modul math.
1. Kolik funkcí je v modulu math?
2. Co dělá math.ceil? A co dělá math.floor? (Nápověda: jak floor tak ceil očekávají argument v desetinném formátu.)
3. Popište, jak jsme počítali odmocninu vlastní funkcí sqrt bez použití modulu math.
4. Jaké jsou datové konstanty v modulu math?
Dělejte si podrobné poznámky o svém zkoumání v tomto cvičení.
Vytvořte modul mymodule1.py. Přidejte atribut myage se zadaným vlastním věkem a year se zadaným současným letopočtem. Vytvořte další modul mymodule2.py. Přidejte atribut myage s nastavenou nulou a year s rokem svého narození.

Nyní vytvořte soubor namespace.py. Importujte oba výše uvedené moduly a napište následující příkaz:
```
print((mymodule1.myage - mymodule2.myage) == 
(mymodule1.year - mymodule2.year))
```
Spustíte-li namespace.py, dostanete jako výstup buď True nebo False podle toho, zda jste letos již narozeniny měl nebo neměl.
V prostředí interpretační konzoly si vykoušejte následující:
```
>>> import this
```
Co říká Tim Peter o jmenných prostorech?
Použijte pydoc k vyhledání a vyzkoušení dalších funkcí z modulu string. Porovnejte se seznamem, evokovaným příkazy:
```
>>> import string
>>> dir(string)
```
Použijte dir(str) a dir(list) k nalezení nejméně tří metod na řetězci a seznamu, které nebyly dosud uvedeny. Prozatím ignorujte všechno, co začíná dvojitým odtržítkem (__). Pečlivě si zapisujte své poznatky včetně jmen nových metod a příkladů jejich použití.
Nápověda: Vytiskněte si dokumentační řetězec funkce, kteru chcete zkoumat. Například, abychom zjistili, jak pracuje str .join, zadáme příkaz print(str.join.__doc__)

V prostředí konzoly vyvolávejte odezvy k následujícím příkazům:

>>> s = "If we took the bones out, \
         it wouldn't be crunchy, would it?"
>>> s.split()

```
>>> type(s.split())
```
```
>>> s.split('o')
```
```
>>> s.split('i')
```
```
>>> '0'.join(s.split('o'))
```

Je důležité, abyste každému výsledku porozuměl.

Získané poznatky použijte při doplnění následující funkce s použitím metod split a join na objektech str:

def myreplace(old, new, s):
    """
    Nahraď všechny argumenty 'old' argumenty 'new'
    v řetězci 's'.
    """

    >>> myreplace(',', ';', 'this, that, and, some, other, thing')
    'this; that; and; some; other; thing'

    >>> myreplace(' ', '**', 'Words will now be separated by stars.')
    'Words**will**now**be**separated**by**stars.'

Vaše řešení má projít oběma doctesty. Tutéž úlohu řešte také přímo s použitím metody replace.

Vytvořte modul wordtools.py s následujcím ukončením:
```
if __name__ == '__main__':
    import doctest
    doctest.testmod()
```
Vysvětlete jak tento příkaz usnadňuje užití a testování vytvořeného modulu. Jaká bude hodnota __name__ při importu wordtools .py z jiného modulu? A jaká bude při spuštění wordtools .py jako hlavního programu? Ve kterém případě budou aktivovány doctesty?

Nyní do tohoto souboru postupně přidejte těla ke každé z následujících funkcí tak, aby bylo vyhověno doctestům:

def cleanword(word):
    """
    >>> cleanword('what?')
    'what'
    >>> cleanword('"now!"')
    'now'
    >>> cleanword('?+="word!,@$()"')
    'word'
    """

def has_dashdash(s):
    """
    >>> has_dashdash('distance--but')
    True
    >>> has_dashdash('several')
    False
    >>> has_dashdash('critters')
    False
    >>> has_dashdash('spoke--fancy')
    True
    >>> has_dashdash('yo-yo')
    False
    """

def extract_words(s):
    """
    >>> extract_words('Now is the time!"Now", is the time? Yes, now.')
    ['now', 'is', 'the', 'time', 'now', 'is', 'the', 'time', 'yes', 'now']
    >>> extract_words('she tried to curtsey as she spoke--fancy')
    ['she', 'tried', 'to', 'curtsey', 'as', 'she', 'spoke', 'fancy']i
    """


def wordcount(word, wordlist):
    """
    >>> wordcount('now', ['now', 'is', 'time', 'is', 'now', 'is', 'is'
    ])
    ['now', 2]
    >>> wordcount('is', ['now', 'is', 'time', 'is', 'now', 'is', 'the'
    , 'is'])
    ['is', 4]
    >>> wordcount('time', ['now', 'is', 'time', 'is', 'now', 'is', 
    'is'])
    ['time', 1]
    >>> wordcount('frog', ['now', 'is', 'time', 'is', 'now', 'is', 
    'is'])
    ['frog', 0]
    """


def wordset(wordlist):
    """
    >>> wordset(['now', 'is', 'time', 'is', 'now', 'is', 'is'])
    ['is', 'now', 'time']
    >>> wordset(['I', 'a', 'a', 'is', 'a', 'is', 'I', 'am'])
    ['I', 'a', 'am', 'is']
    >>> wordset(['or', 'a', 'am', 'is', 'are', 'be', 'but', 'am'])
    ['a', 'am', 'are', 'be', 'but', 'is', 'or']
    """


def longestword (wordset):
    """
    >>> longestword(['a', 'apple', 'pear', 'grape'])
    5
    >>> longestword(['a', 'am', 'I', 'be'])
    2
    >>> longestword(['this', 'that', 'supercalifragilisticexpialidoci
    ous'])
    34
    """

Modul si uložte pro použití jeho procedur v jiných programech.

Upravte program countLetters_acc.py ze cvičení 6.20.2 tak aby jméno souboru a potřebné argumenty mohly být přijaty z příkazového řádku. Řešení si uložte do souboru ountLetters_cli.py.

7. Soubory a moduly

7.1 Bytes, bytearray, memoryview