Chapter 9: Tuples, Sets, Dictionaries

Entice (tuple) je uspořádaná a neměnitelná kolekce hodnot libovolného typu, oddělených čárkou:

Zápis na pravé straně vyhodnotí interpret jako entici (tuple) a jako takovou ji vrátí v závorkách:

Bez čárky by byl výraz 'a' považován překladačem Pythonu za řetězec - podobně jako v následující ukázce (tup_s):

Entici lze rovněž vytvořit z iteráblu list, set, string, slovník funkcí tuple(), která přijímá jen jeden argument:

Odhlédneme-li od skladby, jsou operace s enticemi stejné jako operace se seznamy:

Neměnitelnost entice znamená, že ji nelze změnit beze změny identity (ID). Pokud nám nevadí změna ID, můžeme entici - jako přiřazenou hodnotu k proměnné, upravit pomocí součtu entic a úsekového operátoru:

Entici lze ovšem změnit i beze změny ID, pokud měníme její měnitelný člen, například seznam:

Co s tím? Vést tuto možnost v patrnosti a podle toho se v případě potřeby zařídit.

9.2 Kopírování entice

Entice (tuple) je neměnitelná kolekce prvků. Pokud však entice obsahuje měnitelný element typu list a dict, lze tento prvek změnit obvyklým způsobem a kopírovat metodou copy a deepcopy z modulu copy:

Metoda copy nemění identitu ani u změněného objektu.
Pokud u kopie dojde ke změně, změní se i původní objekt!

Metoda deepcopy mění identitu kopie.
Pokud u kopie dojde ke změně, původní objekt se nezmění.

Při úpravě vloženého slovníku musíme zadávat nikoliv index, nýbrž klíč:

Závislou kopii jak prosté, tak složené entice lze rovněž vytvořit úsekovým operátorem [:]

9.3 Pojmenované entice

Pojmenovaná entice (named tuple) je neměnitelná entice, opatřená jménem a názvy položek. Prvky entice jsou tedy kromě indexů přístupné také přes jejich slovní označení.
Práce s pojmenovanou enticí připomíná práci s deklarovanou třídou a jejími instancemi. Třídou je zde výchozí entice, vytvořená pomocí importované produkční (factory) funkce namedtuple() z modulu collections:

Z takto obecně deklarované entice (třídy) vytvoříme jednotlivé entice (instance) s konkrétními hodnotami příslušných položek. Užitečnost pojmenované entice spočívá v tom, že si nemusíme pamatovat význam jednotlivých polí.

Práci s pojmenovanou enticí si nejlépe ukážeme na konkrétním příkladě, ve kterém si vytvoříme kartotéku se jmény účastníků setkání, jejich bydliště a věk:

V níže uvedeném zobrazení je výstup z posledních tří příkazů print().

Podporované metody

Kromě prezentovaných metod _replace(), _make(), _asdict(), _fields podporuje named tuple stejné metody jako regulérní typ tuple - min(), max(), len(), in, not in, concatenation, index, slice, atd.

Nevýhodou pojmenované entice oproti normální entici je to, že je výrazně pomalejší.

9.4 Set a frozenset

Set (množina) je neuspořádaná měnitelná kolekce neměnitelných a jedinečných hodnot typu string, tuple, number), frozenset je neměnitelná kolekce neměnitelných a jedinečných hodnot. Používají se při testování "členství" a při eliminaci duplikátních zápisů.

Kolekce set a frozenset podporují množinové operace sjednocení (union), průnik (intersection), rozdíl (difference) a doplněk (symmetric_difference); rovněž funkci len() a idiomy x in s, x not in s.

Set vytvoříme buď výčtem jeho prvků nebo pomocí funkce set(~); frozenset vytvoříme pouze funkcí frozenset(~). Obě funkce přijímají pouze jeden argument, jímž může být seznam, řetězec, entice, částečně i slovník. Pozice jednotlivých prvků setu i frozensetu není indexována (object is not subscriptable).
Prázdný set vytváříme pouze funkcí set()

Použijeme-li jako argument pro funkce set a frozenset slovník, použijí se pouze hodnoty jeho klíčů:

Objekt typu set nepodporuje změnu položky. Složení setu lze nicméně měnit vestavěnými metodami .add(), .clear(), .discard(), .pop(), .remove(), .update(), ...

Poznámka: Metoda i.update(j) vrací stejný výsledek jako sjednocení i | j, který se stává novou hodnotou setu i:

Rozdíl dvou setů lze určit dvojím způsobem - použitím infixového operátoru (-) nebo vestavěnou metodou mc.difference(ml), případně mc.difference(ml1, ml2).
Výsledný podíl obsahuje obsah menšence (mc) bez společných elementů s menšitelem (ml) či s menšíteli.

Šikovná je redukce hromady čísel na jedinečnou řadu a posléze přeměna na posloupnost čísel:

Zápisy (), [], {} označují práznou entici, seznam a slovník; zápisy set() a frozenset() (nikoliv {}) označují prázdný set a frozenset.

Datový typ set použijeme výhodně při práci s množinami. Pro grafické zobrazení operací rozdílu, sjednocení, průniku a doplňku na setech jsou vhodné Vennovy diagramy.

9.5 Vytvoření slovníku

Slovník (dictionary, dict), je uspořádaná a měnitelná kolekce dvojic klíč : hodnota (key : value). Klíčem může být pouze neměnitelný datový typ, hodnotou libovolný datový typ. V jednom slovníků lze použít různé datové typy klíčů.

Jako příklad vytvoříme slovník pro překlad anglických slov do španělštiny. Klíči i hodnotami u tohoto slovníku budou řetězce.

Začneme tak, že vytvoříme prázdný slovník, do kterého přidáme párové položky. Prázdný slovník se označuje {}:

První přiřazení vytvoří prázdný slovník s názvem en2sp, další přiřazení přidávají nové párové položky. Párové položky jsou oddělené čárkami.

Jiným způsobem vytvoříme slovník tak, že přímo zadáme výčet slovníkových dvojic:

Případně pro vytvoření slovníku použijeme vestavěnou funkci dict(), jejímž argumentem je alternativní výpis sekvencí, jejímiž prvky jsou entice s párovými položkami (key, val):

Klíčový operátor použijeme také pro přidání nové dvojice na konec slovníku:

Při výskytu dvou zadaných stejných klíčů se uplatní jen ten později zadaný:

9.6 Slovníkové operace

Procedura del odstraní dvojici klíč-hodnota ze slovníku. Následující slovník na příklad obsahuje jména různého druhu ovoce a jeho množství na skladě:

Když někdo skoupí všechny hrušky, můžeme tento vstup ze slovníku vyjmout:

Nebo očekáváme-li, že hrušky zase budou, můžeme pouze změnit hodnotu spojenou s hruškami:

U slovníku můžeme také použít funkci len(), která vrací počet dvojic klíč-hodnota:

Vestavěná funkce reversed() aktivuje iterátor, který iteruje od konce slovníku směrem k jeho počátku:

9.7 Slovníkové metody

Slovníky mají řadu užitečných vestavěných metod, jejichž seznam získáme známou funkcí dir():

K rozbalení klíčů, hodnot i položek slovníku můžeme také použít hvězdičkový operátor uvnitř seznamu či setu:

9.8 Sloučení slovníků

Verze Python 3.9.0 přináší dva nové operátory pro sloučení slovníků, sjednocení (dict union) d | e a rozšířené přiřazení (augmented assignemt) d |= e.

Sjednocení | sloučí obsah obou operandů (zde slovníků). Nachází-li se stejný klíč v obou operandech, pro sloučení se vybere jeho hodnota z pravého operandu - viz případ d|e a e|d. Tato operace není komutativní (d|e != e|d):

9.9 Komprehence slovníku

Komprehence slovníku se příliš neliší od komprehence seznamu. Výstupem z komprehence slovníku je slovník, vytvořený aplikací zadaného výrazu pro každý element iteráblu. Schematická skladba je tato:

Iteráblem zde může dle okolností být objekt typu string, list, tuple, range, bytes, bytearray, dict, set, frozentset.

Slovník vytvoříme i z jednoho iteráblu(tuple, list) funkcemi dict(), zip(), iter():

9.10 Kopírování slovníku

Protože jsou slovníky měnitelné, musíme si dát pozor na aliasování. Kdykoliv dvě proměnné odkazují ke stejnému objektu, jeho změna prostřednictvím jedné proměnné je sdílena i druhou proměnnou.

Chceme-li měnit slovník a přitom si zachovat kopii originálu, použijeme metodu pro slovník, zvanou copy. Například, oppos je slovník, který obsahuje dvojice protikladů:

Proměnné alias a oppos odkazují na stejný objekt, proměnná kopie odkazuje na nezávislou kopii téhož slovníku. Upravíme-li alias, změní se i oppos:

9.11 Match case

Výběrovou proceduru switch case, známou v jazycích C či Java, zastupuje v Pythonu od verze 3.10 procedura, zvaná match case (porovnání případů). Do té doby byla procedura switch case v Pythonu nahrazována sekvencí podmínek if.., elif.., else nebo použitím slovníku.

9.11.1 Smyčka if-elif-else

Vybraný den může být spojen s různou odezvou, například prostřednictvím funkce.

9.11.2 Slovník uvnitř funkce

a) metoda dict.get()

Důležitým prvkem je zde slovníková metoda get. Slovník variace propojuje klíče s jednotlivými případy (cases), jimiž mohou být i různé funkce.:

b) příkaz return

Hodnotami slovníku jsou zde funkce, definované mimo těla funkce kalk(..). Výstup výsledků se realizuje příkazem return:

Slovník cases přiřazuje názvy deklarovanych funkcí k příslušným aritmetickým operátorům.

9.11.3 match case

Poznámka:

Uvnitř procedury match-case s operátory | lze použít operandy typu string.

9.12 Výskyty znaků

V kapitole 6.14, cvičení 2 a 3 jsme počítali výskyt zadaného znaku v zadaném řetězci a to pomocí smyčky s počítadlem, případně přímo prostřednictvím metody 'count'.
Také jsme v kap 8.10 a 8.11 počítali výskyty náhodných čísel v jednolivých úsecích rozpětí 0.0 až 1.0 jako potvrzení skutečnosti, že funkce 'random' modulu 'random' generuje pseudonáhodná čísla.

9.12.1 Použití počítadla s UCP

V následujícím komentovaném programu countLetters.py spočítáme výskyt znaků v zadaném textu (Alice in Wonderland) s použitím seznamu counts - coby mnohočetného počítadla.
Před realizací programu si vytvoříme dedikovanou složku (například F:/Howtopy/Alice912), do níž umístíme náš program countLetters.py, a programem vytvořenou frekvenční tabulku letter_counts.dat.
Zkoumaný text získáme tak, že na této stránce otevřeme odkaz na "Alice in Wonderland", kde si pravým klikem otevřeme kontextovou nabídku, z níž vybereme "Uložit stránku jako...". Uložíme ji např. jako "alenka.txt" do připravené složky "Alice912".
Soubor letter_counts.py vytvoříme následujícím programem:

Spusťte si tento program v Thonny a prohlédněte si ve složce F:/Howtopy/ch-09/Alice912 generovaný výstupní soubor letter_counts.dat s výskytem jednotlivých znaků.

9.12.2 Použití slovníku

Začínáme prázdným slovníkem. Na konci procesu máme slovník obsahující dvojice písmen a jejich četností.

Bylo by ještě působivější, kdybychom výskyt písmen uspořádali podle abecedy. Můžeme to udělat pomocí univerzální funkce sorted(). Tuto funkci lze použít pro seznamy, řetězce, entice, sety i slovníky:

9.13 Výskyty slov

Výskyt zadaného slova ve vstupním řetězci určíme jednoduše metodou count:

Nejjednodušší způsob určení výskytu slov v textu je metodou add a count poté, co jsme si připravili prázdný kolektor typu set a vstupní řetězec konvertovali na seznam:

9.14 Cvičení

Generujte náhodné číslo mezi low a high.
Generujte náhodné celé číslo mezi low a high včetně.
Předpokládá se, že čísla, generovaná systémovou funkcí random jsou rovnoměrně rozdělena, to znamená, že výskyt každé hodnoty má stejnou pravděpodobnost.
Zapište upravenou funkci countB1(n,b) z konce odstavce 9.9 do souboru histogram.py a vyzkoušejte volání pro n = 2000, 4000, 8000, b = 8. Ověřte, zda četnosti spějí k rovnoměrnénu výskytu.
Do stejného souboru připište upravenou funkci countB2(n,b) z konce odstavce 9.10. Volejte ji pro stejné hodnoty jako v předchozí úloze.

Vytvořte soubor lists_one.py (kap. 8), vložte do něj následující doctesty a doplňte vhodnými definicemi funkcí:

def make_empty(seq):
    """
    >>> make_empty([1, 2, 3, 4])
    []
    >>> make_empty(('a', 'b', 'c'))
    ()
    >>> make_empty("No, not me!")
    ''
    """

def insert_at_end(val, seq):
    """
    >>> insert_at_end(5, [1, 3, 4, 6])
    [1, 3, 4, 6, 5]
    >>> insert_at_end('x', 'abc')
    'abcx'
    >>> insert_at_end(5, (1, 3, 4, 6))
    (1, 3, 4, 6, 5)
    """

def insert_in_front(val, seq):
    """
    >>> insert_in_front(5, [1, 3, 4, 6])
    [5, 1, 3, 4, 6]
    >>> insert_in_front(5, (1, 3, 4, 6))
    (5, 1, 3, 4, 6)
    >>> insert_in_front('x', 'abc')
    'xabc'
    """

def index_of(val, seq, start=0):
    """
    >>> index_of(9, [1, 7, 11, 9, 10])
    3
    >>> index_of(5, (1, 2, 4, 5, 6, 10, 5, 5))
    3
    >>> index_of(5, (1, 2, 4, 5, 6, 10, 5, 5), 4)
    6
    >>> index_of('y', 'happy birthday')
    4
    >>> index_of('banana', ['apple', 'banana', 'cherry', 'date'])
    1
    >>> index_of(5, [2, 3, 4])
    -1
    >>> index_of('b', ['apple', 'banana', 'cherry', 'date'])
    -1
    """

def remove_at(index, seq):
    """
    >>> remove_at(3, [1, 7, 11, 9, 10])
    [1, 7, 11, 10]
    >>> remove_at(5, (1, 4, 6, 7, 0, 9, 3, 5))
    (1, 4, 6, 7, 0, 3, 5)
    >>> remove_at(2, "Yomrktown")
    'Yorktown'
    """

def remove_val(val, seq):
    """
    >>> remove_val(11, [1, 7, 11, 9, 10])
    [1, 7, 9, 10]
    >>> remove_val(15, (1, 15, 11, 4, 9))
    (1, 11, 4, 9)
    >>> remove_val('what', ('who', 'what', 'when', 'where', 'why', 'how'))
    ('who', 'when', 'where', 'why', 'how')
    """

def remove_all(val, seq):
    """
    >>> remove_all(11, [1, 7, 11, 9, 11, 10, 2, 11])
    [1, 7, 9, 10, 2]
    >>> remove_all('i', 'Mississippi')
    'Msssspp'
    """

def count(val, seq):
    """
    >>> count(5, (1, 5, 3, 7, 5, 8, 5))
    3
    >>> count('s', 'Mississippi')
    4
    >>> count((1, 2), [1, 5, (1, 2), 7, (1, 2), 8, 5])
    2
    """

def reverse(seq):
    """
    >>> reverse([1, 2, 3, 4, 5])
    [5, 4, 3, 2, 1]
    >>> reverse(('shoe', 'my', 'buckle', 2, 1))
    (1, 2, 'buckle', 'my', 'shoe')
    >>> reverse('Python')
    'nohtyP'
    """

def sort_sequence(seq):
    """
    >>> sort_sequence([3, 4, 6, 7, 8, 2])
    [2, 3, 4, 6, 7, 8]
    >>> sort_sequence((3, 4, 6, 7, 8, 2))
    (2, 3, 4, 6, 7, 8)
    >>> sort_sequence("nothappy")
    'ahnoppty'
    """

if __name__ == "__main__":
    import doctest
    doctest.testmod()

Odjíždíte na báječnou dovolenou ve středu, to je ve 3. dnu v týdnu. Vrátíte se po 137 nocích. Napište program, který se zeptá na pořadové číslo dne vašeho odjezdu, délku pobytu a vrátí vám název dne, ve kterém se vrátíte. Bude to neděle?
Použijete vstup z klávesnice, operátor modulo, den návratu vyberete indexem.
Případně můžete napsat funkci 'návrat(odjezd, délka)'.
Napište funkci, která přijme řetězec ("Až na severní pól šel bych rád") a vrátí frekvenční tabulku, coby slovník s uspořádanými klíči:
```
def letter_counts(retiazka):
    ...
```
Výstup pro "Mississippi" má tvar:
```
>>> letter_counts("Mississippi")
{'M': 1, 'i': 4, 'p': 2, 's': 4}
```
Pokuste se přeformulovat předchozí úlohu tak aby výstupní frekvenční tabulka pro "Mississippi" měla formát:
```
M   1
i   4
s   4
p   2
```
Pro formulaci výstupu můžete použít postup, použitý v kap. 11.8. Nezapomeňte si prohlédnout generovaný výstupní soubor

Uveďte odezvu interpreta v sedmi následujících případech v jedné souvislé seanci:

>>> d = {"apples":15, "bananas":35, "grapes":12}
>>> d["bananas"]

```
>>> d["oranges"] = 20
>>> len(d)
```
```
>>> "grapes" in d
```
```
>>> d["pears"]
```
```
>>> d.get("pears", 0)
```

>>> fruits = d.keys()
>>> sorted(fruits)

```
>>> del d["apples"]
>>> "apples" in d
```

Sem přijde vymyslet příklad na slovníkový "dispatch" - odstavec 8.

Doplňte tělo funkce, která upravuje obsah slovníku new_inventory:

def add_fruit(inventory, fruit, quantity=0):
    pass
# tyto testy by měly vyjít
new_inventory = {}
add_fruit(new_inventory, 'strawberries', 10)
test('strawberries' in new_inventory, True)
test(new_inventory['strawberries'], 10)
add_fruit(new_inventory, 'strawberries', 25)
test(new_inventory['strawberries'] , 35)

Soubor unsorted_fruits.txt obsahuje seznam 26 druhů ovoce, přičemž každé jméno začíná jiným písmenem abecedy.
Napište program sort_fruits.py, který načte ovoce z unsorted_fruits.txt a zapíše je v abecedním pořádku do sorted_fruits.txt.
Napište program alice_words.py, který vytvoří textový soubor alice_words.txt obsahující abecedně uspořádaný výpis slov z alice_in_wonderland.txt spolu s počtem výskytů každého slova. Prvních 10 řádek vašeho výstupu by mohlo vypadat nějak takto:
```
Word              Count
=======================
a                 631
a-piece           1
abide             1
able              1
about             94
above             3
absence           1
absurd            2
```
Kolikrát se v knize objeví slovo alice? Které je nejdelší slovo v Alice in Wonderland? Kolik má písmen?

9. Entice, sety, slovníky

9.1 Vytvoření entice