Chapter 6: Strings

Řetězce (strings) jsou neměnitelné sekvence znaků Unicode, vymezené uvozovkami - jednoduchými, dvojitými či trojitými.
Výraz "bim" "bam" je automaticky konvertován na "bimbam".

Pořadí znaku v řetězci je interně indexováno zleva i zprava, neboli je vyjádřeno pořadovým číslem, které zleva začíná nulou - viz kap. 3.2.

Vymezená část řetězce se nazývá úsek (slice). Výběr úseku se provádí úsekovým operátorem nebo funkcí slice() - viz kap. 3.3.2

Ve snaze získat poslední písmeno řetězce bychom mohli být v pokušení zkusit něco jako:

6.2 Operace s řetězci

6.2.1 Operace pro řetězce, entice a seznamy

Obecně vzato, na řetězcích nelze provádět matematické operace. Následující výrazy nejsou přípustné :

Operátor + však s řetězci pracovat umí, i když jinak, než bychom očekávali. Pro řetězce, entice a seznamy představuje operátor + příkaz zřetězení (concatenation), což je spojení dvou operandů jejich připojením těsně k sobě. Například:

Řetězce jsou neměnitelné, což znamená, že existující řetězec nelze změnit. Jediná věc, kterou lze udělat, je vytvořit nový řetězec, který je variací původního:

Řešením je zřetězení vložené části s úseky řetězce greeting. Tato operace nemá žádný vliv na původní řetězec.

Operátor násobení * rovněž pracuje s řetězci, enticemi i seznamy, způsobuje jejich zmnožení. Jeden z operandů musí být sekvence, druhým operandem musí být celé číslo, například:

6.2.2 Vestavěné metody pro řetězce

Kromě společných procedur pro řetězce a seznamy existuje také velké množství vestavěných metod, speciálně určených pro řetězce, které většinou evokujeme sestavou 'řetězec'.metoda():

6.2.3 Metoda join

Z řetězce umíme vytvořit seznam (list(arg)) a ze seznamu řetězec (str(arg)), dokonce to lze udělat jedním tahem:

Metoda join vrací řetězec, složený (concatenated) z prvků zadaného iteráblu (list, tuple, string, set a slovník). Prvky iteráblu musí být typu string.

Chceme-li z rozsypaného čaje sestavit zase žabičku, použijeme metodu join :

Metoda .join() má zavádějící název. Jak vidíme, umí nejen spojovat ale i rozdělovat s vloženými znaky nebo mezerami.

6.2.4 Metoda split

Metoda .split() rozloží řetězec na seznam úseků (substringů) v závislosti na zadaném separátoru. Separátorem může být libovolný znak řetězce - jenž se ve vráceném seznamu nahradí čárkou.

Atributy metody split()jsou nepovinné. Implicitní hodnotou separátoru je mezera: string . split().
Nenachází-li se zadaný separátor či mezera v zadaném řetězci, řetězec se nerozdělí, pouze se vloží do listu.

Vřele doporučuji otevřít si aplikaci Thonny a pohrávat si s variacemi uvedených ukázek.

6.2.5 Metoda .find

Vestavěná (built-in) metoda vrací index prvního výskytu zadaného substringu v prohledávaném řetězci. Schéma volání metody find (parametry v hranatých závorkách jsou nepovinné) je toto:

Metoda find je ve skutečnosti všestrannější než naše uživatelská funkce find_u (viz 6.5). Umí nalézt i části řetězců, nejenom pouhé znaky:

Jako naše funkce i tato metoda přijímá nepovinný argument, který určuje index u kterého má začít:

Odlišně od naší funkce, druhý nepovinný parametr metody určuje index, kde má hledání skončit:

V tomto případě skončí hledání nezdarem, protože se substring Dok nevyskytuje v intervalu od 1 do 15.

6.3 Modul string

Modul string obsahuje další užitečné objekty pro manipulaci s řetězci. Jako obvykle, modul musíme importovat dřív než jej použijeme:

Znaky whitespace posouvají kurzor, aniž by se cokoli tisklo. Vytvářejí prázdné místo mezi viditelnými znaky.

Konstanty lze s výhodou použít v různých ověřovacích funkcích, například:

Nutno si uvědomit, že tato funkce neodpovídá na otázku, zda zkoumané písmeno je velké či malé ale zda patří do sady ascii_lowercase (kde se písmeno "ch" nevyskytuje - stejně jako česká písmena s diakritikou).

Metoda "string.capwords ( str [, sep=None] )" rozdělí řetězec na jednotlivá slova (podle zadaného separátoru), počáteční písmena nahradí velkými a znovu spojí jednotlivá slova do jednoho řetězce. Použije-li se jako separátor znak, který není v původním řetězci obsažen, metoda vrátí řetězec s malými písmeny. Bez separátoru odstraní přebytečné mezery

6.4 Operátor in a not in

Operátor příslušnosti in, not in přezkoumá, zda je zadaný řetězec součástí jiného:

Použitím operátoru in a zřetězení můžeme napsat funkci, která odstraní všechny samohlásky z řetězce:

Prázdný objekt, označený jako akumulátor, je kontejner (zde řetězec) s rozšiřujícím se obsahem.
Podobným objektem je počítadlo, kde se mění počáteční stav čísla.

6.5 Sestavení funkce find()

Uživatelská funkce find_u() pro dva parametry přijme řetězec a znak a vrátí index místa, kde se znak nachází. Zadaný řetězec se prohledává od počátku (start = 0). Není-li znak nalezen, funkce vrací "Znak nenalezen".

Z textu skriptu vyplývá, že funkce find2() nalezne pouze první výskyt hledaného znaku:

V této funkci se opět setkáváme s příkazem return uvnitř smyčky. Je-li str[index] == znak, je funkce ukončena předčasným přerušením smyčky.

Tento způsob výpočtu je někdy nazýván traverzování Heuréka, protože jakmile nalezneme co hledáme, můžeme zvolat „Heuréka” a skončit hledání.

Funkci si vylepšíme přidáním parametru start. Připojením hodnoty z něj učiníme paramter s počáteční hodnotou, který je volitelný v tom smyslu, že jej můžeme při volání případně vynechat nebo změnit:

6.6 Použití metod

Řetězce jsou sice neměnitelné ale lze libovolně upravovat jejich (často interně vytvářené) kopie. Pro tento účel existuje řada funkcí a vestavěných metod.

Metoda .removeprefix/suffix()

Metoda .replace()

Metoda string.replace(old, new [,count]) vytvoří kopii zadaného řetězce, v němž nahradí stávající substring novým substringem a to pro zadaný počet substringů (implicitně pro všechny).

Použitím metody replace lze částečně kompenzovat neexistenci procedury remove pro řetězce:

V případě potřeby si můžeme napsat proceduru (zde funkci) sami, například chceme-li zbavit řetězec předdefinované sady znaků, prezentované jako punctuation.
K vlastnímu vyzkoušení použijte prostředí IDLE nebo Thonny:

Metoda .count

Vestavěnou metodu count použijeme při počítání výskytu zadaného znaku či skupiny znaků v řetězci:

6.7 Porovnávání řetězců

Při porovnávání řetězců se postupně porovnávají kódová čísla znaků se stejným indexem; postupuje se zleva doprava. ("Z" --> 90 a "b" --> 98). Python řadí velká písmena v důsledku svých číselných hodnot před malá.

Jiné relační operátory jsou užitečné při uspořádávání slov podle abecedy:

Souvislost znaku s číselnou hodnotou nám také umožňuje použít funkce min(), max(), ord() a chr():

6.8 Formátování řetězců

6.8.1 Interpolačním operátorem %

Starší a v Pythonu 3.x stále použitelný způsob formátování řetězce je s použitím interpolačního operátoru % spolu s konverzními specifikacemi.

Konverzní specifikace jsou znaky, které zastupují zamýšlený formát vkládané hodnoty, například:

Část řetězec se specifikací obsahuje kombinaci textu a konverzní specifikace d, f, s. Následuje samotný interpolační operátor % a za ním výčet hodnot, dosazovaných za konverzní specifikace. Závorky jsou nepovinné, je-li hodnota pouze jedna.

Ve třetím uvedeném příkladě mají proměnné n1 a n2 celočíselné hodnoty 4 a 5. Ve formátovaném řetězci jsou čtyři konverzní specifikace: tři %d a jedna %f. Písmeno f naznačuje, že příslušná hodnota má být ve tvaru čísla s plovoucí desetinnou čárkou (float). Čtyři hodnoty, které se vztahují k uvedeným čtyřem konverzním specifikacím jsou: 2**10, n1, n2 a n1*n2.

V následující ukázce vidíme příkaz k tisku, ve kterém k formátování řetězce použijeme únikový znak \t - (viz tab. v 6.10):

Tento program vytiskne tabulku různých mocnin čísel od 1 do 10. V uvedeném tvaru je rovnání výsledků do sloupců způsobené únikovým znakem tabelátoru \t, které selhává, jakmile hodnoty výsledků zaberou 8 míst:

Mohli bychom změnit šířku sloupce ale vidíme, že první sloupce již teď mají více místa než potřebují. Nejlepší bude určit šířku pro každý sloupec jednotlivě. Jak lze tušit, řešení poskytuje formátovaný řetězec :

Pomlčka (-) za každou konverzní specifikací určuje zarovnání zleva. Číselné hodnoty určují minimální délku, takže %-13d je minimálně třináctimístné číslo zarovnané zleva.

6.8.2 Výměnným polem a metodou .format

Novější způsob formátování výstupu je pomocí metody str.format() v sestavě

Výměnná pole jsou instrukce, uzavřené ve složených závorkách {}. Nejjednodušší možná forma výměnného pole jsou prázdné složené závorky { }. Vše, co je mimo těchto závorek, je považováno za text, který je v nezměněném stavu kopírován do výstupu.

Označení argumentu
je buď číslo, nebo klíčové slovo. Číslo odkazuje na poziční argument, klíčové slovo na pojmenovaný argument metody .format(). Tvoří-li čísla řadu 0, 1, 2, ..., lze je vynechat.

Konverze argumentu
způsobí změnu typu před formátováním. Používá se značení
!s, které volá funkci str(), jež vrací objekt coby řetězec
!r, které volá funkci repr(), jež vrací řetězec obsahující tisknutelnou prezentaci objektu
!a, které volá funkci ascii(), jež vrací řetězec, jehož non-ASCii znaky jsou nahrazeny escape sekvencí.

Specifikace argumentu
upřesňuje, jak má být hodnota prezentována, to jest určuje:
šířku - pole pro číselnou hodnotu
výplň - libovolný znak kromě závorek { }; následuje pokyn pro zarovnání
zarovnání - vlevo (<), vpravo (>), na střed (^) a mezi(=) signum a číslici
signum - +, -, " ", (také # a 0)
přesnost - počet desetinných míst čísla: . počet
typ - určuje způsob prezentace dat, například b je pro binární formát, d je pro decimální celé číslo, f pro formát float

Máme-li pojmenované argumenty uloženy ve slovníku, můžeme použít jeho hvězdičkové rozbalení:

6.8.3 Formátovaným literálem (f-stringem)

Zjednodušený způsob formátování řetězců byl zaveden ve verzi Python 3.6. Označuje se jako formátovaný literál řetězce (formated string literal), stručně f-string. Literál f-stringu se uvozuje písmenem f nebo F a lze použít obdobné konverze argumentů (!s, !r, !a) jako u předchozího způsobu formátování.

Obdobně jako u předchozího způsobu může tento literál obsahovat výměnná pole, ohraničená složenými závorkami { }. Zatímco u předchozího způsobu odkazoval obsah těchto závorek pouze na konstantní hodnotu, u f-stringu může odkazovat také na výraz, funkci a metodu.

Python 3.8 přináší rozšíření f-stringu o rovnítko za jménem, které způsobí následné vytištění předem přiřazené hodnoty:

6.9 Formátování výstupů

Formátování výstupů hodnot typu integer (d), float (f) a string (s) je uvedeno v následující tabulce (pro hodnoty mil = 1000000, mld = 1000000000, flt = 2.71828 a string = "aha"). Následující ukázky lze použít i bez příkazu "print".

Pro poslední tři ukázky si můžeme pamatovat, že výraz ve složených závorkách má obecně tuto skladbu:

Pro čísla i řetěce lze použít také tento formát, kde rovnítko za jménem proměnné způsobí následné vytištění předem přiřazené hodnoty (bez příkazu "print"):

Hodnoty	Formát	Příklad použití	Výstup
mil = 1000**2	{:,}	Comma separator: print(f'{mil:,}')	1,000,000
mld = 1000**3	{:.2e}	Exponent notation: print(f'{mld:.2e}')	1.00e+09
flt = 2.71828	{:.2f}	Format float: print(f'{flt:.2f}')	2.72
flt = 2.71828	round()	print(round(flt, 2))	2.72
0.35	{:.2%}	Procenta: print(f'{0.35:.2%}')	35.00%
x,y = 'aha', 9	{x:>>y}	Dorovnání vlevo: print(f'{x:*>9}')	******aha
x,y = 'aha', 9	{x:<y}	Dorovnání vpravo: print(f'{x:*<9}')	aha******
x,y = 'aha', 9	{x:^y}	Zarovnání na střed: print(f'{x:*^9}')	*aha*

V následné ukázce se nejedná o mroží operátor, nýbrž o formátování f-stringu pro celé či desetinné číslo.

6.10 Únikové sekvence

Úniková sekvence (escape sequence) je tvořena zpětným lomítkem (backslash) a následným jedním či více znaky.
Používá se pro vkládání jinak nepřípustných znaků do řetězce.

Kód	Význam
\', \"	Vloží apostrof
\\	Vloží zpětné lomítko
\n	Přejde na nový řádek
\r	Aktivuje 'carriage return'
\t	Aktivuje tabulátor
\b	Smaže znak před lomítkem
\f	Aktivuje 'form feed'
\ooo	Octal value
\xhh	Hex value

Příklad na použití únikové sekvence '\t' a '\n'si ukážeme v následující ukázce:

Takzvaný raw string potlačuje vliv zpětných lomítek, potažmo escape sekvencí v řetězci. Formát "raw string" vytvoříme předsazením znaku r, případně R před zápis řetězce.

6.11 Dokumentační řetězce

Kromě jednoduchých a dvojitých uvozovek zná Python také řetězce s trojitými uvozovkami, tvořenými jednoduchými i dvojitými znaky. Řetězce mohou procházet přes více řádků.

Uvnitř řetězce s trojitými uvozovkami mohou být uvozovky jednoduché i dvojité:

Trojité uvozovky se používají pro dokumentační řetězce (docstrings). Docstring je řetězec, umístěný jako první text v modulu, funkci, třídě nebo v definici metody:

Informaci o funkci získáme evokací (voláním, neboli také "aplikací") vestavěné metody .__doc__ pro objekt funkce:

Dokumentačního řetězce použijeme k získání stručné informace o jakémkoli vestavěném objektu (funkci):

6.12 Testování s doctestem

Při rozvoji programu se s oblibou provádí testování vybraných úseků zdrojového kódu. Pro toto testování poskytuje Python moduly doctest a unittest.

Popíšeme si práci s vestavěným modulem doctest. Zkoumané vzorky kódu se umístí do dokumentačního řetězce (viz 6.11) pod záhlavím funkce. V každém vzorku dokumentačního řetězce je na prvním řádku kód, jakoby zadaný v interaktivním režimu, na druhém řádku je očekávaná odezva.

Modul doctest automaticky spustí příkaz začínající >>> a jeho výstup porovná s následujícím řádkem.
Vyzkoušíme si to v aplikaci Thonny:

Poslední tři řádky spouští celou parádu. Umisťujeme je na konec každého souboru, který obsahuje doctesty.

Pokud procedura zjistí shodu mezi zkoumanými vzorky a zadanými výsledky, reaguje "mlčením" nebo je-li v konzole evokována funkce "doctest .testmod()", vrátí stručný komentář o průběhu doctestu .

Spuštění neúspěšného skriptu vyprodukuje například následující výstup, pro nějž jsme ve druhém vzorku změnili hodnocení na 'True':

6.13 Cvičení

V návaznosti na odstavec 5.3 upravte skript tak, aby se Ouack a Quack vytiskly správně:

prefixes = "JKLMNOPQ"
suffix = "ack"

for letter in prefixes:
    print(letter + suffix)

Zapouzdřete následující sekvenci příkazů do funkce count_letters_acc
```
fruit = "banana"
count = 0
for char in fruit:
    if char == 'a':
        count = count + 1
print(count)
```
a zobecněte ji tak, aby přijímala řetězec a písmeno jako argument a vracela počet výskytů písmena v řetězci. Řešení vložte do skriptu whatLetters_str.py
Tutéž úlohu (výskyt znaků) řešte vestavěnou metodou string.count(letters), která počítá výskyt nejenom písmen ale i zadaných substringů.

V následujících úlohách použijeme k ověření správnosti vašeho řešení doctesty, se kterým jsme se seznámili v kapitole 5.10. Vytvořte soubor se jménem stringtools.py a na jeho spodní okraj vložte tento veršíček:

if __name__ == '__main__':
    import doctest  
    doctest.testmod()

Přidávejte těla funkcí tak, aby prošla zkouškou doctestů. Ty budou u některých výsledků vyžadovat i apostrofy. Přičtete je k výstupu:

print("'" + <výstup> + "'")
nebo použijte funkci
return <výstup>

Návštěva stránky String Methods může být v případě potřeby prospěšná.

def reverse (s):
   """
   >>> reverse('happy')
   'yppah'
   >>> reverse('Python') 
   'nohtyP'
   >>> reverse('')
   ''
   >>> reverse('P')
   'P'
   """

Jednoduché řešení úsekovým operátorem

def mirror (s):
    """
    >>> mirror ('good')
    'gooddoog'
    >>> mirror ('yes') 
    'yessey'
    >>> mirror ('Python')
    'PythonnohtyP'
    >>> mirror ('')
    ''
    >>> mirror ('a')
    'aa'
    """

Prosté spojení dvou řetězců.

def is_palindrome (s):
    """
    >>> is_palindrome('aclr-mma')
    True
    >>> is_palindrome('abab') 
    False
    >>> is_palindrome('tenet')
    True
    >>> is_palindrome('banana')
    False
    >>> is_palindrome('straw warts')
    True
    """

Použijete řešení ad a).

def remove_letter (letter, strng):
    """
    >>> remove_letter ('a', 'apple')
    'pple'
    >>> remove_letter ('a', 'banana') 
    'bnn'
    >>> remove_letter ('z', 'banana')
    'banana'
    >>> remove_letter ('i', 'Mississippi')
    'Msssspp'
    """

Lze řešit prostřednictvím idiomu for .. in .. nebo metodou replace.

def count_sub (sub, s):
    """
    >>> count('is', 'Mississippi')
    2
    >>> count('an', 'banana') 
    2
    >>> count('ana', 'banana')
    1
    >>> count('nana', 'banana')
    1
    >>> count('nanan', 'banana')
    0
    """

Napoví stránka "String Methods".

def remove_sub (sub, s):
    """
    >>> remove('an', 'banana') 
    'bana'
    >>> remove('cyc', 'bicycle')
    'bile'
    >>> remove('iss', 'Mississippi')
    'Missippi'
    >>> remove('egg', 'bicycle')
    'bicycle'
    """