Strings and Runes

Strings and Runes #

// Uma string em Go é um slice de bytes, ou []byte, apenas para leitura.
// A linguagem a biblioteca padrão tratam strings especialmente - como
// containers de text codificado em [UTF-8](https://en.wikipedia.org/wiki/UTF-8).
// Em outras linguagens, strings são feitas de "caracteres".
// Em Go, o conceito de caractere é chamado de `rune`, ou runa - é
// um inteiro que representa um ponto de código Unicode.
// [Este post](https://go.dev/blog/strings) é uma boa introdução.

package main

import (
	"fmt"
	"unicode/utf8"
)

func main() {

	// `s` é uma `string` a que foi atribuida um valor literal
	// representando a palavra "olá" em língua tailandesa.
	// As strings literais em Go são textos codificados em UTF-8.
	const s = "สวัสดี"

	// Como strings são equivalentes a `[]byte`, o próximo exemplo
	// vai produzir o tamanho em `raw bytes`, ou bytes crus, constantes
	// na string.
	fmt.Println("Len:", len(s))

	// Indexar a string produz os valores em raw byte em cada
	// índice. Este loop gera o valor hexadecimal de cada um
	// dos bytes que constituem os pontos de código em `s`.
	for i := 0; i < len(s); i++ {
		fmt.Printf("%x ", s[i])
	}
	fmt.Println()

	// Para contar quantas _runes_ tem numa string, é possível usar
	// o pacote `utf8`. Note que o tempo de execução da função
	// `RuneCountInString` depende do tamanho da string,
	// porque é preciso decodificar cada runa UTF-8 sequencialmente.
	// Alguns caracteres do alfabeto Tailandês são representados
	// por múltiplos pontos de código UTF-8 então o resultado
	// desta contagem pode ser um pouco surpreendente.
	fmt.Println("Conta runas:", utf8.RuneCountInString(s))

	// Um loop `range` decodifica cada `rune`
	// junto com sua posição na string.
	for idx, runeValue := range s {
		fmt.Printf("%#U começa em %d\n", runeValue, idx)
	}

	// É possível atingir o mesmo resultado da iteração anterior
	// usando a função `utf8.DecodeRuneInString`.
	fmt.Println("Usando DecodeRuneInString")
	for i, w := 0, 0; i < len(s); i += w {
		runeValue, width := utf8.DecodeRuneInString(s[i:])
		fmt.Printf("%#U começa em %d\n", runeValue, i)
		w = width

		// Isto demonstra uma runa sendo passada para uma função.
		examineRune(runeValue)
	}
}

func examineRune(r rune) {

	// Valores encapsulados em aspas simples são _rune literals_.
	// É possível comparar o valor da `rune` com uma _rune literal_ diretamente.
	if r == 't' {
		fmt.Println("Encontrou um 't'")
	} else if r == 'ส' {
		fmt.Println("Encontrou uma 'saw suea'")
	}
}
$ go run strings-and-runes.go
Len: 18
e0 b8 aa e0 b8 a7 e0 b8 b1 e0 b8 aa e0 b8 94 e0 b8 b5 
Contagem de runas: 6
U+0E2A 'ส' começa no índice 0
U+0E27 'ว' começa no índice 3
U+0E31 'ั' começa no índice 6
U+0E2A 'ส' começa no índice 9
U+0E14 'ด' começa no índice 12
U+0E35 'ี' começa no índice 15
Usando DecodeRuneInString
U+0E2A 'ส' começa no índice 0
# ส é chamada de [saw suea](https://pt.wiktionary.org/wiki/%E0%B8%AA)
# no alfabeto tailandês.
Encontrou uma 'saw suea'
U+0E27 'ว' começa no índice 3
U+0E31 'ั' começa no índice 6
U+0E2A 'ส' começa no índice 9
Encontrou uma 'saw suea'
U+0E14 'ด' começa no índice 12
U+0E35 'ี' começa no índice 15