Go 语言中字符串与 `rune` 的迭代与非 UTF-8 字符的处理

在 Go 语言中，字符串是由 UTF-8 编码的字符序列构成的，而字符串中的每个字符实际上是由一个或多个 rune（即 Unicode 代码点）组成的。Go 的 for range 循环提供了便捷的方式来遍历字符串中的字符，它会将每个字符解析为 rune 类型。然而，在某些情况下，特别是处理包含非 UTF-8 编码字节的字符串时，直接使用 for range 可能会导致一些问题。

`for range` 迭代字符串时使用的是 `rune`

Go 的 for range 循环是基于 Unicode 代码点（即 rune）来迭代字符串的。这意味着即使字符串中的字符是由多个字节组成，for range 也会正确地处理这些字符。这样，for range 循环在解析每个字符时会自动处理 UTF-8 编码，从而确保每个字符被作为一个整体进行处理。

示例：for range 迭代字符串

package main

import "fmt"

func main() {
    data := "A\xfe\x02\xff\x04"
    for _, v := range data {
        fmt.Printf("%#x ", v)
    }
    // Output: 0x41 0xfffd 0x2 0xfffd 0x4 (not ok)
}

在上面的代码中，data 包含了一个包含非 UTF-8 字节的字符串。for range 会尝试将字符串解析为 UTF-8 编码的文本。对于无法解析的字节，它会返回 0xfffd，这是 Unicode 的替代字符（replacement character），表示无法解析的字符。

非 UTF-8 字节与 `rune` 的处理

当字符串中包含无法解析的 UTF-8 字节时，Go 的 for range 会将这些字节替换为 0xfffd（即 Unicode 替代字符）。例如，在字符串 "A\xfe\x02\xff\x04" 中，\xfe 和 \xff 是无效的 UTF-8 字节，因此 for range 迭代时会将它们替换为 0xfffd。

输出结果

0x41 0xfffd 0x2 0xfffd 0x4

这表示： - A 被正确解析为 0x41。 - \xfe 被替换为 0xfffd，表示无法解析的字符。 - \x02 和 \x04 被正常解析为各自的字节值。 - \xff 也被替换为 0xfffd。

处理包含非 UTF-8 字符的字符串

如果你需要处理包含非 UTF-8 字节的字符串，首先将其转换为 []byte 类型是一个更好的选择。这样，字节序列中的每个字节都会按原样处理，而不会尝试将其解析为 rune。

示例：使用 []byte 遍历字节数组

package main

import "fmt"

func main() {
    data := "A\xfe\x02\xff\x04"

    // 将字符串转换为字节切片并遍历
    fmt.Println()
    for _, v := range []byte(data) {
        fmt.Printf("%#x ", v)
    }
    // Output: 0x41 0xfe 0x2 0xff 0x4 (good)
}

在这个例子中，data 被转换为 []byte，并直接遍历每个字节。这样，所有字节都会原样输出，而不会受到 UTF-8 编码的限制。因此，非 UTF-8 字节不会被替换为 0xfffd。

输出结果

0x41 0xfe 0x2 0xff 0x4

这表示： - A 被正确解析为 0x41。 - \xfe 和 \xff 被原样输出，而不进行转换。

处理 Unicode 字符的建议：使用 `unicode/norm` 包

当处理包含 Unicode 字符的字符串时，特别是需要处理字符的标准化时，Go 提供了 golang.org/x/text/unicode/norm 包。该包可以用于规范化字符串，确保字符串中的字符按照 Unicode 标准进行标准化处理。

package main

import (
    "fmt"
    "golang.org/x/text/unicode/norm"
)

func main() {
    data := "A\xfe\x02\xff\x04"

    // 使用 norm 包对字符串进行标准化
    normalized := norm.NFC.String(data)
    for _, v := range normalized {
        fmt.Printf("%#x ", v)
    }
    // Output: 0x41 0xfffd 0x2 0xfffd 0x4
}

通过使用 unicode/norm 包，你可以将字符串中的 Unicode 字符进行规范化，这对于处理复合字符或不同标准的字符序列非常有用。

总结

for range 迭代字符串时，Go 会将字符串解析为 UTF-8 编码的字符，并用 rune 迭代。对于无法解析的字节，它会返回 0xfffd，即替代字符。
当字符串包含非 UTF-8 字符时，建议将字符串转换为 []byte 类型，并直接按字节进行遍历。这避免了不必要的字符解析，并保持字节的原始值。
golang.org/x/text/unicode/norm 包 提供了用于 Unicode 字符标准化的工具，能够帮助你处理字符的不同表示形式。

通过这些方法，可以更有效地处理包含非 UTF-8 字节的字符串，并避免不必要的内存分配和性能问题。

Go 语言中字符串与 rune 的迭代与非 UTF-8 字符的处理

for range 迭代字符串时使用的是 rune

非 UTF-8 字节与 rune 的处理

处理包含非 UTF-8 字符的字符串

处理 Unicode 字符的建议：使用 unicode/norm 包

总结

评论

Go 语言中字符串与 `rune` 的迭代与非 UTF-8 字符的处理

`for range` 迭代字符串时使用的是 `rune`

非 UTF-8 字节与 `rune` 的处理

处理 Unicode 字符的建议：使用 `unicode/norm` 包