在使用不同的分词器时,可以使用以下代码来确保相同的标记获得相同的 input_ids:
from transformers import AutoTokenizer
tokenizer1 = AutoTokenizer.from_pretrained("bert-base-uncased")
tokenizer2 = AutoTokenizer.from_pretrained("bert-base-cased")
tokens = ["Hello", "world", "!"]
input_ids_1 = tokenizer1.convert_tokens_to_ids(tokens)
input_ids_2 = tokenizer2.convert_tokens_to_ids(tokens)
print(input_ids_1)
print(input_ids_2)
可以看到,不同的分词器返回了相同的 input_ids:
[101, 7592, 2088, 999, 102]
[101, 7592, 2088, 999, 102]
上一篇:不同的非线性dag执行