中文音译 (Transliteration)

中文音译 (Transliteration)

ChineseNLP

中文音译 (Transliteration)

背景

音译任务通常在使用不同字母和声音系统的语言之间翻译专有名词和技术术语。

示例

输入:

约翰伍兹 (yue han wu zi)

输出:

John Woods

标准评价指标

Word Accuracy in Top-1 (ACC)

Fuzziness in Top-1 (Mean F-score)

Mean Reciprocal Rank (MRR)

MAP measures precision

NEWS 2018 Dataset_03.

Named Entity Workshop (NEWS)长期组织音译任务的评测,其中中文/英文是NEWS中参与度最广的子任务之一。NEWS 2018 相关信息:

开放任务信息

数据集相关信息

Test set name

Source

Target

Test set size (phrase pairs)

NEWS 2018 Dataset_03 T-EnCh

English

Chinese

1000

NEWS 2018 Dataset_03 B-ChEn

Chinese

English

1000

结果

英文-中文

ACC

F-score

MRR

MAP

He, Cohen (2020)

0.299

0.6799

EDI (University of Edinburgh)

0.304

0.6791

0.4364

0.304

中文-英文

ACC

F-score

MRR

MAP

UALB (University of Alberta)

0.3

0.8

0.374

0.3

EDI (University of Edinburgh)

0.276

0.83

0.386

0.276

相关资源

NEWS 2018 提供了英文-中文音译和中文-英文音译任务的训练集和开发集。

Train set name

Source

Target

Train set size (phrase pairs)

NEWS 2018 Dataset_03T-EnCh

English

Chinese

41318

NEWS 2018 Dataset_03B-ChEn

Chinese

English

32002

TRANSLIT: 大规模名称音译资源

数据集包含人名和地理位置的音译

数据集收集了包括中文在内的180种语言共160万条目(entry),覆盖了大约3百万name variations.

项目GitHub

论文

建议? 修改? 请发邮件到 chinesenlp.xyz@gmail.com

关于作者: admin

相关推荐

星穹铁道:我喜欢赚钱怎么了?
血值翻倍好說明甚麼
天衣无缝的意思

天衣无缝的意思

义乌365便民中心电话 06-28