第67章你们能比我更懂机器翻译（5k）(2/8)

计，扩充语料和词汇，改进数据处理的效率，引入统计方法和硬件最大化利用。

    其中改进数据处理效率和硬件最大化利用由IBM方面负责。

    另外三点则由乔治敦大学的成员们负责。

    我们先来谈优化算法和规则设计。

    你们一直的问题在于，你们对于规则集的扩张没有引入更加细化的句法规则。

    因为存储有限，你们觉得扩充对照词汇库就够了。

    实际上句法规则显得更加重要。

    你们需要做到，引进常见的高频句型。

    对上下文进行依赖处理。使词汇翻译考虑前后词，通过有限的上下文窗口来减少歧义。

    比如свет同时有光和世界的意思。

    这个完全可以根据前词判断是光还是世界。”

    沃森弱弱提醒道：“教授，你还会俄语啊？”

    林燃一副理所当然的样子：“当然，我都和科罗廖夫见了两面，我不会俄语怎么和他交流的？

    我同时会俄语、德语、英语和汉语。”

    多语言大师的身份，给林燃的理论增添了几分可信度。

    在这个时代，科学家们会几门语言并不奇怪。

    当然一些敏感部门会提高对你的怀疑。

    以前面提到的约翰·麦卡锡为例，他就精通俄语，从小接受俄语教育长大，尽管他出生在阿美莉卡。

    “另外翻译过程，应该是模块化设计，而不是简单的映射关系。

    它应该分成预处理、翻译、后处理三部分。

    预处理包括了分词和词形还原，翻译才是词典的映射，后处理是对语序进行调整。

    这样来降低单次计算的复杂度，提高规则的复用率！”

    林燃的话给了在座研究团队的成员们非常多的灵感。

    就好像之前一直陷在百越的丛林里找不到出路，而现在天上出现一道光指引他们怎么样才能走出丛林迷宫。

    大家都有点迫不及待去尝试了。

    所有研究人员都疯狂在笔记本上记录下林燃所说的。

    虽然不确定教授的方法是否管用，但有路总比之前没有好。

    再者，如

第67章 你们能比我更懂机器翻译（5k）(2/8)

第67章你们能比我更懂机器翻译（5k）(2/8)