Puslapiai temoje: [1 2] > |
有成功案例更改multiterm导入术语词条的最大数限制吗? Gijos autorius: Foco Yang
|
Foco Yang Kinija Local time: 00:13 iš anglų į kinų
奋斗了一星期,还是没能如愿把41万术语条导入multiterm中。
因为发现翻译专利文献时金山词霸的512专利词典和简明英汉词典确实有很多翻译非常好(当然错误也甚多),所以将这两本词典导出,合并,去除重复词条、一些错误以及能找得出的无意义的词条之后,总的词条是约41万条(两本词典原来大约共有近60万词条,都是从金山词霸2007版导出,2009版简明英汉词典不�... See more 奋斗了一星期,还是没能如愿把41万术语条导入multiterm中。
因为发现翻译专利文献时金山词霸的512专利词典和简明英汉词典确实有很多翻译非常好(当然错误也甚多),所以将这两本词典导出,合并,去除重复词条、一些错误以及能找得出的无意义的词条之后,总的词条是约41万条(两本词典原来大约共有近60万词条,都是从金山词霸2007版导出,2009版简明英汉词典不太适合做术语库,因为2009版有太多的词语句例,而07版或更老版几乎无句例,非常适于做术语库)。先保存为txt文件,然后用multiterm 2007 convert 转换成xml文件,再用multiterm导入。先尝试一次性导入,但试了不下十次,都以失败告终。其间修改了很多原以为是造成不成功的原因,但总是无法一次性成功导入。log文件提示是
.......
-1 Added 376001(这里显示是37万6,但实际上是41万,可能reorganise到这里时就出现错误了)
-1 Does not conform to the target termbase definition.
Reason: Invalid argument.
Source: MtServer.MtTermbase.1
纵使十数次导入不成功,但我还是不死心。试图将文件分成21万(P1)和20万(P2)词条分别导入。没想到还真的导入成功,欣喜若狂。显然,如果每次都打开两个术语库肯定会让系统超慢。因此非常希望能将这两个库合并。先将两个库文件备份,并试验备份的库能以别的库名打开,成功后,开始试图在P1的基础上再导入P2,经过近四个小时的耐心等待,最后还是以失败告终。不过,这次知道了失败的可能正在原因(以前一直都是上面的提示,从来没出来下面的错误记录),那就是log文件中的提示
-1 Added 411116
Termbase reorganize failed.
File sharing lock count exceeded. Increase MaxLocksPerFile registry entry.(这个最大限制应该是失败的真正原因)
Total entries processed: 201116
Total entries added: 201116
Total entries merged: 0
Total entries omitted: 0
Total entries written to the output file: 0
Import process started: 05/04/2009 13:56:51
Import process ended: 05/04/2009 15:40:53
下面开始搜索解决这个原因的办法,不知道道儿上有没有兄弟解决过这个问题。有的话,期盼能够在些回复。
刚刚找到微软网站上的信息,http://support.microsoft.com/kb/815281,下面开始努力去解决这个问题,但愿能够成功。
如果成功了,希望这个贴子能对其他弟兄导入较大术语库时有帮助。
另,不知道兄弟们使用trados时最大术语库有多大。我的这两个P1、P2制作成的库分别是776Mb和745Mb。如果能够合并成功,应该也在1.5Gb。感觉煞是有点儿大啊。
[修改时间: 2009-04-06 07:41 GMT] ▲ Collapse | | |
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S) |
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S)
好像还是不行,观察了一下,mdb数据库文件大小好像有限制,2097152kb,现在好像导不进去数据。
有没朋友知道导入大术语库时的注意事项。 | | |
Jing Nie Kinija Local time: 00:13 Narys (2011) iš anglų į kinų + ...
不过不知道你怎么用?用起来一定是慢的要死.
你两个文件都是700多M,加起来应该不会大于2G的,所以access的2G限制应该对你没有任何影响.
我不懂数据库,不过你是否可以用别的方法导入,减少点文件大小? | |
|
|
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S) 两个文件最终是700多M,但处理过程中都是大于1G的。 | Apr 6, 2009 |
Jing Nie wrote:
不过不知道你怎么用?用起来一定是慢的要死.
你两个文件都是700多M,加起来应该不会大于2G的,所以access的2G限制应该对你没有任何影响.
我不懂数据库,不过你是否可以用别的方法导入,减少点文件大小?
两个文件最终是700多M,但处理过程中都是大于1G的。整个41万条术语对处理中应该是大于2G的。
不知道大家导入最大术语库有多大。
在网上还没查到解决方案,):。 | | |
Donglai Lou (X) Kinija Local time: 00:13 iš anglų į kinų + ...
Foco 同学,
首先,我很佩服你的钻研精神和实践能力。
由于我从不使用 Multiterm(只用Termbase),所以我很好奇你将整部词典导入Multiterm有什么实际意义,以及与直接用金山有何区别。谢谢。 | | |
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S) 用Alt键+→键组合是有快感的 | Apr 7, 2009 |
Donglai Lou wrote:
Foco 同学,
首先,我很佩服你的钻研精神和实践能力。
由于我从不使用 Multiterm(只用Termbase),所以我很好奇你将整部词典导入Multiterm有什么实际意义,以及与直接用金山有何区别。谢谢。
Hi, Donglai Lou老师,如果不是受到计算机系统速度的限制,导入我上面说的词典会给我的翻译带来很大的方便。虽然我翻译的主要是电学方面的专利,但也会涉及到机械、化学以及非工学专业内容。
我发现我做过的翻译,绝大多数可以用这两本词典中的术语。而用trados翻译时,除了有句式相似度很大的翻译直接蹦到目标框中带来的快感以外,还有用Alt键+→键组合来翻译也是相当有快感的。
而如果没有这样的术语库,只能自己慢慢老牛拉车“吭叱吭叱”在那里打字了。
另,我用trados时间不长,只有一年多点儿,有很多东西还不清楚,需要学习。不知道Donglai老师用Termbase是怎么建术语库的(我现在只知道用multiterm去导入),你的Termbase不是用multerm去创建的吗,还是它本身就是个软件呢?
请Donglai老师不吝赐教。 | | |
Donglai Lou (X) Kinija Local time: 00:13 iš anglų į kinų + ...
Foco 同学,你好。
小孩嘴真甜。不过,称我为老师很让我惭愧。不如以同学或兄弟相称比较舒服。
由于我主用 SDL Trados 中的 SDLX 部分,因此对Multiterm几乎一无所知。只是最近有个质量评审项目,客户发来的参考词库需要用Multiterm查,方才有些接触。
Termbase 是 SDLX 程序中对应 Multiterm 的模块。用起来还算方便,但设计上有许多不尽人意之处(比如单�... See more Foco 同学,你好。
小孩嘴真甜。不过,称我为老师很让我惭愧。不如以同学或兄弟相称比较舒服。
由于我主用 SDL Trados 中的 SDLX 部分,因此对Multiterm几乎一无所知。只是最近有个质量评审项目,客户发来的参考词库需要用Multiterm查,方才有些接触。
Termbase 是 SDLX 程序中对应 Multiterm 的模块。用起来还算方便,但设计上有许多不尽人意之处(比如单句内重复的词条出现多次,不能自动区分复数和单数形式,不能很好地识别中文词汇),远不如 Star Transit 的词汇工具智能。但能在线/联机添词,这比Multiterm(旧版)方便。
我个人不喜欢大TM或大 Glossary;数据库太大,往往会造成系统缓慢,以及词汇和译文混杂。当然,这与所用的CAT 工具有一定关系。我通常按项目和类似的主题合并TM或数据库。
关于术语库的创建,我在这方面做的还很不够。一般说来,我都是边做项目边输入术语。由于SDLX的concordance搜索功能很好用,因此有时都懒得去做术语库。说到最大的术语库,我刚才特意导出数了一下。原先以为也就一两百条,没想到竟有1200多条。
啰嗦了一堆,也不知道在说些什么,真是不好意思。 ▲ Collapse | |
|
|
Jing Nie Kinija Local time: 00:13 Narys (2011) iš anglų į kinų + ...
用access直接打开你的其中一个MDB,把另一个库的数据导入这个数据库.
试试
foco wrote:
Jing Nie wrote:
不过不知道你怎么用?用起来一定是慢的要死.
你两个文件都是700多M,加起来应该不会大于2G的,所以access的2G限制应该对你没有任何影响.
我不懂数据库,不过你是否可以用别的方法导入,减少点文件大小?
两个文件最终是700多M,但处理过程中都是大于1G的。整个41万条术语对处理中应该是大于2G的。
不知道大家导入最大术语库有多大。
在网上还没查到解决方案,):。 | | |
Henry Zhang Jungtinė Karalystė Local time: 16:13 iš anglų į kinų + ...
首先在用Trados翻译的过程中还是需要自己手动选择才能够将词组替换。
而且在词典中,针对一个英文单词可能会有多个中文解释,那么其结果就是这几个中文解释都会显现出来。
我在用Trados翻译的时候很少用到MultiTerm,也许您的翻译比较专,所以用的多一些。 | | |
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S)
谢谢,这个方法已经试过了,不行,因为multiterm导入数据库时有它自己的算法,就是做索引。
前天一个做数据库开发的同学说给我做个程序来合并这两个数据库,但我怕浪费太多时间,而且需要找出multiterm导出来的mdb中各表项的关系,也不一定能成功,没让我同学做。
而且我的笔记本是06年的老T60,已经快跑不动了,用大数据库速度是很慢,所以,打算放弃了。
anyway, thany you for your suggestion.
Jing Nie wrote:
用access直接打开你的其中一个MDB,把另一个库的数据导入这个数据库.
试试
| | |
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S) 必要性是基于一个人经历以后才能认识到的 | Apr 9, 2009 |
其实主要是受计算机系统速度的限制,否则有了这样的术语库,你真的会省很多事情的。
我做的术语库每对术语是一对一的,就是说每对中英汉只有一个词。比如fiber本身有很多意思,例如纤维和光纤,但不能把它做成(fiber|纤维;光纤)这样的术语对, 否则用alt+→组合键时还要删除中文中的某一项意思,速度比不用multiterm更慢;而需要做成(fiber|光纤)和(fiber|纤维... See more 其实主要是受计算机系统速度的限制,否则有了这样的术语库,你真的会省很多事情的。
我做的术语库每对术语是一对一的,就是说每对中英汉只有一个词。比如fiber本身有很多意思,例如纤维和光纤,但不能把它做成(fiber|纤维;光纤)这样的术语对, 否则用alt+→组合键时还要删除中文中的某一项意思,速度比不用multiterm更慢;而需要做成(fiber|光纤)和(fiber|纤维)这两个术语对,那么只要用alt+→组合键 不到一秒钟 就能 准确 搞定。
现在我只是在用自己添加的一些术语形成的术语库。有些术语的汉语意思不仅有好几种,而且还有好几个汉字,如果有了一对一的术语库你速度就会成十倍量级的提高,而且 最重要的是不会出现打字错误带来的风险(除非你的库里就有错字,那就满盘皆错了)。
另外,我想用multiterm的另一个原因是,我是做专利翻译,也可以说是很专业的翻译吧。所以,我在体会着专业翻译的死板、呆板。有的时候,两个或者多个英语单词组合起来已经有了约定俗成的汉语表达,但我们有时候偶尔会把它们拆开翻译(当然每个文件里可能为数不多,但就算是为数不多,也很有损翻译人员的形象的。现在一下子举不出例子来,但一定会碰到,我相信做翻译的都会碰到,我在做proofreading时也看到其他同仁与我有同样的呆板经历),拆开翻译可能意思并没有特别大的错误,但在感觉上还是不够贴切或者地道,而如果有了术语库,它往往会给译员一种提示。做翻译的人做的翻译不可能完全是他熟知的领域,如果是做邻接领域的翻译,这个提示太重要了。
必要性是基于一个人经历以后才能认识到的。当你享受到multiterm给你带来的这样的便利时,你就会觉得有个经过精心整理、全面的术语库太有必要了。
Henry Zhang wrote:
首先在用Trados翻译的过程中还是需要自己手动选择才能够将词组替换。
而且在词典中,针对一个英文单词可能会有多个中文解释,那么其结果就是这几个中文解释都会显现出来。
我在用Trados翻译的时候很少用到MultiTerm,也许您的翻译比较专,所以用的多一些。
[修改时间: 2009-04-09 03:03 GMT] ▲ Collapse | |
|
|
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S)
Donglai老师,对于做翻译,你一定是我的老师了,所以还是叫你Donglai老师好了。有好多东西需要学习,所以,还请Donglai老师多多指点啊
关于这个multiterm术语库我打算放弃了。主要是受计算机系统及软件等各方面的限制,要不然,用它还真是很不错的。我试过了,别说把我整理的41万全部导入,就是仅用21万的术语库,我的笔记本已经不行了。但网上看到有人说导入过10... See more Donglai老师,对于做翻译,你一定是我的老师了,所以还是叫你Donglai老师好了。有好多东西需要学习,所以,还请Donglai老师多多指点啊
关于这个multiterm术语库我打算放弃了。主要是受计算机系统及软件等各方面的限制,要不然,用它还真是很不错的。我试过了,别说把我整理的41万全部导入,就是仅用21万的术语库,我的笔记本已经不行了。但网上看到有人说导入过100多万的术语,不知道他是怎么用的。我是打算放弃了,但不知道以后会不会有更好的解决方案,如果有了,我还是会捡起来的。TM和MT都有各自的强大功效。但在不能用大库的时候就用用小库了。
Donglai Lou wrote:
Foco 同学,你好。
小孩嘴真甜。不过,称我为老师很让我惭愧。不如以同学或兄弟相称比较舒服。
由于我主用 SDL Trados 中的 SDLX 部分,因此对Multiterm几乎一无所知。只是最近有个质量评审项目,客户发来的参考词库需要用Multiterm查,方才有些接触。
Termbase 是 SDLX 程序中对应 Multiterm 的模块。用起来还算方便,但设计上有许多不尽人意之处(比如单句内重复的词条出现多次,不能自动区分复数和单数形式,不能很好地识别中文词汇),远不如 Star Transit 的词汇工具智能。但能在线/联机添词,这比Multiterm(旧版)方便。
我个人不喜欢大TM或大 Glossary;数据库太大,往往会造成系统缓慢,以及词汇和译文混杂。当然,这与所用的CAT 工具有一定关系。我通常按项目和类似的主题合并TM或数据库。
关于术语库的创建,我在这方面做的还很不够。一般说来,我都是边做项目边输入术语。由于SDLX的concordance搜索功能很好用,因此有时都懒得去做术语库。说到最大的术语库,我刚才特意导出数了一下。原先以为也就一两百条,没想到竟有1200多条。
啰嗦了一堆,也不知道在说些什么,真是不好意思。
▲ Collapse | | |
Henry Zhang Jungtinė Karalystė Local time: 16:13 iš anglų į kinų + ... 如果是一一对应,那应该会好很多。 | Apr 9, 2009 |
词汇开始建设的时候确实很繁琐,呵呵。
我同意donglai的说法,我觉得Transit XV在这方面比MultiTerm好很多,只不过那个软件开始上手的时候比较难。有一些设计理念和别的翻译软件不太一样。 | | |
Foco Yang Kinija Local time: 00:13 iš anglų į kinų TEMOS KŪRĖJA(S)
Henry,是的,如果一一对应会有太多术语对,无疑增大了数据库的负担。今天才知道,其实multiterm是可以一对多和多对一的,并且用alt+→键不会把汉语一次性调到翻译目标框中。这需要在制作termbase时建立多个列(即excel表或者Text文件中多建几列)。
今天把原来来源不明的术语库和金山词霸中的512专利词典合并了一下,一共38000条术语(不算有一词多义的5800条)。导入... See more Henry,是的,如果一一对应会有太多术语对,无疑增大了数据库的负担。今天才知道,其实multiterm是可以一对多和多对一的,并且用alt+→键不会把汉语一次性调到翻译目标框中。这需要在制作termbase时建立多个列(即excel表或者Text文件中多建几列)。
今天把原来来源不明的术语库和金山词霸中的512专利词典合并了一下,一共38000条术语(不算有一词多义的5800条)。导入成功,术语库大小146Mb。
速度自然不如原来只有两万多条快了(其实,术语库里有很多垃圾,但没时间一一清理)。
只有一点缺陷,就是用multiterm打开术语库时,总是显示chinese在前English在后。我想打开时显示的就是英语在前,中文在后,用只含十几条术语的库试验多次,均不成功。就这样了,自我感觉做了一个非常完美的术语库。
Henry Zhang wrote:
词汇开始建设的时候确实很繁琐,呵呵。
我同意donglai的说法,我觉得Transit XV在这方面比MultiTerm好很多,只不过那个软件开始上手的时候比较难。有一些设计理念和别的翻译软件不太一样。 ▲ Collapse | | |
Puslapiai temoje: [1 2] > |