ارزیابی ترجمهٔ ماشینی

یکی از مسائلی که همواره در زمینه ترجمهٔ ماشینی مورد توجه بوده‌است، روشها و پارامترهای ارزیابی نتایج ترجمه‌است. قدیمی ترین روش استفاده از داورهای انسانی برای ارزیابی کیفیت یک ترجمه می باشد.اگرچه ارزیابی توسط انسان زمانبر است اما هنوز قابل اطمینان ترین راه برای مقایسه ی سیستمهای مختلف همانند سیستمهای مبتنی بر روشهای آماری و قانونمند ، میباشد. ابزارهای ارزیابی خودکار شامل بلو محصول شرکت آی‌بی‌ام(BLEU)، نیست(NIST) و متئور(METEOR) می باشند.همچنین، دانشگاه بارسلون سیستمی را با نام IQ برای ارزیابی سیستم‌های ترجمه ماشینی ارائه داده‌است که بر اساس چندین روش می‌تواند ارزیابی را انجام دهد. این سیستم ارزیابی بصورت متن‌باز بوده و هر کسی می‌تواند بر اساس نیاز خودش آنرا تنظیم نموده و استفاده نماید. دارالترجمه
بسنده کردن به ترجمه ی ماشین بدون ویرایش مجدد آن، این حقیقت را که ارتباطات بوسیله ی زبان انسان با مفاهیم نهفته شده در آن است، نادیده میگیرد.و حقیقت دیگر این است که حتی متون کاملا ترجمه شده توسط انسان نیز ممکن است خطا و اشتباه داشته است. درنتیجه برای اطمینان حاصل کردن از اینکه ترجمه ی تولید شده توسط ماشین برای انسان مورد استفاده خواهد بود و کیفیت قابل قبولی خواهد داشت، متون ترجمه شده توسط ماشین باید نهایتا توسط انسان بازبینی و ویرایش شوند. گرچه، سیستم هایی که مبتنی بر روشهای خاصی از ترجمه ماشینی عمل میکنند ، بعضا مستقلا خروجی قابل قبولی را تولید میکنند که نیازی به نظارت نهایی انسان ندارد.