یکی از مسائلی که همواره در زمینه ترجمهٔ ماشینی مورد توجه بودهاست، روشها و پارامترهای ارزیابی نتایج ترجمهاست. قدیمی ترین روش استفاده از داورهای انسانی برای ارزیابی کیفیت یک ترجمه می باشد.اگرچه ارزیابی توسط انسان زمانبر است اما هنوز قابل اطمینان ترین راه برای مقایسه ی سیستمهای مختلف همانند سیستمهای مبتنی بر روشهای آماری و قانونمند ، میباشد. ابزارهای ارزیابی خودکار شامل بلو محصول شرکت آیبیام(BLEU)، نیست(NIST) و متئور(METEOR) می باشند.همچنین، دانشگاه بارسلون سیستمی را با نام IQ برای ارزیابی سیستمهای ترجمه ماشینی ارائه دادهاست که بر اساس چندین روش میتواند ارزیابی را انجام دهد. این سیستم ارزیابی بصورت متنباز بوده و هر کسی میتواند بر اساس نیاز خودش آنرا تنظیم نموده و استفاده نماید. دارالترجمه
بسنده کردن به ترجمه ی ماشین بدون ویرایش مجدد آن، این حقیقت را که ارتباطات بوسیله ی زبان انسان با مفاهیم نهفته شده در آن است، نادیده میگیرد.و حقیقت دیگر این است که حتی متون کاملا ترجمه شده توسط انسان نیز ممکن است خطا و اشتباه داشته است. درنتیجه برای اطمینان حاصل کردن از اینکه ترجمه ی تولید شده توسط ماشین برای انسان مورد استفاده خواهد بود و کیفیت قابل قبولی خواهد داشت، متون ترجمه شده توسط ماشین باید نهایتا توسط انسان بازبینی و ویرایش شوند. گرچه، سیستم هایی که مبتنی بر روشهای خاصی از ترجمه ماشینی عمل میکنند ، بعضا مستقلا خروجی قابل قبولی را تولید میکنند که نیازی به نظارت نهایی انسان ندارد.