На страницу 1, 2 След. |
|
|
Нам регулярно требуется англоязычный контент в больших количествах. Поэтому мы тестируем различные подходы к его генерации. Насколько успели заметить, для индексации контента и последующего хорошего ранжирования страниц с этим контентом, текст должен быть более менее качественным (субъективно - читаемым). Проанализировали ряд сервисов для машинного перевода текста. Для пары ru-en так и не нашли ничего толкового с точки зрения качества получаемого на выходе контента. Поэкспериментировали с цепочками (вроде ru|fr|en) - качество также не понравилось. Начали смотреть в сторону родственных языков и наткнулись на интересную пару: de-en (немецкий-английский). На выходе получается далеко не идеальный текст, однако читаемость в среднем явно выше ru-en. Например:
Исходный текст
Ludwig von Mises gilt zweifellos als einer der größten Intellektuellen des 20. Jahrhunderts. Es gibt kaum ein wirtschaftliches Thema, auf das der Philosoph des Liberalismus und Vordenker der Österreichischen Schule der Nationalökonomie in seinen Publikationen nicht eingegangen ist. Das Faszinierende daran:
Seine Gedankengänge sind noch immer brandaktuell, seine Denkanstöße, wie zum Thema Mindestlohn, erschreckend visionär.
Michael Ladwig hat in liebevoller Detailarbeit das umfangreiche Werk Ludwig von Mises’ analysiert und ein Lexikon zusammengestellt, das eine Orientierungshilfe in seiner Philosophie bietet. Leicht verständliche Artikel beleuchten Mises’ Gedanken von A wie Anarchismus bis Z wie Zwang, mal in ein paar Sätzen auf den Punkt gebracht, mal über mehrere spannende Seiten.
Переведено Яндекс переводчиком
Ludwig von Mises is without a doubt one of the greatest Intellectuals of the 20th century. Century. There is hardly an economic subject, the philosopher of liberalism, and thinkers of the Austrian school of Economics in its publications is not addressed. The Fascinating thing is:
His thoughts are always up to date, its food for thought, as to the topic of minimum wage, terrifying visionary.
Michael Ladwig has analysed in loving detail the extensive work of Ludwig von Mises’ and a lexicon is compiled, which provides a guidance in his philosophy. Easy-to-understand article Mises’ thoughts of A like anarchism to Z as in forced, time in a couple of sentences to the point light, at other times about several exciting pages.
Вопросы
1. Есть ли у вас рекомендации по улучшению качества автопереводного контента?
2. Возможно, посоветуете языковые пары или сервисы автоперевода, которые стоит использовать?
3. Проводил ли кто-нибудь тесты по массовой индексации и выводу в ТОП страниц с подобным контентом, в частности, при машинном переводе родственных языковых пар? |
|
|
|
|
|
Цитата: |
Начали смотреть в сторону родственных языков и наткнулись на интересную пару: de-en (немецкий-английский). На выходе получается далеко не идеальный текст, однако читаемость в среднем явно выше ru-en.
|
Действительно, английский и немецкий языки очень схожи. Сама отмечала это при изучении.
Цитата: |
Есть ли у вас рекомендации по улучшению качества автопереводного контента?
|
Нанять студента с иняза для правки. Других вариантов нет. |
|
|
|
|
|
Только если вручную корректировать, а то автоматический транслейт иногда такие перлы выдает
Да и Google, скорее всего, содержит большую базу маркеров по переводной генеренке. |
|
|
|
|
|
Цитата: |
автоматический транслейт иногда такие перлы выдает
|
Любой автопереводчик должен иметь объемную базу данных, которая кроме лексики и грамматики должна содержать фразеологизмы и устойчивые сочетания. Если они не опознаются, то машина начинает тупить и переводить их дословно. Впрочем, как и человек. |
|
|
|
|
|
Если Гуглом переводить и пытаться запихивать в него же этот перевод, то ничего толкового не выйдет. Нужно пробовать переводить для Гугля либо софтом, либо Яндексом, например. Замечал, что разница бывает довольно существенной. |
|
|
|
|
|
Цитата: |
наткнулись на интересную пару: de-en (немецкий-английский).
|
ТС, самый близкий к английскому языку с лингвистической точки язык — фризский. Картинка в помощь.
|
|
|
|
|
|
Цитата: |
Действительно, английский и немецкий языки очень схожи. Сама отмечала это при изучении.
|
Ну, это кому как . Я по-англицки классно болтаю, а вот с немецким не заладилось, до сих пор так и не освоил. И, если честно, особой похожести между ними не вижу, даром что эти языки родственны друг другу
Румынский (молдавский) ещё прикольный - вроде как романский по происхождению, а много славянских корней. Причём они причёсаны под более латинскую грамматику. А молдавский до 1989 года вообще кириллицей писался, единственный из романских языков. |
|
|
|
|
|
Цитата: |
Я по-англицки классно болтаю, а вот с немецким не заладилось
|
Это кому что в базис заложили, кто-то вообще по френчу ботаает, а вот с инглишом и дойчем не лады, а молдаване - как бы нация цыган, чего только у них там не замешано |
|
|
|
|
|
TREVERS писал(а): |
а молдаване - как бы нация цыган
|
Nu e adevărat, tu exagerezi prea mult . Nu sînt o ţigancă |
|
|
|
|
|
Цитата: |
Nu sînt o ţigancă
|
Вестимо, Nea. Дин пэкате, ну сынт молдованин, дар те ынцелег |
|
|
|
|
|
Цитата: |
дар те ынцелег
|
Deragru, |
|
|
|
|
|
Автопереводной контент под поисковые системы нужно однозначно редактировать. Потому что сайты в индексе проверяют спецально натренированные обезьяны. Они помечают генерированный контент как спам... |
|
|
|
|
|
Цитата: |
Потому что сайты в индексе проверяют спецально натренированные обезьяны.
|
|
|
|
|
|
|
Цитата: |
Потому что сайты в индексе проверяют спецально натренированные обезьяны. Они помечают генерированный контент как спам...
|
Фигурально выражаясь, это так . А на самом деле это специальные алгоритмы, которые анализируют связность текста. Если текст бессвязный, то он и попадает в спам. |
|
|
|
|
|
Какой бы целоМудренной ни была девушка, она не будет так долго ждать виртуального общения.
Wir haben alles, was Sie brauchen
Was Sie nicht rauchen, verkaufen wir auch nicht.
ТС, переведи этой ТП автоматом денег на счёт. И тогда эта картинка будет работать лучше.
*ТП = переводчик технических текстов
Nea Cool'a писал(а): |
Цитата: |
Потому что сайты в индексе проверяют спецально натренированные обезьяны. Они помечают генерированный контент как спам...
|
Фигурально выражаясь, это так . А на самом деле это специальные алгоритмы, которые анализируют связность текста. Если текст бессвязный, то он и попадает в спам.
|
Каким алгоритмом необходимо перемешать слова из этого топика, чтобы "нигерийское" письмо никогда не попало в спам?
Это правда, что у нигерийских копирайтеров длиннее текст? |
|
|
|
|
|
|
|