Европейские программисты предложили алгоритм, который позволяет распознавать аббревиатуры и их расшифровку в текстах на 22 языках. Краткое описание исследования приводится в блоге Technology Review.
Алгоритм показал эффективность около 90% при анализе массива из 400 статей на семи языках: английском, венгерском, испанском, немецком, румынском, французском и чешском.
Методика основана на том принципе, что в стандартных новостных или научных текстах аббревиатура обычно заключена в скобки и расположена сразу после расшифровки термина или названия. Например: Организация объединенных наций (ООН).
Потенциальной областью применения своей разработки ученые назвали программы для автоматического анализа новостных и научных статей на основе статистики использования тех или иных аббревиатур. Для этого они планируют создать каталог аббревиатур с расшифровками на разных языках.