Даже я примерно представляю логику:
1. Записываешь аудио-файл с озвучкой строки.
2. Заливаешь его на сервер и в сценарии отображения диалога триггеришь запуск этого файла.
3. С активацией каждой новой строки диалога триггеришь последующие файлы аудио, дополнительно к триггеру вывода диалога.
Поправьте меня, если я фигню написал, а то близко не кодер.