Programming stuff: Идиома Process Tasks By Completion

воскресенье, 28 июня 2015 г.

Идиома Process Tasks By Completion

При работе с тасками часто возникает такая задача: у нас есть набор входных данных и для обработки каждого элемента используется длительная операция.

Можно подойти к этой задаче в лоб. Крутим цикл, запускаем таски, обрабатываем результаты по одному:

private Task<Weather> GetWeatherForAsync(string city)
{
    Console.WriteLine("[{1}]: Getting the weather for '{0}'", city,
        DateTime.Now.ToLongTimeString());
    return WeatherService.GetWeatherAsync(city);
}
 

[Test]
public async Task ProcessOneByOneNaive()
{
    var cities = new List<string> { "Moscow", "Seattle", "New York" };
 
    var tasks =
        from city in cities
        select new { City = city, WeatherTask = GetWeatherForAsync(city) };
 
    foreach (var entry in tasks)
    {
        var wheather = await entry.WeatherTask;
 
        ProcessWeather(entry.City, wheather);
    }
}
 
private void ProcessWeather(string city, Weather weather)
{
    Console.WriteLine("[{2}]: Processing weather for '{0}': '{1}'", city, weather,
        DateTime.Now.ToLongTimeString());
}

Здесь мы обращаемся к некоторому сервису погоды, для получения температуры в каждом городе, затем обрабатываем полученные результаты путем вывода города и температуры на экран.

Подход рабочий, но есть одна проблема: новая задача будет запущена лишь после завершения предыдущей. Тут можно принудительно дернуть все задачи и вызвать ToList() на LINQ-запросе, но и в этом случае задачи будут обрабатываться в порядке «городов», а не в порядке доступности результатов (предположим, что для получения погоды для первого города уйдет втрое больше времени, чем для других; в этом случае мы будем ждать результат по первому городу, хотя результаты по двум другим уже доступны).

Решение заключается в использовании идиомы Process Tasks by Completion (можете называть это паттерном, если хотите), которая заключается в следующем: задачи должны обрабатываться не в порядке их запуска, а в порядке их завершения.

Вот как это будет выглядеть:

[Test]
public async Task ManualProcessByCompletion()
{
    var cities = new List<string> { "Moscow", "Seattle", "New York" };
    var tasks = (from city in cities
               let result = new { City = city, WeatherTask = GetWeatherForAsync(city) }
               select TaskEx.FromTask(result, r => r.WeatherTask)).ToList();
 
    while (tasks.Count != 0)
    {
        var completedTask = await Task.WhenAny(tasks);
 
        tasks.Remove(completedTask);
 
        var result = completedTask.Result;
 
        ProcessWeather(result.City, result.WeatherTask.Result);
    }
}

ПРИМЕЧАНИЕ
В одном из курсов Pluralsight данная идиома называется Process tasks one by one, но, ИМХО, это еще менее понятное название, чем у меня. Так что если есть мысли, какое название будет лучше передавать ее суть – буду рад выслушать варианты!

Метод ManualProcessByCompletion, запускает получение погоды с помощью GetWeatherForAsync для всех городов, оборачивает объект анонимного типа в таску (позже объясню, почему это нужно). Затем, внутри цикла while мы зовем Task.WhenAny и получаем первую завершенную задачу. Получается, что задачи обрабатываются по мере завершения, а не по порядку их запуска. Но в данном случае, таска содержит ответ на вопрос (какая погода в городе?), но не содержит самого вопроса (имени города). Нам нужно как-то объединить результат и контекст исполнения. Для этого используется метод TaskEx.FromTask:

public static Task<T> FromTask<T, U>(T result, Func<T, Task<U>> taskSelector)
{
    Contract.Requires(taskSelector != null);
 
    var tcs = new TaskCompletionSource<T>();
    var task = taskSelector(result);
 
    task.ContinueWith(t =>
    {
        if (t.IsFaulted)
            tcs.SetException(t.Exception);
        else if (t.IsCanceled)
            tcs.SetCanceled();
        else
            tcs.SetResult(result);
    });
 
    return tcs.Task;
}

Метод TaskEx.FromResult, создает прокси-таску, которая завершится при завершении оригинальной задачи. А делегат taskSelector позволяет «извлечь» задачу из основного объекта, что позволяет удобно использовать этот подход совместно с анонимными типами.

Новый подход работает лучше оригинального, но выглядит более громоздким. Есть смысл сделать небольшую обертку, которая позволит использовать его повторно.

public static IEnumerable<Task<TElement>> OrderByCompletion<TElement, TTaskResult>(
    this IEnumerable<TElement> sequence, Func<TElement, Task<TTaskResult>> taskSelector)
{
    Contract.Requires(sequence != null);
    Contract.Requires(taskSelector != null);
 
    var tasks = (from element in sequence
                let pair = new {Element = element, Task = taskSelector(element)}
                select FromTask(pair, p => p.Task)).ToList();
                        
    while (tasks.Count != 0)
    {
        var tcs = new TaskCompletionSource<TElement>();
 
        // Getting the first finished task
        Task.WhenAny(tasks).ContinueWith(tsk =>
        {
            var finishedTask = tsk.Result;
            tasks.Remove(finishedTask);
 
            tcs.FromTask(finishedTask, arg => arg.Element);
        });
 
        yield return tcs.Task;
    }
}

Полный код класса доступен на гитхабе, но смысл его такой. Метод преобразует последовательность задач в другую последовательность задач, порядок которых определяется порядком завершения задач, а не порядком в исходной последовательности.

И вот как выглядит пример использования:

[Test]
public async Task ProcessByCompletion()
{
    var cities = new List<string> { "Moscow", "Seattle", "New York" };
            
    var tasks =
        from city in cities
        select new {City = city, WeatherTask = GetWeatherForAsync(city)};
 
    foreach (var task in tasks.OrderByCompletion(t => t.WeatherTask))
    {
        var taskResult = await task;
 
        // taskResult is an object of anonymous type with City and WeatherTask
        ProcessWeather(taskResult.City, taskResult.WeatherTask.Result);
    }
}

Мы снова вернулись к исходному варианту с точки зрения синтаксиса, но оставили новое поведение. Вот результат исполнения, который показывает, что все задачи запускаются одновременно, а обработка происходит по мере поступления результатов:

[12:54:35 PM]: Getting the weather for 'Moscow'
[12:54:35 PM]: Getting the weather for 'Seattle'
[12:54:35 PM]: Getting the weather for 'New York'
[12:54:36 PM]: Processing weather for 'Seattle': 'Temp: 7C'
Got the weather for 'Moscow'
[12:54:39 PM]: Processing weather for 'Moscow': 'Temp: 6C'
Got the weather for 'New York'
[12:54:40 PM]: Processing weather for 'New York': 'Temp: 8C'

UPDATE:

Отказ от Query Comprehension Syntax-а позволит упростить последний пример еще немного:

[Test]
public async Task ProcessByCompletion()
{
    var cities = new List<string> { "Moscow", "Seattle", "New York" };
 
    var tasks = cities.Select(async city =>
    {
        return new {City = city, Weather = await GetWeatherForAsync(city)};
    });
 
    foreach (var task in tasks.OrderByCompletion())
    {
        var taskResult = await task;
 
        // taskResult is an object of anonymous type with City and WeatherTask
        ProcessWeather(taskResult.City, taskResult.Weather);
    }
}

И вариант, предложенный @hazzik на основе Rx-ов:

[Test]
public void ProcessOneUsingRx()
{
    var cities = new[] { "Moscow", "Seattle", "New York" };
    var objs = cities.Select(async city => new
    {
        City = city,
        Weather = await GetWeatherForAsync(city)
    }).Select(task => task.ToObservable()).Merge().ToEnumerable();
 
    foreach (var obj in objs)
    {
        ProcessWeather(obj.City, obj.Weather);
    }
}

Он работает следующим образом: вначале мы берем последовательность задач, конвертим ее в последовательность IEnumerable<IObservable<T>>, которая, затем мерджится в одну последовательность IObservable<T>.

Особенность этого подхода в том, что в данном случае вызов MoveNext в цикле foreach является блокирующим.

З.Ы. Код залит в новый репо на гитхабе - https://github.com/SergeyTeplyakov/TplTipsAndTricks

26 комментариев:

hazzik29 июня 2015 г. в 04:32
А где вариант "решить задачу так, как это делают все нормальные люди"?

*(использовать IObservable/IObserver)
ОтветитьУдалить
Ответы
hazzik29 июня 2015 г. в 07:49
>Если же Rx-овые потроха спрятать за фасадным методом.

Там можно написать просто .ToObservable().Merge() (Как говорил последний ToEnumerable() не нужен на самом деле)

>большинству программистов ... будет читабельнее.

Если мы будем следовать такой логике, то мы так и останемся в .NET 2. Люди должны учить и применять новые вещи.

>Я не уверен, про какой пост идет речь, но я при подготовке своего поста на пост Тауба так и не наткнулся.

Он вторым (первым ссылка на его выдержку в MSDN https://msdn.microsoft.com/en-us/library/jj155756.aspx) идет по запросу "Process Tasks By Completion .NET" (.NET нужен, потому что иначе всякая фигня связанная с GTD вылазит в результатах). Так что странно.

>К тому же, в нашей же индустрии очень мало чего-то действительно нового, если следовать такому принципу, то блоги, книги и большинство софта вообще писать не имеет смысла;)

На самом деле появляется очень много всего нового. Но, я считаю именно так, что нет смысла писать, если нечего добавить.
ОтветитьУдалить
Ответы
Unknown29 июня 2015 г. в 09:43
А не нужно заменять ToList() на ToDictionary(task => task.Id), что бы удаление из списка не превращалось бы в полный перебор?
ОтветитьУдалить
Ответы
eugene29 июня 2015 г. в 10:00
Метод TaskEx.FromResult -> TaskEx.FromTask. Сереж, хотел спросить зачем ты task->tsk сокращаешь, чего выигрываешь? :). Ну и по чесноку, решение с Rx гораздо декларативнее, не говоря уже о компактности. И не знаю, стоит или нет, но посмотри на коммент в последнем примере. Приходится упоминать, что есть taskResult. C точки зрения использования(практического) ProcessByCompletion очень ок, но только если не вдаваться как внутри все устроено.
ОтветитьУдалить
Ответы
Unknown29 июня 2015 г. в 18:41
Хорошая штука, в хозяйстве пригодится. Описывай таких паттернов/трюков ещё, если наткнёшься, даже если они могут быть давно известны, хотя бы потому что твоё описание может понятнее получиться.
ОтветитьУдалить
Ответы
Unknown20 июля 2015 г. в 09:20
Сергей, почему бы коду, решающему исходную "задачу" не выглядеть вот так:

var weathers = cities.SelectParallelly(GetWeather);

foreach (var w in waethers.WithForcedParllelismOf(ConnectionCount))
{
Console.WriteLine(w);
}

Наивная реализация могла бы фетчить элементы из энумератора, в нескольких потоках делать долгое действие и складывать результаты в BlockingCollection, откуда бы они вытягивались "опустошающим" энумератором.

По-моему код в 500 раз более сконценрирован на прикладной задаче.

Я нуб, будьте снисходительны.
ОтветитьУдалить
Ответы
Мурадов Мурад30 августа 2015 г. в 11:21
>> Отказ от Query Comprehension Syntax-а позволит упростить последний пример еще немного:
Как я понимаю, тут не немного:
1. OrderByCompletion будет расширять IEnumerable> а не IEnumerable. И это семантически верно.
2. Из OrderByCompletion выкинут параметр taskSelector
3. FromTask выкинут
ОтветитьУдалить
Ответы
Александр27 сентября 2015 г. в 22:49
Сергей, спасибо, статья безусловно полезная. Но раз уж зашла речь о том, был ли подход ранее описан, то, наверное, да. Например, в этой книге http://www.apress.com/9781430259206 на странице 156. Заголовок - Improved when any. Подход 1 в 1 как у Тауба и не страдает проблемой O(n^2) продолжений.
ОтветитьУдалить
Ответы