2012年4月30日月曜日

Web APIでのSession利用

いやもうまじで。そんなことしなくていいと思うんですけど。ステートレスでやればいいと思うんですけど。

c# - LinqToEntitiesDataController MVC 4 Single Page Application - Session variable - Stack Overflow

普通にやるとApiControllerってHttpContext.Curret.Sessionはnullですね。なぜかというと、Web API利用時にRouteに登録するHttpControllerRouteHandlerのGetHttpHandlerでは、IRequiresSessionStateインターフェース指定のないHttpControllerHandlerが使われているからです。

デスデス。それでいいと思います。

でも、どーしても使いたい、っていうなら、そーですね。IRequiresSessionStateを付けたものを用意しましょう。

public class SessionHttpControllerRouteHandler : HttpControllerRouteHandler
{
    protected override IHttpHandler GetHttpHandler(System.Web.Routing.RequestContext requestContext)
    {
        return new SessionHttpControllerHandler(requestContext.RouteData);
    }
}

public class SessionHttpControllerHandler : HttpControllerHandler, IRequiresSessionState
{
    public SessionHttpControllerHandler(RouteData routeData) : base(routeData) { }
}

このHttpControllerRouteHandlerをRouteTable登録に利用する。

routes.Add("SessionApis",
	new HttpWebRoute(
		url: "api/{controller}/{id}",
		defaults: new RouteValueDictionary(new {id = RouteParameter.Optional}),
		routeHandler: new SessionHttpControllerRouteHandler()
));

これだけ。

Web APIのデフォルトプロジェクトテンプレートで作成したHomeControllerのIndexでSessionに値を入れて、ValuesControllerのGetで参照してみる。

public class HomeController : Controller
{
	public ActionResult Index()
	{
		Session["message"] = "from Controller";
		return View();
	}
public class ValuesController : ApiController
{
	// GET /api/values
	public IEnumerable<string> Get()
	{

		var message = HttpContext.Current.Session["message"] + "";
		return new string[] { "value1", "value2", message };
	}

実行して、/api/valuesにアクセスしてみる。

sessionapi

ねー。

ちなみにLinqToEntitiesDataControllerはAreaRegistrationだから、そっちでRouteTableに登録しましょう。

っていうか、是非使わないような設計で。

CompiledQueryの積極利用

とうとうゴルフ、始めました。まだ練習場でパカパカうつだけだけど。ホッケーとボルダリングとゴルフと筋トレ。多趣味になってきたね!

LINQ to SQL/LINQ to Entityを利用してると、CompiledQueryを使いたいけど、なんか面倒くさいよ、ってことありますよね。ないですか。いまさらか!的な内容ですけど。

CompiledQueryってなに~?という話もあるかもしれないけど、どういうメリットがあるのかというと以下のサイトに書いてるとおり。

LINQ To SQL Very Slow Performance Without Compile (CompileQuery) « Er. alokpandey's Blog

早いんです。なぜ早くなるのかというと、LINQ to SQL/LINQ to Entityの実行時っていろいろLINQ解析して、SQL組み立てるまでの事前準備(IQueryProvider.CreateQuery)と、SQLを実行してマッピングする実行処理(IQueryProvider.Execute)に分けて考えて、この事前処理の部分を使いまわすからですよね。QueryProvider大変だねー。

IQueryProvider インターフェイス (System.Linq)
チュートリアル : IQueryable LINQ プロバイダーの作成

.NET 3.5までだとLINQ to Entityって使えにくかった(シーケンスとの組み合わせとか)し、激烈に遅かったけど、.NET 4からはその辺ずいぶん改善されてて、さらに次のEF5に至っては、パフォーマンスもかなり向上するようで、楽しみでしょうがないっす。

Sneak Preview: Entity Framework 5.0 Performance Improvements - ADO.NET team blog - Site Home - MSDN Blogs

で、CompiledQueryを使うときの面倒くささって、あれですよ、事前にイロイロ用意してFuncデリゲートに登録しておかないといけないところですよね。

LINQ to SQL : Understanding Compiled Query - Wriju's BLOG - Site Home - MSDN Blogs

最初はAd Hocに書いて、パフォーマンス的に問題になるところを、ちょこちょこCompiledQueryにしていく、っていうのが王道なんでしょーか。面倒ですね。面倒です。だからQuery実行を勝手にキャッシュしてくれるようになるEF5のアプローチは大変興味深く、すぐにでも適用してしまいたいと思わずにはいられない。

DAL書き換えるのも面倒だしー。Repository書き換えるのも大変だしー。楽ちんにするなら、Ad Hocなクエリの部分だけ以下のように書くと、CompiledQueryにもしてくれてキャッシュもすると今までのコードもそのまま流用しやすくていいなー。

このアプローチを紹介してくれてるのが以下のエントリ。

Linq to Sql CompiledQuery container - Mitsu's blog - Site Home - MSDN Blogs

素敵ですね!

面倒なこと考えずに使えますね!でも、ちょっと待って。ちょっとだけ残念なのがSequence。CompiledQuery対象のLINQクエリの中で、パラメータで渡したIEnumerable的(Sequence parameter)な変数参照を行ってる場合、CompiledQueryは正しく機能しない。既知です既知!

linq to sql - Compiled queries and "Parameters cannot be sequences" - Stack Overflow

パッと見わかりにくいですね。どういう意味か。なので、先のエントリで提示されてるMyQueriesを使ったサンプルを使って確認。

class TestCQ
{
  public void Test1()
  {
    var context = new AdventureWorksDataContext();
    var cq = MyQueries.Get("Test1", 
      (AdventureWorksDataContext db) =>
      from m in db.Product where new[] { "Red" }.Contains(m.Color) select m);
    try
    {
      Console.WriteLine("Test1:" + cq(context).Count());
    }
    catch (Exception ex)
    {
      Console.WriteLine(ex);
    }
  }

  public void Test2()
  {
    var context = new AdventureWorksDataContext();
    var localArray = new[] { "Red" };
    var cq = MyQueries.Get("Test2", 
      (AdventureWorksDataContext db) =>
      from m in db.Product where localArray.Contains(m.Color) select m);
    try
    {
      Console.WriteLine("Test2:" + cq(context).Count());
    }
    catch (Exception ex)
    {
      Console.WriteLine(ex);
    }
  }

  public void Test3(string[] array)
  {
    var context = new AdventureWorksDataContext();
    var cq = MyQueries.Get("Test3", 
      (AdventureWorksDataContext db) =>
      from m in db.Product where array.Contains(m.Color) select m);
    try
    {
      Console.WriteLine("Test3:" + cq(context).Count());
    }
    catch (Exception ex)
    {
      Console.WriteLine(ex);
    }
  }

  public void Test4(string[] array)
  {
    var context = new AdventureWorksDataContext();
    var cq = MyQueries.Get("Test4", 
      (AdventureWorksDataContext db, string[] option) =>
      from m in db.Product where option.Contains(m.Color) select m);
    try
    {
      Console.WriteLine("Test4:" + cq(context,array).Count());
    }
    catch (Exception ex)
    {
      Console.WriteLine(ex);
    }
  }
}

 

var cq = new TestCQ();

cq.Test1();
cq.Test2();
cq.Test3(new[] { "Black", "White" });
cq.Test3(new[] { "Blue" });
cq.Test4(new[] { "Black", "White" });
cq.Test4(new[] { "Blue" });

Test1はクエリの中で配列を作成。Test2はメソッドの中で宣言した配列をキャプチャ。Test3はメソッド引数で渡した配列をキャプチャ。最後のTest4はメソッド引数で渡した配列をCompiledQueryのパラメータとして利用(キャプチャしない)。

cq1

Test3実行が同一値。Test4実行時に「パラメーターをシーケンスにすることはできません。」。

ParameterExpressionだとダメなんだって。

.NET4でビルドするとExpressionをDebugViewで簡単に見れるから見てみよう!

  • Test1
    .Lambda #Lambda1<System.Func`2[FastLinq.Data.LS.AdventureWorksDataContext,System.Linq.IQueryable`1[FastLinq.Data.LS.Product]]>(FastLinq.Data.LS.AdventureWorksDataContext $db)
    {
        .Call System.Linq.Queryable.Where(
            $db.Product,
            '(.Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>))
    }

    .Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>(FastLinq.Data.LS.Product $m) {
        .Call System.Linq.Enumerable.Contains(
           .NewArray System.String[] {
                "Red"
            }
    ,
            $m.Color)
    }

  • Test2
    .Lambda #Lambda1<System.Func`2[FastLinq.Data.LS.AdventureWorksDataContext,System.Linq.IQueryable`1[FastLinq.Data.LS.Product]]>(FastLinq.Data.LS.AdventureWorksDataContext $db)
    {
        .Call System.Linq.Queryable.Where(
            $db.Product,
            '(.Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>))
    }

    .Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>(FastLinq.Data.LS.Product $m) {
        .Call System.Linq.Enumerable.Contains(
           .Constant<FastLinq.Program+TestCQ+<>c__DisplayClass42>(FastLinq.Program+TestCQ+<>c__DisplayClass42).localArray,
            $m.Color)
    }

  • Test3
    .Lambda #Lambda1<System.Func`2[FastLinq.Data.LS.AdventureWorksDataContext,System.Linq.IQueryable`1[FastLinq.Data.LS.Product]]>(FastLinq.Data.LS.AdventureWorksDataContext $db)
    {
        .Call System.Linq.Queryable.Where(
            $db.Product,
            '(.Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>))
    }

    .Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>(FastLinq.Data.LS.Product $m) {
        .Call System.Linq.Enumerable.Contains(
            .Constant<FastLinq.Program+TestCQ+<>c__DisplayClass44>(FastLinq.Program+TestCQ+<>c__DisplayClass44).array,
            $m.Color)
    }

  • Test4
    .Lambda #Lambda1<System.Func`3[FastLinq.Data.LS.AdventureWorksDataContext,System.String[],System.Linq.IQueryable`1[FastLinq.Data.LS.Product]]>(
        FastLinq.Data.LS.AdventureWorksDataContext $db,
        System.String[] $option) {
        .Call System.Linq.Queryable.Where(
            $db.Product,
            '(.Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>))
    }

    .Lambda #Lambda2<System.Func`2[FastLinq.Data.LS.Product,System.Boolean]>(FastLinq.Data.LS.Product $m) {
        .Call System.Linq.Enumerable.Contains(
            $option,
            $m.Color)
    }

太字のとこが違うとこ。Test4はParameterExpression。

ちなみに、Test4の使い方をしないなら、以降の話はすっ飛ばしてもらっても大丈夫。MyQueriesを使うだけでパフォーマンスは劇的に向上します。LINQ to SQLに関して言えば.NET3.5で約3倍、.NET4で約2倍。LINQ to Entityだとあんまり効果なし。効果ってどこの効果かというと、CompiledQueryをキャッシュしたときの効果ね。

訳あって、Test4のパターンを利用する必要があるので、しょうがなくExpressionVisitorを使うことにしました。とはいっても、ParameterExpressionをConstantExpressionに置き換えることでTest4もうまく動くはず。実行時のパラメータの値でExpressionキャッシュしたい(じゃないと、SQLに変換したときのParameterの数が違うことになる)のと、CompiledQueryの作成とQueryの実行が離れた場所にあるっていう都合もあって、ちょっとわかりにくいコードになったんだけど、以下のような感じです。T4です。

<#@ template debug="false" hostspecific="false" language="C#" #>
<#@ output extension=".cs" #>
<#@ Assembly Name="System.Core.dll" #>
<#@ import namespace="System" #>
<#@ import namespace="System.IO" #>
<#@ import namespace="System.Text" #>
<#@ import namespace="System.Diagnostics" #>
<#@ import namespace="System.Linq" #>
<#@ import namespace="System.Collections" #>
<#@ import namespace="System.Collections.Generic" #> 
using System;
using System.Collections;
using System.Collections.Generic;
using System.Diagnostics;
using System.Linq;
using System.Linq.Expressions;
using System.Threading;

namespace FastLinq
{
	public static class To
    {
	<# for (var i=0;i<4;i++ ) {#>
		<#var generics = i==0 ? "" : string.Join(",", Enumerable.Range(1,i).Select(n=>"T"+n)) + ",";#>
		
        public static Expression<Func<<#=generics#>TR>> Expression<<#=generics#>TR>(Expression<Func<<#=generics#>TR>> expression)
        {
            return expression;
        }
	<# } #>
    }

    public abstract class QueryBase<TDB>
    {
        private static Dictionary<string, object> _cachedQuery = new Dictionary<string, object>();
        private static ReaderWriterLockSlim _locked = new ReaderWriterLockSlim();

	<# for (var i=0;i<4;i++ ) {#>
		<#var generics = i==0 ? "" : string.Join(",", Enumerable.Range(1,i).Select(n=>"T"+n).ToArray()) + ",";#>
		
        public abstract Func<TDB, <#=generics#>TR> Compiled<<#=generics#>TR>(Expression<Func<TDB, <#=generics#>TR>> query);
	<# } #>

		public static void Clear()
		{
			_cachedQuery.Clear();
		}

        private int GetOptionHash<T>(T option)
        {
            var values = option as IEnumerable;
            if (values != null)
            {
                return string.Join("\r\n", values.OfType<object>().Select(v => v.ToString()).ToArray()).GetHashCode();
            }
            return option.GetHashCode();
        }

		private object GetCache(string key, Func<object> compiledQueryFunctor)
		{
            _locked.EnterUpgradeableReadLock();
            try
            {
                object cachedQuery;
                if (_cachedQuery.TryGetValue(key, out cachedQuery))
                    return cachedQuery;

                var compiedQuery = compiledQueryFunctor();
                try
                {
                    _locked.EnterWriteLock();
                    if (!_cachedQuery.ContainsKey(key))
                    {
                        _cachedQuery[key] = compiedQuery;
                    }
                }
                finally
                {
                    _locked.ExitWriteLock();
                }
                return compiedQuery;
            }
            finally
            {
                _locked.ExitUpgradeableReadLock();
            }
        }

	<# for (var i=0;i<4;i++ ) {#>
		<#var generics = i==0 ? "" : string.Join(",", Enumerable.Range(1,i).Select(n=>"T"+n)) + ",";#>
		<#var options = i==0 ? "" : "," + string.Join(",", Enumerable.Range(1,i).Select(n=>"option"+n));#>
		<#var formats = i==0 ? "" : ":" + string.Join(":", Enumerable.Range(1,i).Select(n=>"{" + n + "}"));#>
		<#var hashs = i==0 ? "" : "," + string.Join(",", Enumerable.Range(1,i).Select(n=>"GetOptionHash(option" + n + ")"));#>

		public Func<TDB, <#=generics#>TR> Fast<<#=generics#>TR>(Expression<Func<TDB, <#=generics#>TR>> query) where TR : class
        {
            Func<TDB, <#=generics#>TR> wrapper = (context<#=options#>) =>
            {
			<# if (i==0) { #>

				var key = string.Format("{0}", query.ToString().GetHashCode());
			<# } else { #>
				
				var replaces = new Dictionary<string, Expression>{
					<# for(var j=1; j<=i; j ++) {#>{query.Parameters[<#=j#>].Name, Expression.Constant(option<#=j#>)},
					<# } #>
				};
			
                query = new ParameterToConstantVisitor().Replace(query, replaces) as Expression<Func<TDB, <#=generics#>TR>>;
				var key = string.Format("{0}<#=formats#>", query.ToString().GetHashCode()<#=hashs#>);
			<# } #>

				var compiledQuery = GetCache(key, ()=>Compiled(query));
                return (compiledQuery as Func<TDB, <#=generics#>TR>)(context<#=options#>);
            };

            return wrapper;
        }
	<#}#>
    }
}

さらに以下のクラスを用意。

LINQ to SQL

<#@ template debug="false" hostspecific="false" language="C#" #>
<#@ output extension=".cs" #>
<#@ Assembly Name="System.Core.dll" #>
<#@ import namespace="System" #>
<#@ import namespace="System.IO" #>
<#@ import namespace="System.Text" #>
<#@ import namespace="System.Diagnostics" #>
<#@ import namespace="System.Linq" #>
<#@ import namespace="System.Collections" #>
<#@ import namespace="System.Collections.Generic" #> 
using System;
using System.Linq.Expressions;

namespace FastLinq.LinqToSql
{
    public class Query<TDB> : QueryBase<TDB>
        where TDB : System.Data.Linq.DataContext
    {
	<# for (var i=0;i<4;i++ ) {#>
		<#var generics = i==0 ? "" : string.Join(",", Enumerable.Range(1,i).Select(n=>"T"+n)) + ",";#>

		public override Func<TDB, <#=generics#>TR> Compiled<<#=generics#>TR>(Expression<Func<TDB, <#=generics#>TR>> query)
        {
            return System.Data.Linq.CompiledQuery.Compile(query);
        }
	<#}#>
	
    }
}

LINQ to Entity

<#@ template debug="false" hostspecific="false" language="C#" #>
<#@ output extension=".cs" #>
<#@ Assembly Name="System.Core.dll" #>
<#@ import namespace="System" #>
<#@ import namespace="System.IO" #>
<#@ import namespace="System.Text" #>
<#@ import namespace="System.Diagnostics" #>
<#@ import namespace="System.Linq" #>
<#@ import namespace="System.Collections" #>
<#@ import namespace="System.Collections.Generic" #> 
using System;
using System.Linq.Expressions;

namespace FastLinq.LinqToEntity
{


    public class Query<TDB> : QueryBase<TDB>
        where TDB : System.Data.Objects.ObjectContext
    {
	<# for (var i=0;i<4;i++ ) {#>
		<#var generics = i==0 ? "" : string.Join(",", Enumerable.Range(1,i).Select(n=>"T"+n)) + ",";#>

		public override Func<TDB, <#=generics#>TR> Compiled<<#=generics#>TR>(Expression<Func<TDB, <#=generics#>TR>> query)
        {
            return System.Data.Objects.CompiledQuery.Compile(query);
        }
	<#}#>
	
    }
}

以下のようなテストで計測。

 

var options = new {Colors = new List<string> {"Red"}, City = "Bothell", CompanyName = "Bike"};

var query = new LinqToSql.Query<AdventureWorksDataContext>();
var exp1a = To.Expression((AdventureWorksDataContext db, int option) => 
  from m in db.Product where options.Colors.Contains(m.Color) select m);
var exp1b = To.Expression((AdventureWorksDataContext db, List<string> option) => 
  from m in db.Product where option.Contains(m.Color) select m);
var exp2 = To.Expression((AdventureWorksDataContext db, string option) => 
  from m in db.Address where m.City == option select m);
var exp3 = To.Expression((AdventureWorksDataContext db, string option) => 
  from m in db.Customer where m.CompanyName.StartsWith(option) select m);

using (var connection = new System.Data.SqlClient.SqlConnection(
 ConfigurationManager.ConnectionStrings["AdventureWorks"].ConnectionString))
using (var context = new AdventureWorksDataContext(connection))
{
  context.ObjectTrackingEnabled = false;
  context.DeferredLoadingEnabled = false;
  Test("Ad hoc", () =>
  {
    (from m in context.Product 
     where options.Colors.Contains(m.Color) 
     select m).FirstOrDefault();
    (from m in context.Product 
     where new List<string> { "Red" }.Contains(m.Color) 
     select m).FirstOrDefault();
    (from m in context.Address 
     where m.City == options.City 
     select m).FirstOrDefault();
    (from m in context.Customer 
     where m.CompanyName.StartsWith(options.CompanyName) 
     select m).FirstOrDefault();
  });

  Test("Expression", () =>
  {
    exp1a.Compile()(context, 0).FirstOrDefault();
    exp1b.Compile()(context, new List<string> { "Red" }).FirstOrDefault();
    exp2.Compile()(context, options.City).FirstOrDefault();
    exp3.Compile()(context, options.CompanyName).FirstOrDefault();
  });

  Test("Fast 1", () =>
  {
    query.Fast(exp1a)(context, 1).FirstOrDefault();
    query.Fast(exp1b)(context, new List<string> { "Red" }).FirstOrDefault();
    query.Fast(exp2)(context, options.City).FirstOrDefault();
    query.Fast(exp3)(context, options.CompanyName).FirstOrDefault();
  });

  Test("Fast 2", () =>
  {
    query.Fast(
      (AdventureWorksDataContext db, int option) => 
        from m in db.Product where options.Colors.Contains(m.Color) select m
    )(context, 2).FirstOrDefault();
    query.Fast(
      (AdventureWorksDataContext db, List<string> option) => 
        from m in db.Product where option.Contains(m.Color) select m
    )(context, new List<string> { "Red" }).FirstOrDefault();
    query.Fast(
      (AdventureWorksDataContext db, string option) => 
        from m in db.Address where m.City == option select m
    )(context, "Bothell").FirstOrDefault();
    query.Fast(
      (AdventureWorksDataContext db, string option) => 
        from m in db.Customer where m.CompanyName.StartsWith(option) select m
    )(context, "Bike").FirstOrDefault();
  });

結果。

cq3

ちょっとわかりにくいけど。full4って書いたのが、DataContextともに.NET4。4+3.5がテストコードが.NET4でDBが.NET3.5。full3.5がいずれも.NET3.5。青が100回で赤が1000回実行したときの時間。

なので、Ad Hocと比較するとCompiledQueryキャッシュ実装だと.NET4の場合で概ね2倍。.NET3.5で概ね2.5倍。さすがCompiledQueryですね!パラメータのバリエーションがそれほど多くなかったり、参照が圧倒的に多いアプリケーション(WebでCMS的なものだったり、WebMatrix使ったWebPagesの実装だったりだと使いやすいかも)の場合、顕著にレスポンスが早くなります。

LINQ To SQL Very Slow Performance Without Compile (CompileQuery) « Er. alokpandey's Blog

Compiled Queries in Entity Framework : Don't Be Iffy

.NET 3.5の場合はExpressionVisitorを以下からコピペしておきましょう。Expressionとかマジ勘弁。

方法 : 式ツリー ビジタを実装する

是非どーぞー。ソースは以下から。

takepara/FastLinq · GitHub

ちなみにこれに加え、さらにDataキャッシュも加えると、ローカルDBに対してだとさらに20%くらい早くなって、ネットワーク越しだと2~3倍

目指せ、スケーラブルWebサイト!

2012年4月15日日曜日

ApiControllerのActionSelector規約

最近全然遊んでないなー、と思って。MVC4。

せっかくソースもダウンロードできるんだし、まずはApiControllerのアクションルーティング(どうやってActionを特定してるのか)を、ソースを見つつ確認してみようかと思い立ちました。深夜に突然。

とは言いつつも、すでにドキュメントがあったりするので、わざわざソース見なくてもいいじゃないかという、突っ込みは極力お控え願いたいところです。

Routing in ASP.NET Web API : Official Microsoft Site

ソースを見て確認するといっても、とっかかりがないとどこから見ていいのかわからないですよね。でも、MVCは昔からActionの特定に使うクラスがあります。ActionSelector。たぶんWeb Apiだとしても同じ名前で実装してると思うので、まずはActionSelectorで検索。

actionselector1

いっぱい出てきた...。でも、System.Web.Http配下にあるはず。なんでって、System.Web.MvcだとMVCのActionSelectorになっちゃって、ApiContoller用じゃないっていうのと、今回aspnetwebstackとして取り込んだ名前空間がSystem.Web.HttpとSystem.Net.Httpらへんだから。

案の定System.Web.Http配下にApiControllerActionSelectorっていうクラスがいます。たぶんこれを使ってActionの特定をしてるんでしょーね。この辺からチェック。

IHttpActionSelectorインターフェースを実装してるクラスになるから、インターフェース定義を見てみる。

   public interface IHttpActionSelector
    {
        /// <summary>
        /// Selects the action.
        /// </summary>
        /// <param name="controllerContext">The controller context.</param>
        /// <returns>The selected action.</returns>
        HttpActionDescriptor SelectAction(HttpControllerContext controllerContext);

        /// <summary>
        /// Returns a map, keyed by action string, of all <see cref="HttpActionDescriptor"/> that the selector can select. 
        /// This is primarily called by <see cref="System.Web.Http.Description.IApiExplorer"/> to discover all the possible actions in the controller.
        /// </summary>
        /// <param name="controllerDescriptor">The controller descriptor.</param>
        /// <returns>A map of <see cref="HttpActionDescriptor"/> that the selector can select, or null if the selector does not have a well-defined mapping of <see cref="HttpActionDescriptor"/>.</returns>
        ILookup<string, HttpActionDescriptor> GetActionMapping(HttpControllerDescriptor controllerDescriptor);
    }
}

これだけか。SelectActionが探す実体っぽいっすね。とりあえずクラスの実装を見る。

        public virtual HttpActionDescriptor SelectAction(HttpControllerContext controllerContext)
        {
            if (controllerContext == null)
            {
                throw Error.ArgumentNull("controllerContext");
            }

            ActionSelectorCacheItem internalSelector = GetInternalSelector(controllerContext.ControllerDescriptor);
            return internalSelector.SelectAction(controllerContext);
        }

またか。ActionSelectorCacheItemっていうクラスが探索実装してるっぽい。リフレクションとか使って探索するはずだから、キャッシュを利用するためにさらにクラスを挟んでるのも、これまでMVC実装と大差ない。

GetInternalSelectorを見てみると、概ねキャッシュ制御。なので、ActionSelectorCacheItemを見る。これ、private内部クラス。他で使うこともないし、外に漏らす必要もないからってことでしょう。

ControllerDescriptorを引数に持つコンストラクタで、Controllerの型からメソッド抽出(有効メソッドチェック判定あり=IsSpecialNameじゃないこととApiControllerの型チェック)。

ここで、ActionDescriptorのWeb API版、ReflectedHttpActionDescriptorを生成。以降これを利用。

ここまではどーでもいいね。準備してるだけじゃん!ここからActionSelectorCacheItem.SelectAction。やっと本質。

まずはRouteDataに”action”が入ってるか判定して値をとっておく。通常ApiControllerの場合、Action名をRouteに登録しないんだけど、登録しても正しくルーティングできるように。直後のコードでRouteDataの”action”が指定されてる場合は、準備しておいたApiControllerのMethodInfoから作り出したアクション一覧の中から、同名のMethod(Actionね)を実行対象として抽出。つまり、Action名はGet/Post/Put/Deleteじゃなきゃいけないというルールじゃないぜっ、てことですね。

// This filters out any incompatible verbs from the incoming action list
actionsFoundByHttpMethods = actionsFoundByName.Where(actionDescriptor => actionDescriptor.SupportedHttpMethods.Contains(incomingMethod)).ToArray();

と、あるとおり、リクエスト時のHttp Methodが抽出条件となります。なので、AcceptVerbsAttributeかHttpGetAttributeなどをActionに指定しておくと、RouteDataに”action”を指定したルーティングの場合、Action探索に引っかかって実行されるってことですね。きっと。

RouteDataの”action”を指定しないルーティングの場合はこっち。

// No {action} parameter, infer it from the verb.
actionsFoundByHttpMethods = FindActionsForVerb(incomingMethod);

今度はFindActionsForVerb。最終的にHttpActionDescriptorで定義されてる、SupportedHttpMethodsをチェックして、リクエスト Http Methodの紐付。

ちょっと横道にそれるけどSupportedHttpMethodsの判定部分も気になるからチェック。今度はReflectedHttpActionDescriptorクラスのGetSupportedHttpMethods。

IActionHttpMethodProviderから取得する属性ベースのHttp Method指定か、アクション名からの規約ベースのHttp Method判定。なるほど。今度はIActionHttpMethodProviderか。深い。と思ったけど、IActionHttpMethodProviderを検索すると出てくるのは↓この子達。

  • AcceptVerbsAttribute
  • HttpDeleteAttribute
  • HttpGetAttribute
  • HttpHeadAttribute
  • HttpOptionsAttribute
  • HttpPatchAttribute
  • HttpPostAttribute
  • HttpPutAttribute

見慣れた属性。Providerといいつつ、Attributeそのもの。それらの属性がついてたら、そこからサポートするHttp Methodだと判定ってことですね。一応HttpMethodsっていうゲッターがあるけど。

大体わかってきましたね。ここでApiControllerActionSelectorのSelectActionに戻る。ここまでのコードで対象となりそうなActionが特定できたので、もう大丈夫な感じがするけど、実はここまでの流れで抽出したHttpActionDescriptorは配列だったりする。まだ、1つに特定してない。なんでかというと、定義としては間違いなんだけど、たとえばHTTP Getに対応するアクションを複数かけちゃうじゃないですか。そんな時にはちゃんとAmbiguousMatchっていうエラーにしたいからですね。MVCもそうでした。

はい!仕組みが分かったところで、サンプル書いて思った通りの動きになるか確認してみましょう!

Web APIテンプレートで作ると作成されるルーティング定義とValuesControllerは以下のようになってますね。

routes.MapHttpRoute(
	name: "DefaultApi",
	routeTemplate: "api/{controller}/{id}",
	defaults: new { id = RouteParameter.Optional }
);
// GET /api/values
public IEnumerable<string> Get()
{
	return new string[] { "value1", "value2" };
}

// GET /api/values/5
public string Get(int id)
{
	return "value";
}

わかりやすくGetだけ取り上げます。

これ、ブラウザでそのままアクセスすると、それぞれ以下のように出てきますね。

/api/values

actionselector2

/api/values/1

actionselector3

うん。普通。

ルールその1:Action名がHttp Methodにそのまま対応する

です。

次。アクションメソッド名をいずれもFindに変更してみます。でも、ルーティングにはまだ"action"を登録しないので、AcceptVerbsかHttpGetかいずれかの属性していが必要になるよね。

// GET /api/values
[HttpGet]
public IEnumerable<string> Find()
{
	return new string[] { "value1", "value2" };
}

// GET /api/values/5
[AcceptVerbs("GET")]
public string Find(int id)
{
	return "value";
}

これで先ほどと同じURLでアクセスする。と、面倒なのでスクリーンショットは乗せないけど、同じ結果です。

ルールその2:Action名が何であれIActionHttpMethodProviderの実装属性を指定していたら、属性指定をHttp Methodに対応する

です。

続いて、FindとGetそれぞれがApiControllerに定義されていた場合どうなるのか見てみる。

// GET /api/values
public IEnumerable<string> Get()
{
	return new string[] { "value1", "value2" };
}

// GET /api/values/5
public string Get(int id)
{
	return "value";
}

// GET /api/values
[HttpGet]
public IEnumerable<string> Find()
{
	return new string[] { "value1", "value2" };
}

// GET /api/values/5
[AcceptVerbs("GET")]
public string Find(int id)
{
	return "value";
}

actionselector4

エラーです。これがAmbiguousMatchです。

ルールその3:同一Http Methodを解釈するアクションが複数存在する場合はエラーになる

です。ただこれには例外があって、ルーティング登録で”action”指定したものがあって、アクション名を規約や属性だけで判定する場合じゃない場合にはエラーになりません。分かりにくいので実装。

アクション名を含んだルーティングを解釈できるようにRouteTableに登録。Global.asaxに以下の定義を追加。

public static void RegisterRoutes(RouteCollection routes)
{
	routes.IgnoreRoute("{resource}.axd/{*pathInfo}");

	routes.MapHttpRoute(
		name: "DefaultApiActions",
		routeTemplate: "api/{controller}/{action}/{id}",
		defaults: new { id = RouteParameter.Optional },
		constraints:new {action="[^0-9]+"}
	);

	routes.MapHttpRoute(
		name: "DefaultApi",
		routeTemplate: "api/{controller}/{id}",
		defaults: new { id = RouteParameter.Optional }
	);

	routes.MapRoute(
		name: "Default",
		url: "{controller}/{action}/{id}",
		defaults: new { controller = "Home", action = "Index", id = UrlParameter.Optional }
	);
}

DefaultApiっていう名前で定義されてるのが、プロジェクトテンプレートで定義されるルーティングだけど、その前にDefaultApiActionsっていうのを定義してます。前に定義するのがミソ。ルーティングの解決順は登録順になるので。で、constraintsでactionは数値じゃないっていうルールを付加。これで、/api/values/1の1はactionとして解釈せず、DefaultApiの定義のほうのidとして解釈するルーティングに到達します。

続いて、先ほどのApiControllerのGetとFindのうち、FindにつけたHttpGetとAcceptVerbsを削除しておきましょう。

// GET /api/values
public IEnumerable<string> Get()
{
	return new string[] { "value1", "value2" };
}

// GET /api/values/5
public string Get(int id)
{
	return "value";
}

// GET /api/values
public IEnumerable<string> Find()
{
	return new string[] { "value1", "value2" };
}

// GET /api/values/5
public string Find(int id)
{
	return "value";
}

今回はアクション名をURLに含めることで、ルーティングするというのを確認するので、以下のURLにそれぞれアクセスします。

/api/values
/api/values/1
/api/values/find
/api/values/find/1

actionselector5

わかりにくいけど、全部同じアプリケーションインスタンスに対してリクエストしてるよ。エラーにならずにそれぞれちゃんと取得できてるね!

ルールその4:ルーティングの定義でactionを指定するようにすると、MVCと同じようにルーティングする

です。

うん!スッキリだね!あと、ApiControllerActionSelectorがIHttpActionSelectorの実装なんだけど、これどこで使われるのか検索してみると、出てくるのはSystem.Web.Http.Services.DefaultServiceResolver(IDependencyResolver実装)クラス。ここで、インターフェースと実装の紐付。ServiceLocator。DefaultServiceResolver自体はinternal classだけど、IDependencyResolverを自分で実装するなら、実装は差し替え可能ってことですね。いっぱい登録してるから見てみるといいと思います。

http://aspnetwebstack.codeplex.com/SourceControl/changeset/view/a0b7fe4a95fa#src%2fSystem.Web.Http%2fServices%2fDefaultServices.cs

※あ。ソース変わってる?んー。最新取得してもこれとちょっと違うなー。どんまい。

で、最初のドキュメントを見てみるとなんて書いてるかなー。

Routing in ASP.NET Web API : Official Microsoft Site

同じこと書いてるじゃないか!っていうオチ。 しかもNonActionについてまで書かれてて完敗。てへぺろ!

2012年4月13日金曜日

検索するSaaS

どうもどうも。月刊たけはらブログ。

先日AWSからCloudSearchが発表されて、なかなかホットな分野になりつつある検索SaaS。検索って言ってもサイトの検索じゃなくてドキュメントの検索。で、最近注目してたのがIndexTank。これをサービス提供してるSearchifyっていうのがあります。

Searchify - Hosted search as a service - IndexTank API

IndexTankで検索しても対して情報はないんだけど↓こんなです。

米LinkedIn、買収したIndexTankの検索技術をオープンソースに

IndexTankのサービス提供は IndexTank - hosted search you control っていうのが先にやってたんだけど、そこでのサービス提供がなくなって Searchify一本になった矢先のAWS CloudSearch。 熱い分野です!っていうか、選択肢のあまりない分野?

まぁ、そんなことはどうでもいいね。システムが提供する検索どーしよっかなー、自分でLuceneとか用意しようかなー、なんて考えてる人たくさんいますよね。SQLServerでのFulltext Searchか単なるLike検索か。規模が大きくなればなるほど、データが多くなればなるほど、困ったことになる検索。

Searchify、使ってみようじゃないか!

といっても、単純に使うのはすごく簡単。.NETからの利用に関してもライブラリが既にあるので、サンプルそのまま書けばあっさり検索できる。超簡単。

IndexTankDotNet - the IndexTank Client Library for .NET

サンプルを転載(ズルくない)。

1.Indexを取得。

IndexTankClient client = new IndexTankClient("<YOUR API URL HERE>");

Index index = client.GetIndex("<YOUR INDEX NAME HERE>");

2.ドキュメントの登録。

string documentId = "<A DOCUMENT IDENTIFIER>";
string documentText = "<TEXTUAL CONTENT OF DOCUMENT>";

Document document = new Document(documentId).AddField("text", documentText);

index.AddDocument(document);

3.ドキュメントの検索。

string queryText = "<TEXT TO SEARCH FOR>";

Query query = new Query(queryText);

SearchResult result = index.Search(query);

Console.WriteLine(string.Format("There were {0} matches found for '{1}'.", result.Matches, result.QueryText));
Console.WriteLine(string.Format("The search took {0} seconds.", result.SearchTime));

foreach (ResultDocument document in result.ResultDocuments)
{
   Console.WriteLine(string.Format("Document ID: {0}", document.DocumentId));
}

簡単です!ドキュメントを登録することで勝手にインデックスが構築されて検索可能になります。

考え方としてはIndexっていうのが検索スコープで、ドキュメントっていうのがコンテンツ。IndexTankの面白いところは、ドキュメントに対してフィールド(セマンティック項目)を定義できるところ。通常の全文検索項目は”text”っていう名前の項目。それ以外にも自分で好きなように項目(Field)を定義して、検索オプションに利用できます。さらにさらに、Valiablesっていう特別項目もあって、これを利用することで、更新頻度の高い項目を別枠で検索できるようになります(In-RAM)。通常のFieldはインデクサが頑張ってから検索可能になるのに対して、Variableは即座に検索に反映されるっていう使い分け。しかも、Variableは範囲検索もできるっていうのが特徴的。これAWS CloudSearchではまだできない。範囲検索超強力。

詳しくはドキュメントどうぞ。

www.indextank.com/_static/papers/IndexTank WhitePaper Technical.pdf

ドキュメントに書かれてるソースだけで、分かった気になるのはだらしないので、ちゃんとサンプルも書きました。

    public class Searchify
    {
        public string ApiUrl = "https://アカウント登録してね!";
        public string IndexName = "FreshTest";

        public Index GetIndex()
        {
            var client = new IndexTankClient(ApiUrl);
            return client.GetIndex(IndexName);
        }

        private Dictionary<string, Person> _mugiwara = new Dictionary<string, Person>
        {
            {"1",new Person{Name="モンキー・D・ルフィ",Date=new DateTime(2000,1,1),Spec = "ゴムゴム",Age = 19.0f, Bounty = 40000f,
                            Text="(麦わらのルフィ)声 - 田中真弓 本作の主人公。麦わらの一味船長。「ゴムゴムの実」の能力者のゴム人間。麦わら帽子がトレードマーク。夢は「海賊王」と「シャンクスとの再会」。"}},
            {"2",new Person{Name="ロロノア・ゾロ",Date=new DateTime(2000,1,1),Spec = "",Age = 21.0f, Bounty = 12000f,
                            Text="(海賊狩りのゾロ)声 - 中井和哉 麦わらの一味戦闘員。「三刀流」の剣士。クールでストイックな武士道精神の持ち主。世界一の大剣豪を目指している。"}},
            {"3",new Person{Name="ナミ",Date=new DateTime(2000,3,1),Spec = "",Age = 20.0f, Bounty = 1600f,
                            Text="(泥棒猫)声 - 岡村明美 麦わらの一味航海士。元は海賊専門の泥棒。お金・お宝に目がない。世界地図を描くのが夢。"}},
            {"4",new Person{Name="ウソップ",Date=new DateTime(2000,3,1,12,0,0),Spec = "",Age = 19.0f, Bounty = 3000f,
                            Text="(狙撃の王様そげキング)声 - 山口勝平 麦わらの一味狙撃手。臆病でお調子者ながら、器用で口八丁なパチンコの名手。父・ヤソップのような勇敢なる海の戦士を目指している。"}},
            {"5",new Person{Name="サンジ",Date=new DateTime(2000,7,1),Spec = "",Age = 21.0f, Bounty = 7700f,
                            Text="(黒足のサンジ)声 - 平田広明 麦わらの一味コック。コックの命である手を傷つけないように、足技で戦う。無類の女好き。伝説の海「オールブルー」を探す。"}},
            {"6",new Person{Name="トニートニー・チョッパー",Date=new DateTime(2000,7,1,12,0,0),Spec = "ヒトヒト",Age = 17.0f, Bounty = 0.005f,
                            Text="(わたあめ大好きチョッパー)声 - 大谷育江 麦わらの一味船医。「ヒトヒトの実」を食べた人間トナカイ。人獣型、人型、獣型に変形出来る。何でも治せる医者を目指している。"}},
            {"7",new Person{Name="ニコ・ロビン",Date=new DateTime(2000,7,2),Spec = "ハナハナ",Age = 30.0f, Bounty = 8000f,
                            Text="(悪魔の子)声 - 山口由里子 麦わらの一味考古学者。「ハナハナの実」の能力者。歴史上の「空白の百年」の謎を解き明かすため旅をしている。"}},
            {"8",new Person{Name="フランキー",Date=new DateTime(2000,8,1),Spec = "",Age = 36.0f, Bounty = 4400f,
                            Text="(鉄人(サイボーグ))声 - 矢尾一樹 麦わらの一味船大工。体中に武器を仕込んだサイボーグ。自分の作った船に乗り、その船が海の果てに辿り着くのを見届けることが夢。"}},
            {"9",new Person{Name="ブルック",Date=new DateTime(2000,9,1),Spec = "ヨミヨミ",Age = 90.0f, Bounty = 3300f,
                            Text="(鼻唄のブルック)声 - チョー 麦わらの一味音楽家。一度死んだが「ヨミヨミの実」でガイコツ姿で蘇ったアフロ剣士。リヴァース・マウンテンで別れた鯨のラブーンとの再会を誓う。"}},
        };

        public void CreateIndex()
        {
            var index = GetIndex();
            var documents = new List<Document>();
            foreach (var doc in _mugiwara)
            {
                // insert document
                Document document = new Document(doc.Key);
                document.AddField("text", string.Format("{0}\r\n{1}", doc.Value.Name, doc.Value.Text));
                document.AddField("spec", doc.Value.Spec);
                document.AddVariable(0, doc.Value.Age);
                document.AddVariable(1, (doc.Value.Date - new DateTime(1, 1, 1)).Days);

                documents.Add(document);
            }

            Console.WriteLine("start at " + DateTime.Now);
            index.AddDocuments(documents);
            Console.WriteLine("end at " + DateTime.Now);
        }
    }

見にくい!ほとんどデータ。麦わら屋。

            var searchify = new Searchify();
            searchify.CreateIndex();

って、実行すれば登録されます。

あとは、検索するだけ。

Searchifyの管理画面からも簡単な検索はできるので、そこからドキュメントが登録されてるかは確認できます。

searchify1

拡大してみてね。"麦わら"で検索したら9件出てきました。すべでのドキュメントに含まれてる単語だからね。っと、単語とは言ったけど、形態素ってわけじゃないっぽい。ちゃんとしたドキュメントは見つけられてないけど、N-gramだと思われる。多言語対応しようと思うとそのほうが都合いいもんね。

わざわざ適当な日付を利用してVariable項目に登録してるんですが、これを使って検索してみましょう。

            text = "声";
            query = new Query(text);
            var days = (new DateTime(2000, 3, 1) - new DateTime(1, 1, 1)).Days;
            results = index.Search(
                query.WithDocumentVariableFilter(1, 0f, days)
            );
            Console.WriteLine("search '{0}' {1} matches", text, results.Matches);
            foreach (var result in results.ResultDocuments)
            {
                Console.WriteLine(" {0}", result.DocumentId);
            }

 

searchify2

すべてのドキュメントに"声"っていうのが含まれてるので、”声”で検索しつつ、日付として2000/3/1以前のものを検索してます。うまく4件だけ表示されました。

ここで、ちょっと変なことしてるんですけど、そもそもVariableに指定できる項目はfloatのみ。文字列も入れられないし、日付も入れられない。なので、数値に変換した日付を入れてます。しかもfloatだから有効な仮数は10進数で7ケタ。なかなか厳しいけど、日付だけなら1/1/1からの経過日数でしのげるので、日数をセットしてます。

ちなみにIndexTankDotNetの実装に少し不具合もあって(IndexTankのRESTの不具合ともいえる?)、floatを文字列にしたときに指数表記(1.234e5とか)になると検索できない。ドキュメントの値として送信する場合はJSONで送られるんだけど、その場合はJSONが指数表記に対応してるからか、うまく登録されるんだけど、それを検索しようと思ってもQueryStringの指数表記までは解釈してくれない。ちょっと残念だけど、そこは気を付けましょうってことで(フィードバックすればいいかも)。

話を戻すと、Variableを利用すると範囲検索ができるので、とても便利っていうことです。

あと、Categories(Facet)っていう特別な項目(CloudSearchにもありますね)もあって、ドキュメントがどのカテゴリに含まれてるのか検索結果に含ませて返したり、条件指定したりできます。が、複数指定するのはできないっぽいので、複数のクラスタに属するドキュメントを検索する場合はFieldにスペース区切りで値を入れると検索できるようになります。

例)lang fieldに言語をスペース区切りで入れる

docid: takepara
lang:c# japascript sql

docid: suzuki
lang:c# php

こんな感じになってて検索キーワードに lang:c# って入れると両方とれるし、lang:phpって入れたら suzukiだけとれる。その辺はまたドキュメントどーぞ。

Query Syntax documentation – Searchify

ドキュメント件数が少ないと(数万とか数10万程度)だと、ネットワークのラウンドトリップのほうが気になるだろうけど、数100万超えてくるとSaaS使うメリットが出てくると思うので、とても魅力的なソリューションになりえると思います。

実運用を考えると、マスターデータとの同期でタイムラグが発生すると思います。ドキュメントの登録自体は複数ドキュメントの一括更新ができて、ある程度速度的には許容できるんだけど、Variableの更新は1件ずつしかできないのが、ちょっと残念。Variableこそ一括更新したいと思うんだけど。更新頻度の高いデータを大量に更新しないような方法をうまく考える必要はあるね。

なので、現実的な落としどころは、外部検索ではIDだけを取得して、更新頻度の高い情報と取得したIDをもとに内部で結合して利用する、っていうのがシステム設計として必要になると思う。その際、取得するIDがあまり多くならないようにしておくことも含め、いろいろ考えるところがありそう。とはいえ、実質1000件以上とか検索結果が出てきても、見るわけもなく。

不要な検索結果の切り捨て(件数は数万って出しても、ページングした最後のページに「もっと絞り込んでね」って出すとか)はGoogleでも普通にやるし、Amazon(お店のほうね)でも300件ほどで切り捨ててるし(検索結果が数万件って表示されてもページングは20まで)。

その辺、ちゃんと意識して効率よく使っていきましょう!