f52e00175bb41212e6d4d7848b0e1422c5548b26
[phinde.git] / README.rst
1 **********************************
2 phinde - generic web search engine
3 **********************************
4 Self-hosted search engine you can use for your static blog or about
5 any other website you want search functionality for.
6
7 My live instance is at http://search.cweiske.de/ and indexes my
8 website, blog and all linked URLs.
9
10
11 ========
12 Features
13 ========
14 - Crawler and indexer with the ability to run many in parallel
15 - Shows and highlights text that contains search words
16 - Boolean search queries:
17
18   - ``foo bar`` searches for ``foo AND bar``
19   - ``foo OR bar``
20   - ``title:foo`` searches for ``foo`` only in the page title
21 - Facets for tag, domain, language and type
22 - Date search:
23
24   - ``before:2016-08-30`` - modification date before that day
25   - ``after:2016-08-30`` - modified after that day
26   - ``date::2016-08-30`` - exact modification day match
27 - Site search
28
29   - Query: ``foo bar site:example.org/dir/``
30   - or use the ``site`` GET parameter:
31     ``/?q=foo&site=example.org/dir``
32 - OpenSearch support with HTML and Atom result lists
33 - Instant indexing with WebSub (formerly PubSubHubbub)
34
35
36 ============
37 Dependencies
38 ============
39 - PHP 5.5+
40 - Elasticsearch 2.0
41 - Gearman
42 - PHP Gearman extension
43 - Console_CommandLine
44 - Net_URL2
45 - Twig 1.x
46
47
48 =====
49 Setup
50 =====
51 #. Install and run Elasticsearch and Gearman
52 #. Install ``php-gearman``
53 #. Get a local copy of the code::
54
55      $ git clone https://git.cweiske.de/phinde.git phinde
56
57 #. Install dependencies via composer::
58
59      $ composer install
60
61 #. Point your webserver's document root to phinde's ``www`` directory
62 #. Copy ``data/config.php.dist`` to ``data/config.php`` and adjust it.
63    Make sure your add your domain to the crawl whitelist.
64 #. Run ``bin/setup.php`` which sets up the Elasticsearch schema
65 #. Put your homepage into the queue::
66
67      $ ./bin/process.php http://example.org/
68
69 #. Start at least one worker to process the crawl+index queue::
70
71      $ ./bin/phinde-worker.php
72
73 #. Check phinde's status page in your browser.
74    The number of open tasks should be > 0, the number of workers also.
75
76
77 Re-index when your site changes
78 ===============================
79 When your site changed, the search engine needs to re-crawl and re-index
80 the pages.
81
82 Simply tell phinde that something changed by running::
83
84     $ ./bin/process.php http://example.org/foo.htm
85
86 phinde supports HTML pages and Atom feeds, so if your blog has a feed
87 it's enough to let phinde reindex that one.
88 It will find all linked pages automatically.
89
90
91 Website integration
92 ===================
93 Adding a simple search form to your website is easy.
94 It needs two things:
95
96 - ``<form>`` tag with an action that points to the phinde instance
97 - Search text field with name of ``q``.
98
99 Example::
100
101   <form method="get" action="http://phinde.example.org">
102     <input type="text" name="q" placeholder="Search text"/>
103     <button type="submit">Search</button>
104   </form>
105
106
107 System service
108 ==============
109 When using systemd, you can let it run multiple worker instances when
110 the system boots up:
111
112 #. Copy files ``data/systemd/phinde*.service`` into ``/etc/systemd/system/``
113 #. Adjust user and group names, and the work directories
114 #. Enable three worker processes::
115
116      $ systemctl daemon-reload
117      $ systemctl enable phinde@1
118      $ systemctl enable phinde@2
119      $ systemctl enable phinde@3
120      $ systemctl enable phinde
121      $ systemctl start phinde
122 #. Now three workers are running. Restarting the ``phinde`` service also
123    restarts the workers.
124
125
126
127 Cron job
128 ========
129 Run ``bin/renew-subscriptions.php`` once a day with cron.
130 It will renew the WebSub subscriptions.
131
132
133 =====
134 Howto
135 =====
136
137 Delete index data from one domain::
138
139     $ curl -iv -XDELETE -H 'Content-Type: application/json' -d '{"query":{"term":{"domain":"example.org"}}}' http://127.0.0.1:9200/phinde/_query
140
141 That's delete-by-query 2.0, see
142 https://www.elastic.co/guide/en/elasticsearch/plugins/2.0/delete-by-query-usage.html
143
144
145 ============
146 About phinde
147 ============
148
149 Source code
150 ===========
151 phinde's source code is available from http://git.cweiske.de/phinde.git
152 or the `mirror on github`__.
153
154 __ https://github.com/cweiske/phinde
155
156
157 License
158 =======
159 phinde is licensed under the `AGPL v3 or later`__.
160
161 __ http://www.gnu.org/licenses/agpl.html
162
163
164 Author
165 ======
166 phinde was written by `Christian Weiske`__.
167
168 __ http://cweiske.de/