| 1 | /////////////////////////////////////////////////////////////////////////////// | 
|---|
| 2 | /// \file regex_compiler.hpp | 
|---|
| 3 | /// Contains the definition of regex_compiler, a factory for building regex objects | 
|---|
| 4 | /// from strings. | 
|---|
| 5 | // | 
|---|
| 6 | //  Copyright 2004 Eric Niebler. Distributed under the Boost | 
|---|
| 7 | //  Software License, Version 1.0. (See accompanying file | 
|---|
| 8 | //  LICENSE_1_0.txt or copy at http://www.boost.org/LICENSE_1_0.txt) | 
|---|
| 9 |  | 
|---|
| 10 | #ifndef BOOST_XPRESSIVE_REGEX_COMPILER_HPP_EAN_10_04_2005 | 
|---|
| 11 | #define BOOST_XPRESSIVE_REGEX_COMPILER_HPP_EAN_10_04_2005 | 
|---|
| 12 |  | 
|---|
| 13 | // MS compatible compilers support #pragma once | 
|---|
| 14 | #if defined(_MSC_VER) && (_MSC_VER >= 1020) | 
|---|
| 15 | # pragma once | 
|---|
| 16 | #endif | 
|---|
| 17 |  | 
|---|
| 18 | #include <boost/xpressive/basic_regex.hpp> | 
|---|
| 19 | #include <boost/xpressive/detail/dynamic/parser.hpp> | 
|---|
| 20 | #include <boost/xpressive/detail/dynamic/parse_charset.hpp> | 
|---|
| 21 | #include <boost/xpressive/detail/dynamic/parser_enum.hpp> | 
|---|
| 22 | #include <boost/xpressive/detail/dynamic/parser_traits.hpp> | 
|---|
| 23 | #include <boost/xpressive/detail/core/linker.hpp> | 
|---|
| 24 | #include <boost/xpressive/detail/core/optimize.hpp> | 
|---|
| 25 |  | 
|---|
| 26 | namespace boost { namespace xpressive | 
|---|
| 27 | { | 
|---|
| 28 |  | 
|---|
| 29 | /////////////////////////////////////////////////////////////////////////////// | 
|---|
| 30 | // regex_compiler | 
|---|
| 31 | // | 
|---|
| 32 | /// \brief Class template regex_compiler is a factory for building basic_regex objects from a string. | 
|---|
| 33 | /// | 
|---|
| 34 | /// Class template regex_compiler is used to construct a basic_regex object from a string. The string | 
|---|
| 35 | /// should contain a valid regular expression. You can imbue a regex_compiler object with a locale, | 
|---|
| 36 | /// after which all basic_regex objects created with that regex_compiler object will use that locale. | 
|---|
| 37 | /// After creating a regex_compiler object, and optionally imbueing it with a locale, you can call the | 
|---|
| 38 | /// compile() method to construct a basic_regex object, passing it the string representing the regular | 
|---|
| 39 | /// expression. You can call compile() multiple times on the same regex_compiler object. Two basic_regex | 
|---|
| 40 | /// objects compiled from the same string will have different regex_id's. | 
|---|
| 41 | template<typename BidiIter, typename RegexTraits, typename CompilerTraits> | 
|---|
| 42 | struct regex_compiler | 
|---|
| 43 | { | 
|---|
| 44 | typedef BidiIter iterator_type; | 
|---|
| 45 | typedef typename iterator_value<BidiIter>::type char_type; | 
|---|
| 46 | typedef std::basic_string<char_type> string_type; | 
|---|
| 47 | typedef regex_constants::syntax_option_type flag_type; | 
|---|
| 48 | typedef RegexTraits traits_type; | 
|---|
| 49 | typedef typename traits_type::char_class_type char_class_type; | 
|---|
| 50 | typedef typename traits_type::locale_type locale_type; | 
|---|
| 51 |  | 
|---|
| 52 | explicit regex_compiler(RegexTraits const &traits = RegexTraits()) | 
|---|
| 53 | : mark_count_(0) | 
|---|
| 54 | , hidden_mark_count_(0) | 
|---|
| 55 | , traits_(traits) | 
|---|
| 56 | , upper_(0) | 
|---|
| 57 | { | 
|---|
| 58 | this->upper_ = lookup_classname(this->rxtraits(), "upper"); | 
|---|
| 59 | BOOST_ASSERT(0 != this->upper_); | 
|---|
| 60 | } | 
|---|
| 61 |  | 
|---|
| 62 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 63 | // imbue | 
|---|
| 64 | /// Specify the locale to be used by a regex_compiler. | 
|---|
| 65 | /// | 
|---|
| 66 | /// \param loc The locale that this regex_compiler should use. | 
|---|
| 67 | /// \return The previous locale. | 
|---|
| 68 | locale_type imbue(locale_type loc) | 
|---|
| 69 | { | 
|---|
| 70 | locale_type oldloc = this->traits_.imbue(loc); | 
|---|
| 71 | this->upper_ = lookup_classname(this->rxtraits(), "upper"); | 
|---|
| 72 | BOOST_ASSERT(0 != this->upper_); | 
|---|
| 73 | return oldloc; | 
|---|
| 74 | } | 
|---|
| 75 |  | 
|---|
| 76 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 77 | // getloc | 
|---|
| 78 | /// Get the locale used by a regex_compiler. | 
|---|
| 79 | /// | 
|---|
| 80 | /// \param loc The locale that this regex_compiler uses. | 
|---|
| 81 | locale_type getloc() const | 
|---|
| 82 | { | 
|---|
| 83 | return this->traits_.getloc(); | 
|---|
| 84 | } | 
|---|
| 85 |  | 
|---|
| 86 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 87 | // compile | 
|---|
| 88 | /// Builds a basic_regex object from a std::string. | 
|---|
| 89 | /// | 
|---|
| 90 | /// \param  pat A std::string containing the regular expression pattern. | 
|---|
| 91 | /// \param  flags Optional bitmask that determines how the pat string is interpreted. (See syntax_option_type.) | 
|---|
| 92 | /// \return A basic_regex object corresponding to the regular expression represented by the string. | 
|---|
| 93 | /// \pre    The std::string pat contains a valid string-based representation of a regular expression. | 
|---|
| 94 | /// \throw  regex_error when the string has invalid regular expression syntax. | 
|---|
| 95 | basic_regex<BidiIter> compile(string_type pat, flag_type flags = regex_constants::ECMAScript) | 
|---|
| 96 | { | 
|---|
| 97 | this->reset(); | 
|---|
| 98 | this->traits_.flags(flags); | 
|---|
| 99 |  | 
|---|
| 100 | string_iterator begin = pat.begin(), end = pat.end(); | 
|---|
| 101 |  | 
|---|
| 102 | // at the top level, a regex is a sequence of alternates | 
|---|
| 103 | alternates_list alternates; | 
|---|
| 104 | this->parse_alternates(begin, end, alternates); | 
|---|
| 105 | detail::ensure(begin == end, regex_constants::error_paren, "mismatched parenthesis"); | 
|---|
| 106 |  | 
|---|
| 107 | // convert the alternates list to the appropriate matcher and terminate the sequence | 
|---|
| 108 | detail::sequence<BidiIter> seq = detail::alternates_to_matchable(alternates, alternates_factory()); | 
|---|
| 109 | seq += detail::make_dynamic_xpression<BidiIter>(detail::end_matcher()); | 
|---|
| 110 |  | 
|---|
| 111 | // fill in the back-pointers by visiting the regex parse tree | 
|---|
| 112 | detail::xpression_linker<char_type> linker(this->rxtraits()); | 
|---|
| 113 | seq.first->link(linker); | 
|---|
| 114 |  | 
|---|
| 115 | // bundle the regex information into a regex_impl object | 
|---|
| 116 | detail::regex_impl<BidiIter> impl; | 
|---|
| 117 | impl.xpr_ = seq.first; | 
|---|
| 118 | impl.traits_.reset(new RegexTraits(this->rxtraits())); | 
|---|
| 119 | impl.mark_count_ = this->mark_count_; | 
|---|
| 120 | impl.hidden_mark_count_ = this->hidden_mark_count_; | 
|---|
| 121 |  | 
|---|
| 122 | // optimization: get the peek chars OR the boyer-moore search string | 
|---|
| 123 | detail::optimize_regex(impl, this->rxtraits(), detail::is_random<BidiIter>()); | 
|---|
| 124 |  | 
|---|
| 125 | return detail::core_access<BidiIter>::make_regex(impl); | 
|---|
| 126 | } | 
|---|
| 127 |  | 
|---|
| 128 | private: | 
|---|
| 129 |  | 
|---|
| 130 | typedef typename string_type::const_iterator string_iterator; | 
|---|
| 131 | typedef std::list<detail::sequence<BidiIter> > alternates_list; | 
|---|
| 132 | typedef detail::escape_value<char_type, char_class_type> escape_value; | 
|---|
| 133 | typedef detail::alternates_factory_impl<BidiIter, traits_type> alternates_factory; | 
|---|
| 134 |  | 
|---|
| 135 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 136 | // reset | 
|---|
| 137 | /// INTERNAL ONLY | 
|---|
| 138 | void reset() | 
|---|
| 139 | { | 
|---|
| 140 | this->mark_count_ = 0; | 
|---|
| 141 | this->hidden_mark_count_ = 0; | 
|---|
| 142 | this->traits_.flags(regex_constants::ECMAScript); | 
|---|
| 143 | } | 
|---|
| 144 |  | 
|---|
| 145 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 146 | // regex_traits | 
|---|
| 147 | /// INTERNAL ONLY | 
|---|
| 148 | traits_type &rxtraits() | 
|---|
| 149 | { | 
|---|
| 150 | return this->traits_.traits(); | 
|---|
| 151 | } | 
|---|
| 152 |  | 
|---|
| 153 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 154 | // regex_traits | 
|---|
| 155 | /// INTERNAL ONLY | 
|---|
| 156 | traits_type const &rxtraits() const | 
|---|
| 157 | { | 
|---|
| 158 | return this->traits_.traits(); | 
|---|
| 159 | } | 
|---|
| 160 |  | 
|---|
| 161 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 162 | // parse_alternates | 
|---|
| 163 | /// INTERNAL ONLY | 
|---|
| 164 | void parse_alternates(string_iterator &begin, string_iterator end, alternates_list &alternates) | 
|---|
| 165 | { | 
|---|
| 166 | using namespace regex_constants; | 
|---|
| 167 | string_iterator old_begin; | 
|---|
| 168 |  | 
|---|
| 169 | do | 
|---|
| 170 | { | 
|---|
| 171 | alternates.push_back(this->parse_sequence(begin, end)); | 
|---|
| 172 | old_begin = begin; | 
|---|
| 173 | } | 
|---|
| 174 | while(begin != end && token_alternate == this->traits_.get_token(begin, end)); | 
|---|
| 175 |  | 
|---|
| 176 | begin = old_begin; | 
|---|
| 177 | } | 
|---|
| 178 |  | 
|---|
| 179 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 180 | // parse_group | 
|---|
| 181 | /// INTERNAL ONLY | 
|---|
| 182 | detail::sequence<BidiIter> parse_group(string_iterator &begin, string_iterator end) | 
|---|
| 183 | { | 
|---|
| 184 | using namespace regex_constants; | 
|---|
| 185 | int mark_nbr = 0; | 
|---|
| 186 | bool keeper = false; | 
|---|
| 187 | bool lookahead = false; | 
|---|
| 188 | bool lookbehind = false; | 
|---|
| 189 | bool negative = false; | 
|---|
| 190 | std::size_t old_mark_count = this->mark_count_; | 
|---|
| 191 |  | 
|---|
| 192 | detail::sequence<BidiIter> seq, seq_end; | 
|---|
| 193 | string_iterator tmp = string_iterator(); | 
|---|
| 194 |  | 
|---|
| 195 | syntax_option_type old_flags = this->traits_.flags(); | 
|---|
| 196 |  | 
|---|
| 197 | switch(this->traits_.get_group_type(begin, end)) | 
|---|
| 198 | { | 
|---|
| 199 | case token_no_mark: | 
|---|
| 200 | // Don't process empty groups like (?:) or (?i) | 
|---|
| 201 | // BUGBUG this doesn't handle the degenerate (?:)+ correctly | 
|---|
| 202 | if(token_group_end == this->traits_.get_token(tmp = begin, end)) | 
|---|
| 203 | { | 
|---|
| 204 | return this->parse_atom(begin = tmp, end); | 
|---|
| 205 | } | 
|---|
| 206 | break; | 
|---|
| 207 |  | 
|---|
| 208 | case token_negative_lookahead: | 
|---|
| 209 | negative = true; // fall-through | 
|---|
| 210 | case token_positive_lookahead: | 
|---|
| 211 | lookahead = true; | 
|---|
| 212 | seq_end = detail::make_dynamic_xpression<BidiIter>(detail::true_matcher()); | 
|---|
| 213 | break; | 
|---|
| 214 |  | 
|---|
| 215 | case token_negative_lookbehind: | 
|---|
| 216 | negative = true; // fall-through | 
|---|
| 217 | case token_positive_lookbehind: | 
|---|
| 218 | lookbehind = true; | 
|---|
| 219 | seq_end = detail::make_dynamic_xpression<BidiIter>(detail::true_matcher()); | 
|---|
| 220 | break; | 
|---|
| 221 |  | 
|---|
| 222 | case token_independent_sub_expression: | 
|---|
| 223 | keeper = true; | 
|---|
| 224 | seq_end = detail::make_dynamic_xpression<BidiIter>(detail::true_matcher()); | 
|---|
| 225 | break; | 
|---|
| 226 |  | 
|---|
| 227 | case token_comment: | 
|---|
| 228 | while(detail::ensure(begin != end, error_paren, "mismatched parenthesis")) | 
|---|
| 229 | { | 
|---|
| 230 | switch(this->traits_.get_token(begin, end)) | 
|---|
| 231 | { | 
|---|
| 232 | case token_group_end: return this->parse_atom(begin, end); | 
|---|
| 233 | case token_escape: detail::ensure(begin != end, error_escape, "incomplete escape sequence"); | 
|---|
| 234 | case token_literal: ++begin; | 
|---|
| 235 | default:; | 
|---|
| 236 | } | 
|---|
| 237 | } | 
|---|
| 238 | break; | 
|---|
| 239 |  | 
|---|
| 240 | default: | 
|---|
| 241 | mark_nbr = static_cast<int>(++this->mark_count_); | 
|---|
| 242 | seq = detail::make_dynamic_xpression<BidiIter>(detail::mark_begin_matcher(mark_nbr)); | 
|---|
| 243 | seq_end = detail::make_dynamic_xpression<BidiIter>(detail::mark_end_matcher(mark_nbr)); | 
|---|
| 244 | break; | 
|---|
| 245 | } | 
|---|
| 246 |  | 
|---|
| 247 | // alternates | 
|---|
| 248 | alternates_list alternates; | 
|---|
| 249 | this->parse_alternates(begin, end, alternates); | 
|---|
| 250 | detail::ensure | 
|---|
| 251 | ( | 
|---|
| 252 | begin != end && token_group_end == this->traits_.get_token(begin, end) | 
|---|
| 253 | , error_paren | 
|---|
| 254 | , "mismatched parenthesis" | 
|---|
| 255 | ); | 
|---|
| 256 |  | 
|---|
| 257 | seq += detail::alternates_to_matchable(alternates, alternates_factory()); | 
|---|
| 258 | seq += seq_end; | 
|---|
| 259 |  | 
|---|
| 260 | typedef shared_ptr<detail::matchable<BidiIter> const> xpr_type; | 
|---|
| 261 | bool do_save = (this->mark_count_ != old_mark_count); | 
|---|
| 262 |  | 
|---|
| 263 | if(lookahead) | 
|---|
| 264 | { | 
|---|
| 265 | detail::lookahead_matcher<xpr_type> lookahead(seq.first, negative, do_save); | 
|---|
| 266 | seq = detail::make_dynamic_xpression<BidiIter>(lookahead); | 
|---|
| 267 | } | 
|---|
| 268 | else if(lookbehind) | 
|---|
| 269 | { | 
|---|
| 270 | detail::lookbehind_matcher<xpr_type> lookbehind(seq.first, negative, do_save); | 
|---|
| 271 | seq = detail::make_dynamic_xpression<BidiIter>(lookbehind); | 
|---|
| 272 | } | 
|---|
| 273 | else if(keeper) // independent sub-expression | 
|---|
| 274 | { | 
|---|
| 275 | detail::keeper_matcher<xpr_type> keeper(seq.first, do_save); | 
|---|
| 276 | seq = detail::make_dynamic_xpression<BidiIter>(keeper); | 
|---|
| 277 | } | 
|---|
| 278 |  | 
|---|
| 279 | // restore the modifiers | 
|---|
| 280 | this->traits_.flags(old_flags); | 
|---|
| 281 | return seq; | 
|---|
| 282 | } | 
|---|
| 283 |  | 
|---|
| 284 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 285 | // parse_charset | 
|---|
| 286 | /// INTERNAL ONLY | 
|---|
| 287 | detail::sequence<BidiIter> parse_charset(string_iterator &begin, string_iterator end) | 
|---|
| 288 | { | 
|---|
| 289 | detail::compound_charset<traits_type> chset; | 
|---|
| 290 |  | 
|---|
| 291 | // call out to a helper to actually parse the character set | 
|---|
| 292 | detail::parse_charset(begin, end, chset, this->traits_); | 
|---|
| 293 |  | 
|---|
| 294 | return detail::make_charset_xpression<BidiIter> | 
|---|
| 295 | ( | 
|---|
| 296 | chset | 
|---|
| 297 | , this->rxtraits() | 
|---|
| 298 | , this->traits_.flags() | 
|---|
| 299 | ); | 
|---|
| 300 | } | 
|---|
| 301 |  | 
|---|
| 302 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 303 | // parse_atom | 
|---|
| 304 | /// INTERNAL ONLY | 
|---|
| 305 | detail::sequence<BidiIter> parse_atom(string_iterator &begin, string_iterator end) | 
|---|
| 306 | { | 
|---|
| 307 | using namespace regex_constants; | 
|---|
| 308 | escape_value esc = { 0, 0, 0, detail::escape_char }; | 
|---|
| 309 | string_iterator old_begin = begin; | 
|---|
| 310 |  | 
|---|
| 311 | switch(this->traits_.get_token(begin, end)) | 
|---|
| 312 | { | 
|---|
| 313 | case token_literal: | 
|---|
| 314 | return detail::make_literal_xpression<BidiIter> | 
|---|
| 315 | ( | 
|---|
| 316 | this->parse_literal(begin, end), this->traits_.flags(), this->rxtraits() | 
|---|
| 317 | ); | 
|---|
| 318 |  | 
|---|
| 319 | case token_any: | 
|---|
| 320 | return detail::make_any_xpression<BidiIter>(this->traits_.flags(), this->rxtraits()); | 
|---|
| 321 |  | 
|---|
| 322 | case token_assert_begin_sequence: | 
|---|
| 323 | return detail::make_dynamic_xpression<BidiIter>(detail::assert_bos_matcher()); | 
|---|
| 324 |  | 
|---|
| 325 | case token_assert_end_sequence: | 
|---|
| 326 | return detail::make_dynamic_xpression<BidiIter>(detail::assert_eos_matcher()); | 
|---|
| 327 |  | 
|---|
| 328 | case token_assert_begin_line: | 
|---|
| 329 | return detail::make_assert_begin_line<BidiIter>(this->traits_.flags(), this->rxtraits()); | 
|---|
| 330 |  | 
|---|
| 331 | case token_assert_end_line: | 
|---|
| 332 | return detail::make_assert_end_line<BidiIter>(this->traits_.flags(), this->rxtraits()); | 
|---|
| 333 |  | 
|---|
| 334 | case token_assert_word_boundary: | 
|---|
| 335 | return detail::make_assert_word<BidiIter>(detail::word_boundary<true>(), this->rxtraits()); | 
|---|
| 336 |  | 
|---|
| 337 | case token_assert_not_word_boundary: | 
|---|
| 338 | return detail::make_assert_word<BidiIter>(detail::word_boundary<false>(), this->rxtraits()); | 
|---|
| 339 |  | 
|---|
| 340 | case token_assert_word_begin: | 
|---|
| 341 | return detail::make_assert_word<BidiIter>(detail::word_begin(), this->rxtraits()); | 
|---|
| 342 |  | 
|---|
| 343 | case token_assert_word_end: | 
|---|
| 344 | return detail::make_assert_word<BidiIter>(detail::word_end(), this->rxtraits()); | 
|---|
| 345 |  | 
|---|
| 346 | case token_escape: | 
|---|
| 347 | esc = this->parse_escape(begin, end); | 
|---|
| 348 | switch(esc.type_) | 
|---|
| 349 | { | 
|---|
| 350 | case detail::escape_mark: | 
|---|
| 351 | return detail::make_backref_xpression<BidiIter> | 
|---|
| 352 | ( | 
|---|
| 353 | esc.mark_nbr_, this->traits_.flags(), this->rxtraits() | 
|---|
| 354 | ); | 
|---|
| 355 | case detail::escape_char: | 
|---|
| 356 | return detail::make_char_xpression<BidiIter> | 
|---|
| 357 | ( | 
|---|
| 358 | esc.ch_, this->traits_.flags(), this->rxtraits() | 
|---|
| 359 | ); | 
|---|
| 360 | case detail::escape_class: | 
|---|
| 361 | return detail::make_posix_charset_xpression<BidiIter> | 
|---|
| 362 | ( | 
|---|
| 363 | esc.class_ | 
|---|
| 364 | , this->rxtraits().isctype(*begin++, this->upper_) | 
|---|
| 365 | , this->traits_.flags() | 
|---|
| 366 | , this->rxtraits() | 
|---|
| 367 | ); | 
|---|
| 368 | } | 
|---|
| 369 |  | 
|---|
| 370 | case token_group_begin: | 
|---|
| 371 | return this->parse_group(begin, end); | 
|---|
| 372 |  | 
|---|
| 373 | case token_charset_begin: | 
|---|
| 374 | return this->parse_charset(begin, end); | 
|---|
| 375 |  | 
|---|
| 376 | case token_invalid_quantifier: | 
|---|
| 377 | throw regex_error(error_badrepeat, "quantifier not expected"); | 
|---|
| 378 |  | 
|---|
| 379 | case token_quote_meta_begin: | 
|---|
| 380 | return detail::make_literal_xpression<BidiIter> | 
|---|
| 381 | ( | 
|---|
| 382 | this->parse_quote_meta(begin, end), this->traits_.flags(), this->rxtraits() | 
|---|
| 383 | ); | 
|---|
| 384 |  | 
|---|
| 385 | case token_quote_meta_end: | 
|---|
| 386 | throw regex_error | 
|---|
| 387 | ( | 
|---|
| 388 | error_escape | 
|---|
| 389 | , "found quote-meta end without corresponding quote-meta begin" | 
|---|
| 390 | ); | 
|---|
| 391 |  | 
|---|
| 392 | case token_end_of_pattern: | 
|---|
| 393 | break; | 
|---|
| 394 |  | 
|---|
| 395 | default: | 
|---|
| 396 | begin = old_begin; | 
|---|
| 397 | break; | 
|---|
| 398 | } | 
|---|
| 399 |  | 
|---|
| 400 | return detail::sequence<BidiIter>(); | 
|---|
| 401 | } | 
|---|
| 402 |  | 
|---|
| 403 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 404 | // parse_quant | 
|---|
| 405 | /// INTERNAL ONLY | 
|---|
| 406 | detail::sequence<BidiIter> parse_quant(string_iterator &begin, string_iterator end) | 
|---|
| 407 | { | 
|---|
| 408 | BOOST_ASSERT(begin != end); | 
|---|
| 409 | detail::quant_spec spec = { 0, 0, false }; | 
|---|
| 410 | detail::sequence<BidiIter> seq = this->parse_atom(begin, end); | 
|---|
| 411 |  | 
|---|
| 412 | // BUGBUG this doesn't handle the degenerate (?:)+ correctly | 
|---|
| 413 | if(!seq.is_empty() && begin != end && seq.first->is_quantifiable()) | 
|---|
| 414 | { | 
|---|
| 415 | if(this->traits_.get_quant_spec(begin, end, spec)) | 
|---|
| 416 | { | 
|---|
| 417 | BOOST_ASSERT(spec.min_ <= spec.max_); | 
|---|
| 418 |  | 
|---|
| 419 | if(0 == spec.max_) // quant {0,0} is degenerate -- matches nothing. | 
|---|
| 420 | { | 
|---|
| 421 | seq = this->parse_quant(begin, end); | 
|---|
| 422 | } | 
|---|
| 423 | else | 
|---|
| 424 | { | 
|---|
| 425 | seq = seq.first->quantify(spec, this->hidden_mark_count_, seq, alternates_factory()); | 
|---|
| 426 | } | 
|---|
| 427 | } | 
|---|
| 428 | } | 
|---|
| 429 |  | 
|---|
| 430 | return seq; | 
|---|
| 431 | } | 
|---|
| 432 |  | 
|---|
| 433 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 434 | // parse_sequence | 
|---|
| 435 | /// INTERNAL ONLY | 
|---|
| 436 | detail::sequence<BidiIter> parse_sequence(string_iterator &begin, string_iterator end) | 
|---|
| 437 | { | 
|---|
| 438 | detail::sequence<BidiIter> seq; | 
|---|
| 439 |  | 
|---|
| 440 | while(begin != end) | 
|---|
| 441 | { | 
|---|
| 442 | detail::sequence<BidiIter> seq_quant = this->parse_quant(begin, end); | 
|---|
| 443 |  | 
|---|
| 444 | // did we find a quantified atom? | 
|---|
| 445 | if(seq_quant.is_empty()) | 
|---|
| 446 | break; | 
|---|
| 447 |  | 
|---|
| 448 | // chain it to the end of the xpression sequence | 
|---|
| 449 | seq += seq_quant; | 
|---|
| 450 | } | 
|---|
| 451 |  | 
|---|
| 452 | return seq; | 
|---|
| 453 | } | 
|---|
| 454 |  | 
|---|
| 455 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 456 | // parse_literal | 
|---|
| 457 | //  scan ahead looking for char literals to be globbed together into a string literal | 
|---|
| 458 | /// INTERNAL ONLY | 
|---|
| 459 | string_type parse_literal(string_iterator &begin, string_iterator end) | 
|---|
| 460 | { | 
|---|
| 461 | using namespace regex_constants; | 
|---|
| 462 | BOOST_ASSERT(begin != end); | 
|---|
| 463 | BOOST_ASSERT(token_literal == this->traits_.get_token(begin, end)); | 
|---|
| 464 | escape_value esc = { 0, 0, 0, detail::escape_char }; | 
|---|
| 465 | string_type literal(1, *begin); | 
|---|
| 466 |  | 
|---|
| 467 | for(string_iterator prev = begin, tmp = ++begin; begin != end; prev = begin, begin = tmp) | 
|---|
| 468 | { | 
|---|
| 469 | detail::quant_spec spec; | 
|---|
| 470 | if(this->traits_.get_quant_spec(tmp, end, spec)) | 
|---|
| 471 | { | 
|---|
| 472 | if(literal.size() != 1) | 
|---|
| 473 | { | 
|---|
| 474 | begin = prev; | 
|---|
| 475 | literal.erase(literal.size() - 1); | 
|---|
| 476 | } | 
|---|
| 477 | return literal; | 
|---|
| 478 | } | 
|---|
| 479 | else switch(this->traits_.get_token(tmp, end)) | 
|---|
| 480 | { | 
|---|
| 481 | case token_escape: | 
|---|
| 482 | esc = this->parse_escape(tmp, end); | 
|---|
| 483 | if(detail::escape_char != esc.type_) return literal; | 
|---|
| 484 | literal += esc.ch_; | 
|---|
| 485 | break; | 
|---|
| 486 | case token_literal: | 
|---|
| 487 | literal += *tmp++; | 
|---|
| 488 | break; | 
|---|
| 489 | default: | 
|---|
| 490 | return literal; | 
|---|
| 491 | } | 
|---|
| 492 | } | 
|---|
| 493 |  | 
|---|
| 494 | return literal; | 
|---|
| 495 | } | 
|---|
| 496 |  | 
|---|
| 497 | /////////////////////////////////////////////////////////////////////////// | 
|---|
| 498 | // parse_quote_meta | 
|---|
| 499 | //  scan ahead looking for char literals to be globbed together into a string literal | 
|---|
| 500 | /// INTERNAL ONLY | 
|---|
| 501 | string_type parse_quote_meta(string_iterator &begin, string_iterator end) | 
|---|
| 502 | { | 
|---|
| 503 | using namespace regex_constants; | 
|---|
| 504 | string_iterator old_begin = begin, old_end; | 
|---|
| 505 | while(end != (old_end = begin)) | 
|---|
| 506 | { | 
|---|
| 507 | switch(this->traits_.get_token(begin, end)) | 
|---|
| 508 | { | 
|---|
| 509 | case token_quote_meta_end: return string_type(old_begin, old_end); | 
|---|
| 510 | case token_escape: detail::ensure(begin != end, error_escape, "incomplete escape sequence"); | 
|---|
| 511 | case token_literal: ++begin; | 
|---|
| 512 | default:; | 
|---|
| 513 | } | 
|---|
| 514 | } | 
|---|
| 515 | return string_type(old_begin, begin); | 
|---|
| 516 | } | 
|---|
| 517 |  | 
|---|
| 518 | /////////////////////////////////////////////////////////////////////////////// | 
|---|
| 519 | // parse_escape | 
|---|
| 520 | /// INTERNAL ONLY | 
|---|
| 521 | escape_value parse_escape(string_iterator &begin, string_iterator end) | 
|---|
| 522 | { | 
|---|
| 523 | detail::ensure(begin != end, regex_constants::error_escape, "incomplete escape sequence"); | 
|---|
| 524 |  | 
|---|
| 525 | // first, check to see if this can be a backreference | 
|---|
| 526 | if(0 < this->rxtraits().value(*begin, 10)) | 
|---|
| 527 | { | 
|---|
| 528 | // Parse at most 3 decimal digits. | 
|---|
| 529 | string_iterator tmp = begin; | 
|---|
| 530 | int mark_nbr = detail::toi(tmp, end, this->rxtraits(), 10, 999); | 
|---|
| 531 |  | 
|---|
| 532 | // If the resulting number could conceivably be a backref, then it is. | 
|---|
| 533 | if(10 > mark_nbr || mark_nbr <= static_cast<int>(this->mark_count_)) | 
|---|
| 534 | { | 
|---|
| 535 | begin = tmp; | 
|---|
| 536 | escape_value esc = {0, mark_nbr, 0, detail::escape_mark}; | 
|---|
| 537 | return esc; | 
|---|
| 538 | } | 
|---|
| 539 | } | 
|---|
| 540 |  | 
|---|
| 541 | // Not a backreference, defer to the parse_escape helper | 
|---|
| 542 | return detail::parse_escape(begin, end, this->traits_); | 
|---|
| 543 | } | 
|---|
| 544 |  | 
|---|
| 545 | std::size_t mark_count_; | 
|---|
| 546 | std::size_t hidden_mark_count_; | 
|---|
| 547 | CompilerTraits traits_; | 
|---|
| 548 | typename RegexTraits::char_class_type upper_; | 
|---|
| 549 | }; | 
|---|
| 550 |  | 
|---|
| 551 | }} // namespace boost::xpressive | 
|---|
| 552 |  | 
|---|
| 553 | #endif | 
|---|